- ISBN:9787111623144
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:299
- 出版时间:2019-05-01
- 条形码:9787111623144 ; 978-7-111-62314-4
本书特色
本书不仅介绍大规模机器学习的基本概念,还包含丰富的案例研究。书中所选皆为*实用的技术和工具,而对理论细节不进行深入讨论,旨在提供大规模机器学习方法(甚至非常规方法)。不管是初学者、普通用户还是专家级用户,通过本书都能理解并掌握利用Python进行大规模机器学习。为让读者快速掌握核心技术,本书由浅入深讲解大量实例,图文并茂呈现每一步的操作结果,帮助读者更好地掌握大规模机器学习Python工具。例如:基于Scikit-learn可扩展学习、 Liblinear和Vowpal Wabbit快速支持向量机、基于Theano与H2O的大规模深度学习方法、TensorFlow深度学习技术与在线神经网络方法、大规模分类和回归树的可扩展解决方案、大规模无监督学习(PCA,聚类分析和主题建模等)扩展方法、Hadoop和Spark分布式环境、Spark机器学习实践以及Theano和GPU计算的基础知识。
内容简介
本书不仅介绍大规模机器学习的基本概念,还包含丰富的案例研究。书中所选皆为*实用的技术和工具,而对理论细节不进行深入讨论,旨在提供大规模机器学习方法(甚至很好规方法)。不管是初学者、普通用户还是专家级用户,通过本书都能理解并掌握利用Python进行大规模机器学习。为让读者快速掌握核心技术,本书由浅入深讲解大量实例,图文并茂呈现每一步的操作结果,帮助读者更好地掌握大规模机器学习Python工具。例如:基于Scikit-learn可扩展学习、 Liblinear和Vowpal Wabbit快速支持向量机、基于Theano与H2O的大规模深度学习方法、TensorFlow深度学习技术与在线神经网络方法、大规模分类和回归树的可扩展解决方案、大规模无监督学习(PCA,聚类分析和主题建模等)扩展方法、Hadoop和Spark分布式环境、Spark机器学习实践以及Theano和GPU计算的基础知识。
目录
前言
作者简介
审校者简介
第1章迈向可扩展性的**步1
11详细解释可扩展性1
111大规模实例3
112介绍Python4
113使用Python进行向上扩展4
114使用Python进行向外扩展5
12Python用于大规模机器学习6
121选择Python 2还是Python 36
122安装Python7
123逐步安装7
124安装软件包8
125软件包升级9
126科学计算发行版10
127Jupyter/IPython介绍11
13Python包13
131NumPy14
132SciPy14
133pandas14
134Scikitlearn15
135小结21
第2章Scikitlearn中的可扩展学习22
21非核心学习22
211选择子采样23
212一次优化一个实例24
213构建非核心学习系统25
22流化源数据25
221处理真实数据集26
222**个示例——流化共享单车数据集28
223使用pandas I/O工具30
224使用数据库31
225关注实例排序35
23随机学习37
231批处理梯度下降37
232随机梯度下降40
233Scikitlearn的SGD实现40
234定义SGD学习参数42
24数据流的特征管理43
241描述目标46
242哈希技巧49
243其他基本变换51
244流测试和验证52
245使用SGD52
25小结56
第3章实现快速SVM57
31测试数据集58
311共享单车数据集58
312森林覆盖类型数据集58
32支持向量机59
321hinge loss及其变形64
322Scikitlearn的SVM实现65
323探究通过子采样改善非线性SVM68
324使用SGD实现大规模SVM70
33正则化特征选择77
34SGD中的非线性78
35超参数调整82
36小结96
第4章神经网络与深度学习97
41神经网络架构98
411神经网络如何学习106
412选择正确的架构110
413使用神经网络111
414sknn并行化111
42神经网络和正则化113
43神经网络和超参数优化115
44神经网络和决策边界117
45用H2O进行规模化深度学习120
451用H2O进行大规模深度学习121
452H2O上的网格搜索124
46深度学习和无监督预训练126
47使用theanets进行深度学习126
48自动编码器和无监督学习128
49小结131
第5章用TensorFlow进行深度学习132
51TensorFlow安装134
52在TensorFlow上使用SkFlow进行机器学习140
53安装Keras和TensorFlow148
54在TensorFlow中通过Keras实现卷积神经网络152
541卷积层153
542池化层153
543全连接层154
55增量CNN方法156
56GPU计算156
57小结159
第6章大规模分类和回归树160
61bootstrap聚合162
62随机森林和极端随机森林163
63随机搜索实现快速参数优化167
64CART和boosting172
65XGBoost179
651XGBoost回归181
652XGBoost流化大型数据集184
653XGBoost模型存储185
66用H2O实现非核心CART185
661H2O上的随机森林和网格搜索186
662H2O上的随机梯度增强和网格搜索188
67小结191
第7章大规模无监督学习192
71无监督方法192
72特征分解:PCA193
721随机化PCA199
722增量PCA200
723稀疏PCA201
73使用H2O的PCA202
74K-均值聚类算法203
741初始化方法206
742K-均值假设206
743选择*佳K209
744扩展K-均值算法:小批量212
75用H2O实现K-均值216
76LDA218
77小结226
第8章分布式环境——Hadoop和Spark227
81从单机到集群227
82设置VM230
821VirtualBox230
822Vagrant232
823使用VM232
83Hadoop生态系统234
831架构234
832HDFS235
833MapReduce242
834YARN250
84Spark250
85小结260
第9章Spark机器学习实践261
91为本章设置虚拟机261
92跨集群节点共享变量262
921广播只读变量262
922累加器只写变量264
923广播和累加器的示例265
93Spark的数据预处理267
931JSON文件和Spark DataFrame268
932处理缺失数据270
933在内存中分组和创建表271
934将预处理的DataFrame或RDD写入磁盘273
935使用Spark DataFrame274
94Spark机器学习276
941Spark处理KDD99数据集277
942读取数据集277
943特征工程280
944训练学习器284
945评估学习器的表现286
946机器学习管道的威力286
947手动优化288
948交叉验证291
95小结293
附录介绍GPU和Theano294
作者简介
Bastiaan Sjardin是一位具有人工智能和数学背景的数据科学家和公司创始人。他获得莱顿大学和麻省理工学院(MIT)校园课程联合培养的认知科学硕士学位。在过去五年中,他从事过广泛的数据科学和人工智能项目。他是密歇根大学社会网络分析课程Coursera和约翰斯·霍普金斯大学机器学习实践课程的常客。他擅长Python和R编程语言。目前,他是Quandbee(http://wwwquandbeecom)的联合创始人,该公司主要提供大规模机器学习和人工智能应用。
Luca Massaron是一位数据科学家和市场研究总监,擅长多元统计分析、机器学习和客户洞察力研究,在解决实际问题和应用推理、统计、数据挖掘和算法来为用户创造价值方面有十多年经验。从成为意大利网络观众分析的先驱,到跻身前十名的Kaggler,他一直对数据分析充满热情,还向专业人士和普通大众展示数据驱动知识发现的潜力,相比不必要的复杂性,他更喜欢简洁。他相信仅仅通过基本操作就可以在数据科学中收获很多东西。
Alberto Boschetti是一位具有信号处理和统计专业知识的数据科学家。他获得电信工程博士学位,目前在伦敦生活和工作。在其工作项目中,他面临过从自然语言处理(NLP)和机器学习到分布式处理的挑战。 他在工作中充满热情,始终努力了解数据科学的*新发展,他喜欢参加聚会、会议和其他活动。
-
乡村振兴新技术:新时代农村短视频编辑技术基础入门
¥12.8¥32.0 -
AI绘画+AI摄影+AI短视频从入门到精通
¥45.5¥79.8 -
企业AI之旅
¥43.5¥79.0 -
机器学习
¥59.4¥108.0 -
基于知识蒸馏的图像去雾技术
¥61.6¥88.0 -
软件设计的哲学(第2版)
¥51.0¥69.8 -
智能算法优化及其应用
¥52.4¥68.0 -
Photoshop图像处理
¥25.5¥49.0 -
R语言医学数据分析实践
¥72.3¥99.0 -
大模型推荐系统:算法原理、代码实战与案例分析
¥62.3¥89.0 -
剪映 从入门到精通
¥25.7¥59.8 -
游戏造梦师----游戏场景开发与设计
¥67.6¥98.0 -
SAR图像处理与检测
¥35.4¥49.8 -
人工智能
¥29.4¥42.0 -
中文版PHOTOSHOP 2024+AI修图入门教程
¥59.3¥79.0 -
WPS办公软件应用
¥25.2¥36.0 -
格拉斯曼流行学习及其在图像集分类中的应用
¥13.7¥28.0 -
轻松上手AIGC:如何更好地向CHATGPT提问
¥40.3¥62.0 -
元宇宙的理想与现实:数字科技大成的赋能与治理逻辑
¥61.6¥88.0 -
云原生安全:攻防与运营实战
¥66.8¥89.0