- ISBN:9787121384257
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:24cm
- 页数:14,378页
- 出版时间:2020-04-01
- 条形码:9787121384257 ; 978-7-121-38425-7
本书特色
本书结合作者十余年软件开发、系统架构、算法实战及培训经验,致力于系统地阐释Python大数据和机器学习技术。从数据的采集、存储、清洗;到建立模型、统计分析;*终用前端程序呈现给用户的数据展示;以及后台的系统服务支持。结合了Python数据工具使用、算法原理、以及典型实例各个层面,希望读者通过对本书的阅读,少走弯路,以*小的学习成本得到*的知识收益。
本书能教会读者什么:
△ 定义问题:通过现有数据定义产品的功能、评价方法和实现步骤。
△ 数据处理:通过提取、清洗等操作提高现有数据质量。
△ 数据分析:利用统计和机器学习方法分析数据,得出有效结论。
△ 数据建模:使用历史数据训练模型,实现预测功能。
△ 客户展示:以报告或应用程序的方式向客户展示数据分析和模型结果。本书结合作者十余年软件开发、系统架构、算法实战及培训经验,致力于系统地阐释Python大数据和机器学习技术。从数据的采集、存储、清洗;到建立模型、统计分析;*终用前端程序呈现给用户的数据展示;以及后台的系统服务支持。结合了Python数据工具使用、算法原理、以及典型实例各个层面,希望读者通过对本书的阅读,少走弯路,以*小的学习成本得到*的知识收益。
本书能教会读者什么:
△ 定义问题:通过现有数据定义产品的功能、评价方法和实现步骤。
△ 数据处理:通过提取、清洗等操作提高现有数据质量。
△ 数据分析:利用统计和机器学习方法分析数据,得出有效结论。
△ 数据建模:使用历史数据训练模型,实现预测功能。
△ 客户展示:以报告或应用程序的方式向客户展示数据分析和模型结果。
△ 构建系统:集成平台搭建、数据采集存储、分析建模,以及前端界面等功能,产品化。
内容简介
本书从数据的采集、存储、清洗 ; 到建立模型、统计分析 ; *终用前端程序呈现给用户的数据展示 ; 以及后台的系统服务支持。结合了Python数据工具使用、算法原理、以及典型实例各个层面, 希望读者通过对本书的阅读, 少走弯路, 以*小的学习成本得到*大的知识收益。
目录
第1章 Python大数据开发入门 1
1.1 大数据工程师**技能 1
1.2 Python开发环境 5
1.2.1 Windows环境 5
1.2.2 Linux环境 7
1.2.3 Docker环境 10
1.3 Python开发工具 16
1.3.1 Python命令行环境 16
1.3.2 Jupyter环境 18
1.4 Python数据类型 23
1.4.1 数值 24
1.4.2 字符串 24
1.4.3 列表 25
1.4.4 元组 26
1.4.5 集合 26
1.4.6 字典 27
1.5 Python函数和类 27
1.5.1 定义和使用函数 28
1.5.2 lambda匿名函数 28
1.5.3 类和继承 28
1.6 Python常用库 29
1.6.1 Python内置库 29
1.6.2 Python图形图像处理 30
1.6.3 Python自然语言处理 31
1.6.4 Python数据分析和
处理 32
1.6.5 Python机器学习 33
1.7 Python技巧 34
1.7.1 Python程序调试 34
1.7.2 去掉警告信息 35
1.7.3 制作和导入模块 36
1.7.4 异常处理 37
1.8 Python常见问题 38
第2章 科学计算Numpy 40
2.1 多维数组 40
2.1.1 创建数组 40
2.1.2 访问数组 42
2.1.3 修改数组 43
2.2 数组元素运算 44
2.2.1 一元函数 44
2.2.2 二元函数 45
2.2.3 广播 46
2.2.4 自定义ufunc函数 47
2.3 常用函数 48
2.3.1 分段函数 48
2.3.2 统计函数 49
2.3.3 组合与分割 51
2.3.4 矩阵与二维数组 52
2.3.5 其他常用函数 54
第3章 数据操作Pandas 55
3.1 数据对象 55
3.1.1 Series对象 55
3.1.2 DataFrame对象 57
3.1.3 Index对象 60
3.2 数据存取 63
3.2.1 访问数据表元素 63
3.2.2 修改数据表元素 66
3.3 分组运算 68
3.3.1 分组 69
3.3.2 聚合 70
3.3.3 转换 71
3.3.4 过滤 72
3.3.5 应用 72
3.4 日期时间处理 73
3.4.1 Python日期时间处理 73
3.4.2 Pandas日期时间处理 75
3.4.3 时间序列操作 76
3.4.4 数据重排 84
第4章 数据可视化 86
4.1 Matplotlib绘图库 87
4.1.1 准备工作 87
4.1.2 散点图与气泡图 88
4.1.3 线图 90
4.1.4 柱图 92
4.1.5 饼图 95
4.1.6 箱线图和小提琴图 96
4.1.7 三维图 97
4.1.8 Matplotlib绘图区域 100
4.1.9 文字显示问题 103
4.1.10 导出图表 104
4.1.11 Matplotlib技巧 105
4.2 Seaborn高级数据可视化 107
4.2.1 准备工作 107
4.2.2 连续变量相关图 108
4.2.3 分类变量图 109
4.2.4 回归图 113
4.2.5 多图组合 115
4.2.6 热力图 118
4.2.7 印刷品作图 119
4.3 PyEcharts交互图 119
4.3.1 ECharts 119
4.3.2 准备工作 120
4.3.3 绘制交互图 120
4.3.4 在网页中显示图 123
第5章 获取数据 125
5.1 读写文件 126
5.1.1 读写文本文件 126
5.1.2 写日志文件 127
5.1.3 读写XML文件 128
5.1.4 读写Json文件 130
5.1.5 读写CSV文件 131
5.1.6 读写PKL文件 132
5.1.7 读写HDF5文件 133
5.1.8 读写Excel文件 134
5.2 读写数据库 135
5.2.1 数据库基本操作 136
5.2.2 Python存取MySQL
数据库 138
5.2.3 Python存取SQL Server
数据库 140
5.2.4 Python存取Sqlite
数据库 143
5.2.5 Python存取Dbase
数据库 143
5.3 读写数据仓库 144
5.3.1 读取ElasticSearch
数据 144
5.3.2 读取S3云存储数据 146
5.3.3 读取Hive数据 148
5.4 获取网络数据 151
5.4.1 从网络接口读取
数据 151
5.4.2 抓取网站数据 152
5.4.3 使用POST方法抓取
数据 153
5.4.4 转换HTML文件 153
5.5 选择数据存储方式 154
第6章 数据预处理 155
6.1 数据类型识别与转换 155
6.1.1 基本类型转换 156
6.1.2 数据类型识别 157
6.2 数据清洗 158
6.2.1 缺失值处理 158
6.2.2 异常值处理 160
6.2.3 去重处理 162
6.3 数据归约 163
6.3.1 经验筛选特征 163
6.3.2 统计学方法筛选
特征 163
6.3.3 模型筛选特征 164
6.3.4 数学方法降维 165
6.4 数据抽样 166
6.4.1 简单随机抽样 167
6.4.2 系统抽样 168
6.4.3 分层抽样 168
6.4.4 整群抽样 168
6.5 数据组合 169
6.5.1 merge函数 169
6.5.2 concat函数 170
6.6 特征提取 171
6.6.1 数值型特征 171
6.6.2 分类型特征 171
6.6.3 字符型特征 172
第7章 数据分析 175
7.1 入门实例 175
7.2 假设检验 177
7.2.1 基本概念 177
7.2.2 假设检验的步骤 178
7.2.3 统计分析工具 178
7.3 参数检验与非参数检验 179
7.3.1 正态性检验 179
7.3.2 方差齐性检验 181
7.3.3 分析检验结果 182
7.4 T检验 182
7.4.1 单样本T检验 182
7.4.2 独立样本T检验 183
7.4.3 配对样本T检验 183
7.5 方差分析 184
7.6 秩和检验 185
7.7 卡方检验 186
7.8 相关性分析 187
7.8.1 图形描述相关性 188
7.8.2 正态资料的相关
分析 189
7.8.3 非正态资料的相关
分析 190
7.9 变量分析 190
7.9.1 单变量分析 190
7.9.2 多变量分析 191
7.10 TableOne工具 193
7.11 统计方法总结 194
第8章 机器学习基础知识 196
8.1 基本概念 196
8.1.1 深度学习、机器学习、
人工智能 197
8.1.2 有监督学习、无监督
学习、半监督学习 197
8.1.3 训练集、验证集、
测试集 198
8.1.4 过拟合与欠拟合 198
8.1.5 常用术语 199
8.2 评价模型 199
8.2.1 方差、协方差、协
方差矩阵 200
8.2.2 距离与范数 204
8.2.3 回归效果评估 207
8.2.4 分类效果评估 210
第9章 机器学习模型与工具 216
9.1 基于距离的算法 217
9.1.1 K近邻算法 217
9.1.2 聚类算法 219
9.2 线性回归与逻辑回归 221
9.2.1 线性回归 222
9.2.2 逻辑回归 225
9.3 支持向量机 226
9.4 信息熵和决策树 230
9.4.1 信息量和熵 231
9.4.2 决策树 234
9.5 关联规则 236
9.5.1 Apriori关联规则 237
9.5.2 FP-Growth关联
分析 240
9.6 贝叶斯模型 242
9.6.1 贝叶斯公式 242
9.6.2 朴素贝叶斯算法 244
9.6.3 贝叶斯网络 248
9.7 隐马尔可夫模型 250
9.8 集成算法 254
第10章 模型选择与相关技术 259
10.1 数据准备与模型选择 259
10.1.1 预处理 259
10.1.2 选择模型 260
10.2 自动机器学习框架 263
10.2.1 框架原理 263
10.2.2 Auto-Sklearn 264
10.2.3 Auto-ML 266
10.2.4 Auto-Keras 267
10.3 自然语言处理 269
10.3.1 分词工具 269
10.3.2 TF-IDF 271
10.4 建模相关技术 274
10.4.1 切分数据集与交叉
验证 274
10.4.2 模型调参 276
10.4.3 学习曲线和验证
曲线 279
10.4.4 保存模型 282
第11章 大数据竞赛平台 283
11.1 定义问题 283
11.1.1 强人工智能与弱
人工智能 284
11.1.2 Datathon竞赛 285
11.2 算法竞赛 286
11.2.1 大数据竞赛平台
优势 287
11.2.2 Kaggle大数据
平台 288
11.2.3 实战泰坦尼克号
幸存问题 288
11.2.4 国内大数据平台 294
11.2.5 赛题选择 294
11.2.6 比赛注意事项 295
第12章 决策问题:幸福感挖掘 296
12.1 赛题解读 296
12.2 模型初探 297
12.3 模型调优 299
12.3.1 模型粗调 299
12.3.2 模型精调 300
12.4 模型输出 305
12.4.1 显示决策树 305
12.4.2 特征重要性 306
12.5 XGBoost模型 307
12.5.1 XGBoost参数分析 307
12.5.2 XGBoost原理解析 308
12.5.3 XGBoost源码分析 312
第13章 迁移学习:猫狗图片分类 317
13.1 深度学习神经网络 317
13.1.1 深度学习 318
13.1.2 卷积神经网络 319
13.1.3 卷积神经网络
发展史 321
13.2 使用现有的神经网络模型 321
13.3 迁移学习 322
13.4 解决猫狗分类问题 323
13.4.1 数据及代码结构 323
13.4.2 提取特征 324
13.4.3 训练模型和预测 325
13.4.4 训练结果分析 326
13.4.5 代码下载 327
第14章 图像分割:识别图中物体 328
14.1 Mask R-CNN算法 329
14.1.1 R-CNN 329
14.1.2 SPP Net 330
14.1.3 Fast R-CNN 330
14.1.4 Faster R-CNN 331
14.1.5 Mask R-CNN 332
14.2 Mask R-CNN源码解析 332
14.2.1 安装工具 332
14.2.2 源码结构 333
14.3 训练模型与预测 334
14.3.1 制作训练数据 335
14.3.2 训练模型和预测 338
14.3.3 建模相关问题 344
第15章 时间序列分析 346
15.1 时序问题处理流程 346
15.1.1 分析问题 346
15.1.2 解决思路 347
15.2 趋势分析工具ARIMA 349
15.2.1 相关概念 349
15.2.2 模型示例 353
15.3 傅里叶和小波变换 357
15.3.1 傅里叶变换 358
15.3.2 小波变换 360
15.4 Prophet时序模型 361
15.4.1 模型介绍 362
15.4.2 获取数据 362
15.4.3 模型示例 363
第16章 自然语言处理:微博互动
预测 367
16.1 赛题分析 367
16.1.1 数据分析 368
16.1.2 1
作者简介
谢彦,从事软件开发和算法研发十余年,曾就职于联想研究院、元心科技等公司。参与研发机顶盒、上网本、智能手机操作系统,工作涉及上层应用、集群构建、图形底层优、语音合成与识别、数据挖掘、深度学习算法等。带领团队经验丰富,擅长团队内部人才培训。个人开发的应用“天琴语音阅读器”用户数达百万量级,近两年撰写数据挖掘和机器学习文章百余篇,CSDN阅读量100多万人次。现就职于和兴创联健康科技有限公司,专注于医疗大数据应用研发。作者的公众号:算法学习分享。
-
全图解零基础word excel ppt 应用教程
¥12.0¥48.0 -
C Primer Plus 第6版 中文版
¥62.6¥108.0 -
零信任网络:在不可信网络中构建安全系统
¥37.2¥59.0 -
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
硅谷之火-人与计算机的未来
¥20.3¥39.8 -
机器人的天空
¥26.9¥56.0 -
情感计算
¥66.8¥89.0 -
大模型RAG实战 RAG原理、应用与系统构建
¥74.3¥99.0 -
LINUX企业运维实战(REDIS+ZABBIX+NGINX+PROMETHEUS+GRAFANA+LNMP)
¥55.2¥69.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥67.4¥89.8 -
LINUX实战——从入门到精通
¥49.0¥69.0 -
剪映AI
¥52.8¥88.0 -
快速部署大模型:LLM策略与实践(基于ChatGPT等大语言模型)
¥56.9¥79.0 -
数据驱动的工业人工智能:建模方法与应用
¥68.3¥99.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥76.3¥109.0 -
UG NX 12.0数控编程
¥24.8¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
UN NX 12.0多轴数控编程案例教程
¥24.3¥38.0 -
实战知识图谱
¥48.3¥69.0