×
机械工业出版社PYTHON数据科学导论:概念.技术与应用

机械工业出版社PYTHON数据科学导论:概念.技术与应用

1星价 ¥47.2 (8.0折)
2星价¥47.2 定价¥59.0
暂无评论
图文详情
  • ISBN:9787111604648
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 开本:其他
  • 页数:182
  • 出版时间:2018-08-01
  • 条形码:9787111604648 ; 978-7-111-60464-8

本书特色

适读人群 :本书可被用于任何入门的数据科学课程。采用基于问题的方法来引入新概念对初学者来说是有帮助的。针对不同问题实现的代码解决方案对学生来说是一种很好的练习。而且,当学生面对更大的项目时,这些代码可以作为基准。 《Python数据科学导论:概念、技术与应用》已用于西班牙巴塞罗那大学“数据科学和大数据”课程。 《Python数据科学导论:概念、技术与应用》具有如下特色: 1) 提供了许多基于真实世界数据的实际案例研究。 2) 通过使用Python解决数据科学问题的实践经验来加深理解。 3) 介绍了用于统计分析、机器学习、图像分析和并行编程的技术和工具。 4) 回顾了数据科学的一系列应用,包括推荐系统和基于文本数据的情感分析。 5) 在相关网站上提供了补充代码资源和数据(见本书前言)。

内容简介

《Python数据科学导论》通过理论与实践相结合的方式来阐述数据科学的一系列重要概念及算法,以使读者学会如何管理并利用数据。本书共有11章,靠前章概要地介绍了数据科学的现状并给出了一些使用本书的建议;第2章介绍了Python语言数据科学生态系统,涉及NumPy、SciPy和Pandas等热门第三方库;第3~7章着重讲解了统计学和机器学习的知识,涉及描述统计学、统计推断、监督学习、回归分析、无监督学习等主题;第8~10章详细介绍了数据科学的一些主要应用,如网络分析、推荐系统和情感分析;靠前1章介绍了并行计算及性能优化方法。

目录

译者序
原书前言
作者和贡献者简介


第1章 数据科学概述 // 1
1.1 什么是数据科学 //1
1.2 关于本书 //2


第2章 数据专家的工具箱 //4
2.1 引言 // 4
2.2 为什么选择Python // 4
2.3 数据专家的基本Python库 // 5
2.3.1 数值和科学计算:NumPy和SciPy // 5
2.3.2 Scikit-learn:Python中的机器学习库 // 5
2.3.3 Pandas:Python数据分析库 // 5
2.4 数据科学生态系统的安装 // 6
2.5 集成开发环境 // 6
2.5.1 网络集成开发环境:Jupyter // 7
2.6 数据专家从Python开始 // 7
2.6.1 读取 // 11
2.6.2 选择数据 // 13
2.6.3 筛选数据 // 14
2.6.4 筛选缺失的数据 // 15
2.6.5 处理数据 // 15
2.6.6 排序 // 19
2.6.7 分组数据 // 20
2.6.8 重排数据 // 21
2.6.9 对数据进行排名 // 22
2.6.10 绘图 // 23
2.7 小结 // 24


第3章 描述统计学 // 25
3.1 引言 // 25
3.2 数据准备 // 25
3.2.1 Adult数据集示例 // 26
3.3 探索性数据分析 // 28
3.3.1 汇总数据 // 28
3.3.2 数据分布 // 31
3.3.3 离群点的处理 // 33
3.3.4 测量不对称性:偏度和皮尔逊中值偏度系数 // 36
3.3.5 连续分布 // 38
3.3.6 核密度 // 39
3.4 估计 // 41
3.4.1 样本和估计均值、方差和标准记分 // 41
3.4.2 协方差、皮尔逊相关和斯皮尔曼秩相关 // 42
3.5 小结 // 44
参考文献 // 45


第4章 统计推断 // 46
4.1 引言 // 46
4.2 统计推断:频率论方法 // 46
4.3 测量估计的差异性 // 47
4.3.1 点估计 // 47
4.3.2 置信区间 // 50
4.4 假设检验 // 53
4.4.1 用置信区间检验假设 // 53
4.4.2 使用p值检验假设 // 55
4.5 效应E是真实的吗 // 57
4.6 小结 // 57
参考文献 // 58


第5章 监督学习 // 59
5.1 引言 // 59
5.2 问题 // 60
5.3 **步 // 60
5.4 什么是学习? // 69
5.5 学习曲线 // 70
5.6 训练、验证和测试 // 73
5.7 两种学习模型 // 76
5.7.1 学习三要素 // 76
5.7.2 支持向量机 // 77
5.7.3 随机森林 // 79
5.8 结束学习过程 // 80
5.9 商业案例 // 81
5.10 小结 // 83
参考文献 // 83


第6章 回归分析 // 84
6.1 引言 // 84
6.2 线性回归 // 84
6.2.1 简单线性回归 // 85
6.2.2 多元线性回归和多项式回归 // 90
6.2.3 稀疏模型 // 90
6.3 逻辑斯蒂回归 // 97
6.4 小结 // 99
参考文献 // 99


第7章 无监督学习 // 100
7.1 引言 // 100
7.2 聚类 // 100
7.2.1 相似度和距离 // 101
7.2.2 什么是一个好的聚类?定义衡量聚类质量的度量 // 101
7.2.3 聚类技术的分类标准 // 104
7.3 案例学习 // 113
7.4 小结 // 118
参考文献 // 119


第8章 网络分析 // 120
8.1 引言 // 120
8.2 图的基本定义 // 121
8.3 社交网络分析 // 122
8.3.1 NetworkX基础 // 122
8.3.2 实际案例:Facebook数据集 // 123
8.4 中心性 // 125
8.4.1 在图中绘制中心性 // 130
8.4.2 PageRank // 132
8.5 自我网络 // 134
8.6 社区发现 // 138
8.7 小结 // 139
参考文献 // 139


第9章 推荐系统 // 140
9.1 引言 // 140
9.2 推荐系统如何工作? // 140
9.2.1 基于内容的过滤 // 141
9.2.2 协作过滤 // 141
9.2.3 混合推荐系统 // 141
9.3 建模用户偏好 // 142
9.4 评估推荐系统 // 142
9.5 实际案例 // 143
9.5.1 MovieLens数据集 // 143
9.5.2 基于用户的协作过滤 // 145
9.6 小结 // 153
参考文献 // 153


第10章 用于情感分析的统计自然语言处理 // 154
10.1 引言 // 154
10.2 数据清洗 // 155
10.3 文本表示 // 158
10.3.1 二元组和n元组 // 163
10.4 实际案例 // 163
10.5 小结 // 168
参考文献 // 168


第11章 并行计算 // 169
11.1 引言 // 169
11.2 架构 // 170
11.2.1 入门指南 // 171
11.2.2 连接到集群(引擎)// 171
11.3 多核编程 // 172
11.3.1 引擎的直接视图 // 172
11.3.2 引擎的负载均衡视图 // 175
11.4 分布式计算 // 176
11.5 实际应用:纽约出租车旅行 // 177
11.5.1 直接视图非阻塞方案 // 178
11.5.2 实验结果 // 180
11.6 小结 // 182
参考文献 // 182

展开全部

作者简介

Laura Igual博士是巴塞罗那大学数学和计算机科学系的副教授。她于2000 年获得西班牙瓦伦西亚大学的数学学位,并于2006 年获得西班牙庞培法布拉大学的博士学位。她的研究领域包括计算机视觉、医学成像、机器学习和数据科学。 Santi Seguí博士是巴塞罗那大学数学和计算机科学系的助理教授。自2007 年起,他担任了西班牙巴塞罗那自治大学的计算机科学工程师。他于2011 年获得西班牙巴塞罗那大学的博士学位。他的研究领域包括计算机视觉、应用机器学习和数据科学。 章宗长博士,苏州大学特聘副教授,硕士生导师,网易人工智能研究顾问。2012年6月毕业于中国科学技术大学计算机应用技术专业,获工学博士学位。2010年10月-2011年10月在美国罗格斯大学计算机科学系做访问学者,2012年8-10月在华为诺亚方舟实验室担任研究工程师,2012年11月-2014年6月在新加坡国立大学计算学院从事博士后研究,2014年7月起在苏州大学工作。目前主要从事部分可观测马氏决策过程(POMDPs)、强化学习和多智能体系统理论等方面的研究。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航