- ISBN:9787111703471
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:336
- 出版时间:2022-05-01
- 条形码:9787111703471 ; 978-7-111-70347-1
本书特色
适读人群 :数据科学和大数据相关专业学生及相关领域从业者本书对迅速兴起的数据科学跨学科领域提供必要的介绍,重点介绍构建用于收集、分析和解释数据的系统所需的关键技能,以及成为优秀数据科学家的基本原则。“正确地做简单的事情”,帮助读者发展数学直觉,用少的数学推导说明关键概念。本书使用计算机科学家自然的方法突出统计推理的核心价值,不依赖任何特定的编程语言或数据分析工具套件,而是侧重于对重要设计原则的深入讨论。 本书特色: ·包含“实战故事”,为数据科学如何应用于现实世界提供参考。 ·强调“错误的开始”,揭示某些方法失败的微妙原因。 ·提供“课后拓展”,强调每一章中需要特别注意的一些概念。 ·包括“练习”,为读者自学提供广泛的习题和项目。 ·“Kaggle挑战”让读者挑战现实世界中的问题。 本书对迅速兴起的数据科学跨学科领域提供必要的介绍,重点介绍构建用于收集、分析和解释数据的系统所需的关键技能,以及成为优秀数据科学家的基本原则。“正确地做简单的事情”,帮助读者发展数学直觉,用少的数学推导说明关键概念。本书使用计算机科学家自然的方法突出统计推理的核心价值,不依赖任何特定的编程语言或数据分析工具套件,而是侧重于对重要设计原则的深入讨论。 本书特色: ·包含“实战故事”,为数据科学如何应用于现实世界提供参考。 ·强调“错误的开始”,揭示某些方法失败的微妙原因。 ·提供“课后拓展”,强调每一章中需要特别注意的一些概念。 ·包括“练习”,为读者自学提供广泛的习题和项目。 ·“Kaggle挑战”让读者挑战现实世界中的问题。
内容简介
本书由算法领域的知名专家Steven Skiena教授撰写,重点介绍了收集、分析和解释数据所需的技能和原理。作者由浅入深地介绍了数据科学的概念、所需的数学基础、数据的整理清洗方法、数据分析方法(统计分析、可视化、数学模型、线性逻辑回归、机器学习算法等)以及学习大数据分析的意义。作者结合应用领域的大量数据分析案例,以解释大数据分析所需技能与原理,帮助者快速理解和掌握大数据分析的理论与方法,也将这些技能的实际应用方式展现得淋漓尽致,具有很强的可操作性。
目录
前言
第1章 什么是数据科学1
1.1 计算机科学、数据科学和真正的科学1
1.2 从数据中提出有趣的问题3
1.2.1 棒球百科全书3
1.2.2 互联网电影数据库6
1.2.3 Google Ngrams7
1.2.4 纽约出租车记录9
1.3 数据的属性11
1.3.1 结构化与非结构化数据11
1.3.2 定量数据与类别数据11
1.3.3 大数据与小数据12
1.4 分类与回归12
1.5 关于数据科学的电视节目:The Quant Shop13
1.6 关于实战故事15
1.7 实战故事:回答正确的问题16
1.8 章节注释17
1.9 练习17
第2章 数学基础20
2.1 概率20
2.1.1 概率与统计21
2.1.2 复合事件与独立事件22
2.1.3 条件概率23
2.1.4 概率分布23
2.2 描述性统计25
2.2.1 中心性度量25
2.2.2 变异性度量26
2.2.3 解释方差27
2.2.4 描述分布29
2.3 相关性分析29
2.3.1 相关系数:皮尔逊和斯皮尔曼秩30
2.3.2 相关的强弱与显著性31
2.3.3 相关性并不意味着因果关系33
2.3.4 用自相关检测周期性34
2.4 对数35
2.4.1 对数与乘法概率35
2.4.2 对数和比率35
2.4.3 对数与正规化偏态分布36
2.5 实战故事:契合设计师基因37
2.6 章节注释39
2.7 练习39
第3章 数据整理42
3.1 数据科学语言42
3.1.1 notebook环境的重要性44
3.1.2 标准数据格式45
3.2 数据收集47
3.2.1 搜索47
3.2.2 爬取49
3.2.3 网络日志50
3.3 数据清洗50
3.3.1 错误与伪影51
3.3.2 数据兼容性52
3.3.3 处理缺失值56
3.3.4 离群值检测57
3.4 实战故事:打败市场58
3.5 众包59
3.5.1 一便士的实验59
3.5.2 什么时候有群体智慧60
3.5.3 聚合机制61
3.5.4 众包服务62
3.5.5 游戏化65
3.6 章节注释66
3.7 练习66
第4章 得分和排名69
4.1 体重指数70
4.2 开发评分系统72
4.2.1 黄金标准和代理72
4.2.2 排名与得分72
4.2.3 识别良好的评分函数74
4.3 Z得分和归一化75
4.4 高级排名技术76
4.4.1 Elo排名76
4.4.2 合并排名78
4.4.3 基于有向图的排名80
4.4.4 PageRank80
4.5 实战故事:Clyde的复仇81
4.6 阿罗不可能性定理83
4.7 实战故事:谁更大84
4.8 章节注释87
4.9 练习87
第5章 统计分析89
5.1 统计分布90
5.1.1 二项分布90
5.1.2 正态分布91
5.1.3 正态分布的含义93
5.1.4 泊松分布93
5.1.5 幂律分布95
5.2 从分布中采样97
5.3 统计显著性99
5.3.1 显著性的意义100
5.3.2 t检验:比较总体均值101
5.3.3 Kolmogorov-Smirnov检验102
5.3.4 Bonferroni校正104
5.3.5 错误发现率104
5.4 实战故事:发现青春之泉105
5.5 置换检验与p值106
5.5.1 产生随机排列108
5.5.2 迪马吉奥的连胜纪录109
5.6 贝叶斯定理110
5.7 章节注释111
5.8 练习111
第6章 数据可视化114
6.1 探索性数据分析115
6.1.1 面对新的数据集115
6.1.2 汇总统计量和Anscombe四重线117
6.1.3 可视化工具119
6.2 发展可视化美学119
6.2.1 *大化数据墨水比率120
6.2.2 *小化谎言因子121
6.2.3 *大限度地减少图表垃圾122
6.2.4 恰当的缩放和标注123
6.2.5 有效使用颜色和阴影124
6.2.6 重复的力量125
6.3 图表类型125
6.3.1 表格数据127
6.3.2 点状图和折线图128
6.3.3 散点图131
6.3.4 条形图和饼图133
6.3.5 直方图135
6.3.6 数据地图137
6.4 出色的可视化139
6.4.1 Marey的火车时刻表139
6.4.2 斯诺的霍乱地图140
6.4.3 纽约气象年141
6.5 读图141
6.5.1 模糊分布141
6.5.2 过度解释方差142
6.6 交互式可视化143
6.7 实战故事:TextMap144
6.8 章节注释146
6.9 练习146
第7章 数学模型149
7.1 建模哲学149
7.1.1 奥卡姆剃刀原理149
7.1.2 权衡偏差与方差150
7.1.3 Nate Silver会怎么做150
7.2 模型分类152
7.2.1 线性模型与非线性模型152
7.2.2 黑盒与描述性模型152
7.2.3 **原理与数据驱动模型153
7.2.4 随机模型与确定性模型154
7.2.5 平面模型与分层模型155
7.3 基准模型155
7.3.1 分类的基准模型155
7.3.2 价值预测的基准模型156
7.4 评估模型157
7.4.1 评估分类器158
7.4.2 受试者工作特征曲线161
7.4.3 评估多类系统162
7.4.4 评估价值预测模型164
7.5 评估环境165
7.5.1 数据卫生评估167
7.5.2 放大小型评估集167
7.6 实战故事:100%准确169
7.7 模拟模型170
7.8 实战故事:经过计算的赌注170
7.9 章节注释1
作者简介
史蒂文·S. 斯基纳(Steven S.Skiena)博士是石溪大学的杰出教授,研究方向是数据科学、自然语言处理和算法。由于对本科教学工作有杰出贡献,他曾获得IEEE计算机科学与工程本科教学奖。他还撰写了6本书,包括知名的The Algorithm Design Manual、Programming Challenges: The Programming Contest Training Manual。
-
深度学习的数学
¥43.5¥69.0 -
全图解零基础word excel ppt 应用教程
¥19.0¥48.0 -
机器学习
¥59.4¥108.0 -
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥31.9¥65.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥76.3¥109.0 -
UG NX 12.0数控编程
¥22.1¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥83.3¥119.0 -
Visual Basic 语言程序设计基础(第6版)
¥32.0¥45.0 -
贝叶斯推理与机器学习
¥139.3¥199.0