- ISBN:9787121441332
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:448
- 出版时间:2022-08-01
- 条形码:9787121441332 ; 978-7-121-44133-2
本书特色
(1)对知识进行清晰讲解。 数据科学知识体系宏大、内容繁多,具有很强的多学科交叉特征,因此作为入门教材及读物,本书在保证体系架构相对完整的前提下,力求对相关知识内容进行合理的取舍,并根据知识脉络进行编排。对于涉及的知识点,本书力争在讲明基本概念与基本原理的同时指出来龙去脉,说明对数据科学的作用,以及在数据应用中的使用方法,等等,且配以充实的案例和示例,避免罗列空洞的概念和堆砌枯燥的理论。同时对于文字论述,本书力求准确严谨、通俗自然。 (2)对操作进行有效实现。 数据科学是一门实操性很强的科学,不能只重视数据科学的思想性和理论性,忽视数据科学的方法性和实践性。学习者只有边学边做才能对知识点有更加深刻的认知,并在课后练习和工作实践中举一反三,不断提高。作者根据市场调研和教学反馈等信息,将Python计算机语言、SQL数据查询语言和Tableau可视化工具作为目前数据科学常用的基本软件,并将网络爬虫、数据管理Navicat和大数据平台databricks等作为典型工具,本书用专门章节对其进行介绍,可使学习者快速把握这些技术工具的全貌与精髓,从而尽可能地将数据科学的理论方法应用到实践中。 (3)登录华信教育资源网(www.hxedu.com.cn)可下载本书涉及的案例与示例的全部代码和数据集,以及各章PPT和教学大纲等资料。
内容简介
本书引导读者从数据科学基本概念出发,全面了解数据科学相关知识,掌握数据科学中数据处理的流程和方法。本书在理论上突出可读性和完整性,力求兼具一定的广度和深度;在实践上强调对常用技术工具的操作性,力求体现数据科学应用的多样性和代表性。全书共12章,可分为三大部分:第1、2章是数据科学概述部分;第3~6章是数据科学理论基础和重点工具部分;第7~12章是数据科学全流程的技术与方法部分(包括数据采集、数据存储与管理、数据可视化、数据分析、数据安全与伦理,以及数据科学的应用与案例)。登录华信教育资源网(www.hxedu.com.cn)可下载本书涉及的案例与示例的全部代码和数据集,以及各章PPT和教学大纲等资料。本书可作为高等院校数据科学相关专业的教学用书,也可作为数据科学相关研究从业人员的参考用书。
目录
第1章 数据与信息概述 1
1.1 数据的概念、特征和作用 1
1.1.1 数据的概念 1
1.1.2 数据的特征 2
1.1.3 数据的作用 3
1.2 数据的尺度与类型 3
1.2.1 定性数据和定量数据 4
1.2.2 离散数据和连续数据 5
1.2.3 结构化数据和非结构化数据 5
1.3 数据的表格化 8
1.3.1 个体数据的表格化 8
1.3.2 批量汇总数据的表格化 9
1.3.3 统计指标 11
1.4 数据的数字化 12
1.4.1 二进制与数字化 12
1.4.2 文本的数字化 13
1.4.3 数字的数字化 15
1.4.4 多媒体的数字化 17
1.4.5 数字化转型与数字化经济 18
1.5 信息与信息熵 19
1.5.1 信息熵:不确定性的度量 19
1.5.2 信息增益:不确定性减少的度量 20
第2章 数据科学概述 22
2.1 数据科学的科学观 22
2.1.1 从科学高度看数据科学 22
2.1.2 通过案例初识数据科学 23
2.2 数据科学概念 25
2.2.1 数据科学产生的重大技术背景 25
2.2.2 数据科学产生的典型应用背景 25
2.2.3 数据科学的定义 27
2.3 历史观察:探讨数据科学的发展历程 27
2.3.1 古代:从结绳记事到阿拉伯数字 27
2.3.2 古典:政治算术和国势学 29
2.3.3 近代:随机现象、概率论与数理统计 29
2.3.4 现代:抽样与推断统计 31
2.3.5 计算机时代:技术革命带来的繁荣 32
2.3.6 大数据时代:奠定数据科学基础 33
2.4 数据世界:探讨数据科学的对象 37
2.4.1 数据世界和数据科学 37
2.4.2 数据世界和数字孪生 38
2.5 DIKW模型:探讨数据科学中的若干基本概念 39
2.5.1 DIKW模型 39
2.5.2 从DIKW模型看数据科学 41
2.6 维恩图:探讨数据科学的学科交叉性 42
2.6.1 文献中的数据科学维恩图 42
2.6.2 数据科学学科交叉性的总结 43
2.7 从数据到模型:探讨数据科学的一般方法 45
2.7.1 反问题的方法 45
2.7.2 数据驱动的方法 46
2.7.3 模型化的方法 47
2.8 数据处理流程:探讨数据科学方法论 53
2.8.1 传统理念下的数据处理方法论 53
2.8.2 计算机时代的数据处理方法论 54
2.8.3 大数据时代的数据处理方法论 56
2.9 三维视角:总览数据科学 58
2.9.1 从三维视角看数据科学 58
2.9.2 理论方法维度 58
2.9.3 处理流程维度 60
2.9.4 应用领域维度 60
第3章 数据科学中的计算机基础 61
3.1 计算机系统概述 61
3.1.1 计算机的发展 62
3.1.2 计算机的种类 62
3.2 计算机硬件 63
3.2.1 计算机硬件的组成 63
3.2.2 计算机硬件的工作原理 64
3.3 计算机软件 65
3.3.1 操作系统 65
3.3.2 计算机语言 66
3.3.3 应用软件 68
3.4 计算机网络 68
3.4.1 局域网、广域网和因特网 69
3.4.2 计算机网络的通信协议 71
3.5 计算机应用的技术模式 72
3.5.1 主机/终端模式 72
3.5.2 客户机/服务器模式 73
3.5.3 浏览器/服务器模式 74
3.5.4 云计算模式 75
3.5.5 对等模式 78
3.6 计算机应用 79
3.6.1 科学计算 79
3.6.2 数据处理与大数据 80
3.6.3 人工智能 81
3.6.4 过程控制 85
第4章 数据科学中的数学与统计学基础 86
4.1 微积分与数据科学应用 87
4.1.1 微积分的产生背景 87
4.1.2 微积分的基本思想方法 88
4.1.3 梯度下降法及数据科学应用示例 90
4.2 线性代数与数据科学应用 93
4.2.1 向量与向量空间及应用示例 93
4.2.2 矩阵与线性变换及应用示例 95
4.2.3 特征值与奇异值及数据科学应用示例 99
4.3 统计学与数据科学应用 103
4.3.1 描述统计要点 104
4.3.2 概率与概率分布要点 107
4.3.3 推断统计和多元统计分析要点 108
4.3.4 贝叶斯思维在数据科学中的应用 109
4.4 集合论与数据科学的应用 113
4.4.1 集合论与罗素悖论 113
4.4.2 粗糙集与数据科学应用示例 115
4.5 图论与数据科学的应用 120
4.5.1 欧拉和哥尼斯堡七桥问题 120
4.5.2 图论的发展沿革 121
4.5.3 图论与数据科学应用示例 122
第5章 数据科学中的SQL基础 125
5.1 SQL概述 125
5.1.1 SQL的优点 125
5.1.2 MySQL和SQL入门 127
5.2 SQL的数据定义和应用 130
5.2.1 SQL数据定义语句 131
5.2.2 SQL数据定义应用 133
5.3 SQL的数据操纵和应用 137
5.3.1 SQL数据操纵语句 137
5.3.2 SQL数据操纵应用 137
5.4 SQL的数据查询 139
5.4.1 SELECT语句的简单应用 139
5.4.2 SELECT语句的进阶应用 145
5.4.3 SELECT语句的其他应用 150
5.5 MySQL的系统管理 151
5.5.1 MySQL的用户管理 151
5.5.2 MySQL的权限管理 152
5.5.3 MySQL的事务管理 153
5.5.4 MySQL的文件存储和日志管理 155
5.5.5 MySQL的客户端数据库管理工具Navicat 158
第6章 数据科学中的Python基础 160
6.1 Python概述 160
6.1.1 Python的特点 160
6.1.2 Python的安装和启动 161
6.1.3 **个Python程序与帮助 162
6.2 Python基础 164
6.2.1 Python的基本数据类型和组织 164
6.2.2 Python的程序结构和流程控制 169
6.2.3 异常处理结构 173
6.3 Python语言进阶 176
6.3.1 面向对象程序设计 176
6.3.2 模块与包 177
6.3.3 Python综合:chaos混沌态 178
6.4 NumPy入门 181
6.4.1 NumPy数组的创建 182
6.4.2 NumPy数组的访问 185
6.4.3 NumPy数组的计算 186
6.5 Pandas入门 190
6.5.1 Pandas的数据组织 191
6.5.2 Pandas的数据加工处理 194
6.6 Matplotlib入门 196
6.6.1 Matplotlib的基本绘图 196
6.6.2 Matplotlib的参数配置 198
6.6.3 Matplotlib的子图设置 200
6.6.4 Matplotlib的常见统计图 201
6.7 Python综合应用示例:对空气质量监测数据的分析 206
6.7.1 空气质量数据的预处理 207
6.7.2 空气质量数据的基本分析 209
6.7.3 空气质量数据的可视化 212
第7章 数据采集 217
7.1 传统数据采集方式和技术 218
7.1.1 普查和统计报表制度 218
7.1.2 抽样调查和问卷调查 220
7.1.3 观察法和实验法 221
7.1.4 传统数据采集技术 224
7.2 互联网数据采集 226
7.2.1 互联网数据采集概述 227
7.2.2 网站运营数据库和数据分析及采集 227
7.2.3 网页埋点和数据采集 229
7.2.4 开放数据库和数据采集 231
7.2.5 搜索引擎和数据采集 233
7.2.6 网页爬虫和数据采集 236
7.3 物联网数据采集 240
7.3.1 物联网数据采集概述 240
7.3.2 传感器和数据采集 241
7.3.3 卫星通信和数据采集 242
7.3.4 射频识别技术、条形码和数据采集 244
7.4 数据采集与人工智能 245
7.4.1 数据标注与数据采集 246
7.4.2 文本数据采集和挖掘 248
7.4.3 图像数据采集和识别 249
第8章 数据存储与管理 251
8.1 数据文件和数据库系统 251
8.1.1 数据文件 251
8.1.2 数据库系统的概念 254
8.1.3 关系型数据库系统和联机事务处理 255
8.1.4 数据库索引技术 257
8.2 数据仓库系统 260
8.2.1 数据仓库的概念 260
8.2.2 数据仓库系统的基本结构 261
8.2.3 联机分析处理 264
8.2.4 知识发现与商业智能 266
8.3 数据库系统的技术发展 268
8.3.1 并行数据库技术 269
8.3.2 分布式数据库技术 271
8.3.3 NoSQL数据库系统和NewSQL数据库系统 272
8.4 Hadoop大数据系统 275
8.4.1 什么是Hadoop 275
8.4.2 HDFS 276
8.4.3 MapReduce计算框架 279
8.4.4 Hadoop大数据生态系统 280
8.5 Spark大数据系统 286
8.5.1 什么是Spark 287
8.5.2 Spark大数据生态系统 288
8.5.3 Spark大数据平台databricks应用 290
8.6 Flink大数据系统 294
8.6.1 流数据 294
8.6.2 Flink大数据生态系统 297
8.7 数据湖系统 300
8.7.1 什么是数据湖系统 300
8.7.2 数据湖系统的基本功能 301
8.7.3 典型的数据湖系统 302
第9章 数据可视化 305
9.1 数据可视化概述 305
9.1.1 数据可视化起源和发展 305
9.1.2 数据可视化元素 307
9.1.3 数据可视化步骤和原则 308
9.2 数据可视化一般方法 309
9.2.1 电子地图及地图图表 309
9.2.2 高维数据的可视化展现 312
9.3 数据可视化实现和Tableau应用 315
9.3.1 数据可视化实现方式 316
9.3.2 Tableau及其应用 317
9.4 数据可视化的新发展 325
9.4.1 计算机图形学 326
9.4.2 虚拟现实及相关技术 327
9.4.3 增强现实技术 329
第10章 数据分析 332
10.1 数据分析方法、目标及软件工具 332
10.1.1 数据分析方法 332
10.1.2 数据分析目标 337
10.1.3 数据分析软件工具:sklearn简介 338
10.2 数据预处理 340
10.2.1 数据标准化处理 340
10.2.2 缺失值处理 342
10.2.3 特征选择与特征提取 344
10.3 经典聚类算法 347
10.3.1 聚类分析概述 347
10.3.2 层次聚类 349
10.3.3 K-均值聚类 351
10.3.4 DBSCAN聚类 353
10.3.5 聚类分析应用实例 355
10.4 数据预测:经典统计方法 360
10.4.1 数据预测中的一般问题 360
10.4.2 一般线性回归分析 362
10.4.3 二项逻辑回归分析 365
10.4.4 数据预测应用实例 367
10.5 数据预测:经典机器学习方法 370
10.5.1 K-近邻分析 370
10.5.2 决策树算法 373
10.5.3 支持向量机 377
10.5.4 分类算法的对比 379
第11章 数据安全与伦理 384
11.1 数据安全概述 384
11.1.1 什么是数据安全 384
11.1.2 数据安全的分类 385
11.2 数据安全体系 388
11.2.1 数据安全管理系统 388
11.2.2 数据安全法律法规系统 389
11.2.3 数据安全技术系统 391
11.3 传统数据安全技术 393
11.3.1 数据加密 393
11.3.2 数据脱敏 394
11.4 大数据时代的数据安全技术 396
11.4.1 区块链 396
11.4.2 联邦学习 398
11.5 数据伦理和算法伦理 402
11.5.1 数据伦理与案例 403
11.5.2 算法伦理与案例 405
第12章 数据科学的应用与案例 408
12.1 数据科学的商业应用:RFM分析与客户终身价值 408
12.1.1 客户购买行为的RFM分析 408
12.1.2 客户终身价值 409
12.1.3 客户终身价值的计算和应用案例 411
12.1.4 应用启示:理解业务才能做好分析 415
12.2 数据科学的海关应用:抽样方案升级 416
12.2.1 海关稽查案例 417
12.2.2 海关稽查抽样的数据模拟 418
12.2.3 应用启示:数据治理体系 424
12.3 数据科学的企业应用:数字化转型 426
12.3.1 数字化转型概述 426
12.3.2 数字化转型案例 427
12.3.3 应用启示:数字化转型的评估模型 430
附录A MySQL函数列表 432
作者简介
薛薇,工学硕士,经济学博士,中国人民大学应用统计学科研究中心研究员,中国人民大学统计学院副教授。主要研究领域:机器学习和文本挖掘、复杂网络建模等。关注统计和数据挖掘算法及软件应用。涉足企业客户终身价值测算,基于文本挖掘的热点事件主题提取和分类,金融、贸易等复杂网络动态建模等方面。主要代表性教材:《SPSS统计分析方法及应用》《R语言数据挖掘方法及应用》《R语言:大数据分析中的统计方法及应用》《SPSS Modeler数据挖掘方法及应用》《数据科学概论――从概念到应用》等。
-
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
全图解零基础word excel ppt 应用教程
¥12.0¥48.0 -
机器学习
¥59.4¥108.0 -
深度学习的数学
¥43.5¥69.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥37.7¥65.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥77.4¥109.0 -
UG NX 12.0数控编程
¥24.8¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
UN NX 12.0多轴数控编程案例教程
¥25.8¥38.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥84.5¥119.0 -
PREMIERE PRO 2023全面精通:视频剪辑+颜色调整+转场特效+字幕制作+案例实战
¥69.3¥99.0