5分
数据科学与大数据技术丛书数据科学概论(数据科学与大数据技术丛书)
- ISBN:9787300290607
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:264
- 出版时间:2021-03-01
- 条形码:9787300290607 ; 978-7-300-29060-7
内容简介
作为问题导向、数据驱动的交叉学科,数据科学要求研究者具备扎实的知识储备、高效的编程能力以及广阔的研究视野。本书尝试以概论的形式对数据科学的缘起、内涵、技术、工具、原则、方法、平台、产品、应用等展开讨论,帮助读者建立完整的知识体系与专业逻辑。全书划分为四个部分:部分是绪论,鸟瞰数据科学的概念、历史与应用;第二部分是基础技能,涵盖编程工具、数学基础与统计原则;第三部分是分析方法,遵从从探索性到验证性的数据分析思路,阐释数据可视化方法,讲解面向结构化数据的机器学习与人工智能模型,并讨论非结构化数据的分析技术;第四部分是数据应用,从业界视角介绍数据库、大数据平台、可重复研究的理念与实践,并以互联网、零售、金融、医疗健康四个行业为例展开实战讨论。
目录
1.1数据科学的概念
1.1.1数据科学的研究对象
1.1.2常见的数据科学方法
1.2数据科学的发展变迁
1.2.1数据科学的前身:统计学
1.2.2当代统计学:数据科学
1.3数据科学的应用领域
1.3.1互联网行业
1.3.2零售行业
1.3.3金融行业
1.3.4医疗健康行业
第 2章数据科学的编程工具
2.1 R简介
2.1.1安装和设置
2.1.2基础操作
2.1.3数据结构
2.1.4基础语法
2.2 Python和数据科学
2.2.1安装和使用
2.2.2数据结构
2.2.3基础语法
2.3 Julia简介
2.3.1安装和使用
2.3.2编程基础
第 3章数据科学的数学基础
3.1线性代数
3.1.1向量基础
3.1.2矩阵运算
3.2概率论和数理统计
3.2.1随机变量和分布
3.2.2数理统计简介
3.3*优化方法
3.3.1非线性规划
3.3.2线性规划
第 4章数据科学的统计原则
4.1可重复原则
4.1.1数据的扰动
4.1.2模型的扰动
4.2可预测原则
4.2.1可预测性
4.2.2交叉验证
4.3可计算原则
4.3.1大数据时代的数据特征
4.3.2大规模数据的处理方法
4.3.3高维 /超高维数据的处理方法
第 5章数据可视化
5.1基础统计图形
5.1.1图形设备
5.1.2基础作图
5.1.3 ggplot绘图语言
5.2可视化与数据分析
5.2.1单变量的分布
5.2.2两变量的关系
5.2.3多变量的关系
5.3现代数据可视化方法
5.3.1动态统计图形
5.3.2交互式工具
第 6章数据挖掘和机器学习
6.1从海量数据到大数据
6.1.1海量数据与数据挖掘
6.1.2大数据与机器学习
6.2无监督学习
6.2.1主成分分析
6.2.2聚类分析
6.3有监督学习
6.3.1回归分析
6.3.2分类问题和分类性能评估
6.3.3常用分类模型
第 7章人工智能
7.1人工智能简史
7.1.1人工智能的发展历史
7.1.2从神经网络到深度学习
7.2神经网络简介
7.2.1神经网络模型
7.2.2感知机的学习
7.2.3 BP算法
7.3深度学习基础
7.3.1常见深度学习框架
7.3.2 MXNet简介
7.3.3深度学习实战
第 8章非结构化数据分析
8.1图像分析
8.1.1图像处理基础
8.1.2卷积神经网络
8.1.3图像分类示例
8.2文本分析
8.2.1文本数据的处理
8.2.2文本分类示例
8.2.3句法分析
8.3音频分析
8.3.1音频数据的处理
8.3.2音频特征的提取
第 9章数据库和数据仓库
9.1数据结构简介
9.1.1数据的测量尺度
9.1.2数据的基础类型
9.1.3数据的逻辑结构
9.2数据库和 SQL
9.2.1数据库基础介绍
9.2.2常见的数据库产品
9.2.3 SQL语句简介
9.3数据仓库和商业智能
9.3.1数据仓库基础介绍
9.3.2数据仓库的多维模型
9.3.3 BI分析简介
第 10章大数据平台
10.1大数据和云计算
10.1.1大数据技术的发展变迁
10.1.2云计算简介
10.2并行计算框架
10.2.1并行计算简介
10.2.2共享内存和 GPU计算
10.2.3 MPI并行
10.3分布式存储与 Hadoop
10.3.1容器和 Docker
10.3.2 Hadoop和 MapReduce
10.3.3 Spark简介
第 11章可重复研究与产品化
11.1分析报告与数据产品简介
11.1.1自动化报告的常见框架
11.1.2数据产品简介
11.2可重复研究
11.2.1 knitr的应用
11.2.2 Jupyter的应用
11.3数据产品的设计与开发
11.3.1 Shiny基础
11.3.2动态交互的数据产品
第 12章数据科学的行业应用
12.1互联网行业
12.1.1互联网行业的数据
12.1.2互联网行业的数据科学应用
12.1.3分析示例
12.2零售行业
12.2.1零售行业的数据
12.2.2零售行业的数据科学应用
12.2.3分析示例
12.3金融行业
12.3.1金融行业的数据
12.3.2金融行业的数据科学应用
12.3.3分析示例
12.4医疗健康行业
12.4.1医疗健康行业的数据
12.4.2医疗健康行业的数据科学应用
12.4.3分析示例
节选
数据科学是大数据时代发展的必然产物,也是推动时代进步的内生动力。作为一门问题导向、数据驱动的交叉学科,数据科学要求研究者具备扎实的知识储备、高效的编程能力以及广阔的研究视野。本书尝试以概论的形式对数据科学的缘起、内涵、技术、工具、原则、方法、平台、产品、应用等展开讨论,帮助读者建立完整的知识体系与专业逻辑。全书划分为四个部分:**部分是绪论,鸟瞰数据科学的概念、历史与应用;第二部分是基础技能,涵盖编程工具、数学基础与统计原则;第三部分是分析方法,遵从从探索性到验证性的数据分析思路,阐释数据可视化方法,讲解面向结构化数据的机器学习与人工智能模型,并讨论非结构化数据的分析技术;第四部分是数据应用,从业界视角介绍数据库、大数据平台、可重复研究的理念与实践,并以互联网、零售、金融、医疗健康四个行业为例展开实战讨论。为适应时代要求,全书示例尽量以 R和 Python对照展开,方便读者掌握不同的分析工具。为提供教学便利,作者分别准备了基于 Beamer和 PowerPoint的课件素材,在中国人民大学出版社网站( www.crup.com.cn)提供下载,并秉承开源思想将所有数据与代码共享于 https://github.com/rucliyang/Intro2ds。近二十年,两位作者分别修读了统计学博士、软件工程硕士与管理学博士学位,并长期活跃于基于数据科学技术的统计咨询一线,在互联网、市场研究、生物医药、金融、教育心理等领域积累了丰富的实践经验,希冀从不同视角为大家展开数据科学的画卷。
作者简介
李扬 中国人民大学统计学院教授、博士生导师,副院长、统计咨询研究中心主任;国际统计学会推选会员、中国商业统计学会副会长、北京生物医学统计与数据管理研究会监事长、北京大数据协会综合评价专业委员会主任委员。主要从事相关型数据分析、模型选择与不确定性评价、潜变量建模、临床试验设计等领域研究,承担国家自然科学基金面上项目、全国统计科学研究重大项目等科研项目二十余项,发表JASA、JAMA IM、Biometrics、Biostatistics、统计研究等国内外期刊研究论文五十余篇。李舰 统计学本科、软件工程硕士、商学博士,数据科学领域的多年从业者,见证并参与了统计学从冷门专业到显学的过程。是“统计之都”社区的核心成员之一、一些开源社区的活跃贡献者,致力于数据科学在实体行业的应用。著有《统计之美》《数据科学中的R语言》。
-
当代中国政府与政治(新编21世纪公共管理系列教材)
¥33.6¥48.0 -
落洼物语
¥8.7¥28.0 -
中国当代文学名篇选读
¥19.1¥53.0 -
中医基础理论
¥50.7¥59.0 -
北大人文课(平装)
¥13.9¥45.0 -
宪法-第二版
¥12.2¥29.0 -
当代中国政府与政治 第二版
¥51.0¥68.0 -
EPLAN电气设计
¥29.9¥39.8 -
闯进数学世界――探秘历史名题
¥21.3¥32.8 -
企业法务教程
¥34.8¥49.0 -
习近平新时代中国特色社会主义思想概论
¥18.2¥26.0 -
金融学
¥29.9¥49.0 -
计算机操作系统教程(第4版)(清华大学计算机系列教材)
¥31.9¥49.0 -
三国史
¥27.5¥50.0 -
陶瓷坯釉料制备技术/高职高专材料工程技术专业
¥37.4¥45.0 -
陶瓷工艺技术
¥41.7¥49.0 -
飞机总体设计
¥46.8¥78.0 -
陶瓷工艺学/焦宝祥
¥41.7¥49.0 -
古代汉语(第四册)
¥16.1¥35.0 -
编辑审稿实务教程
¥35.1¥45.0