- ISBN:9787302436997
- 装帧:简裝本
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:322
- 出版时间:2022-08-09
- 条形码:9787302436997 ; 978-7-302-43699-7
本书特色
数据科学是一门新兴的热门科学,国外优秀大学纷纷设立同名课程,相应的专业、课程及书籍也深受欢迎。
《数据科学》是国内首部系统阐述数据科学的重要专著,填补了国内此领域的空白。
《数据科学》在结构设计和内容选择上不仅充分借鉴了国外著名大学设立的相关课程以及全球畅销的外文专著,也考虑到了国内相关课程定位与专业人才的培养需求。
《数据科学》共包括8个部分(基础知识、数据预处理、数据统计、机器学习、数据可视化、数据计算、数据管理以及R编程),既涵盖了数据科学的基本内容,又避免了与相关课程的低级重复。每章设有综合例题,做到理论学习与动手操作相结合。例题均采用R语言完成数据科学的特定任务。每章的首尾配有“导读”与“小结”,便于教师的教学和学生的自学。“习题”部分以主动数据收集和分析的开放题目为主,旨在帮助学生提高自我学习能力。书后附有R语言语法,便于入门的教学与学习。
《数据科学》可以满足数据科学、计算机科学与技术、管理学、数据统计、数据分析、图情档类等多个专业的老师、学生(含硕士生和博士生)的教学与自学需要。
内容简介
数据科学是一门新兴的热门科学,国外优秀大学纷纷设立同名课程,相应的专业、课程及书籍也深受欢迎。 《数据科学》是国内首部系统阐述数据科学的重要专著,填补了国内此领域的空白。 《数据科学》在结构设计和内容选择上不仅充分借鉴了国外著名大学设立的相关课程以及全球畅销的外文专著,也考虑到了国内相关课程定位与专业人才的培养需求。 《数据科学》共包括8个部分(基础知识、数据预处理、数据统计、机器学习、数据可视化、数据计算、数据管理以及R编程),既涵盖了数据科学的基本内容,又避免了与相关课程的低级重复。每章设有综合例题,做到理论学习与动手操作相结合。例题均采用R语言完成数据科学的特定任务。每章的首尾配有“导读”与“小结”,便于教师的教学和学生的自学。“习题”部分以主动数据收集和分析的开放题目为主,旨在帮助学生提高自我学习能力。书后附有R语言语法,便于入门的教学与学习。 《数据科学》可以满足数据科学、计算机科学与技术、管理学、数据统计、数据分析、图情档类等多个专业的老师、学生(含硕士生和博士生)的教学与自学需要。
前言
数据科学已成为领域专家**的知识和能力之一。如今,几乎所有的专家都在谈论大数据,但是部分“专家”并不是真正懂得大数据及其背后的科学——数据科学。在国内,数据科学的系统性研究仍属空白,人们只知道需要学习这门新兴科学,但并不知道如何学习。为此,本书:
(1)是我国*早的系统阐述数据科学的专著之一;
(2)以“经典理论×*佳实践”为编写思路,吸收了国内外重要的研究进展与实践经验;
(3)提出了数据科学的理论体系,而不是现有文献的简单汇编;
(4)加入了作者的创造性研究工作;
(5)利用三年时间精心撰写的图书。
但是,学习数据科学确实存在一定的“难度”。就数据科学的理论基础——统计学、机器学习和可视化分析学而言,很多读者尤其是社会科学领域的,很容易对其产生“恐惧感”或“距离感”。为此,本书:
(6)以“*深奥的理论÷*简单的逻辑”为编写思路,深入浅出,力争做到“阅读障碍的*小化”;
(7)以“导读”形式给出学习建议;
(8)以“图表”形式揭示数据科学中的重点知识;
(9)以“脚注”形式解释读者容易曲解或需要深入了解的难点;
(10)以“实用性”为选择内容的重要标准,不断给读者带来学习的“成就感”;
(11)以“培养兴趣和信心”为撰写宗旨,并非停留在介绍知识和信息层次。
学习数据科学需要注意理论与实践相结合。数据科学与其他传统科学的重要区别之一在于与实践经验的耦合度高,读者不仅需要具备扎实的理论功底,而且应具有熟练的操作能力。为此,本书:
(12)以“理论精讲+R编程”为编写思路,协助读者提升理论联系实践的能力;
(13)在“案例分析”部分提供了两个不同的案例——*佳实践和R编程,供读者选择性阅读;
(14)以“独特的R代码注解”和“R编程中的常见问题解答”的方式,帮助读者快速掌握R编程;
(15)在“习题”中给出的问题不是课程内容的低级重复,而是帮助读者提升理论联系实践能力与自助学习能力;
(16)在“参考文献与扩展阅读文献”中列出了相关领域的核心文献。
学习数据科学还需要注意与读者自己的领域知识相结合。数据科学与其他传统科学的另一个主要区别在于对领域知识的依赖度高。因此,学习应以“掌握面向领域的数据科学”或“发现领域中的数据科学”为主要目的,脱离具体领域的方式学习数据科学必将导致学习行为的空洞化和学习动力不足。为此,本书:
(17)以“全集知识一领域差异性知识”为编写思路,在基本内容的设计与选择上,力争做到领域共性;
(18)在学习建议和习题安排上,尽量体现出不同领域的差异性;
(19)在内容细节的编写思路上,鼓励读者在自己的领域中使用数据科学的知识;
(20)从数据科学视角介绍机器学习、统计学、数据可视化等基础知识,而不是简单重复这些课程。
目录
1.1 数据
1.1.1 数据模型
1.1.2 数据维度
1.2 大数据
1.2.1 内涵与特征
1.2.2 大数据时代的新理念
1.2.3 大数据时代的新术语
1.3 数据科学概述
1.3.1 研究目的
1.3.2 理论基础
1.3.3 研究内容
1.3.4 基本流程
1.3.5 主要原则
1.3.6 典型应用
1.4 数据科学家
1.4.1 主要任务
1.4.2 能力要求
1.4.3 常用工具
1.4.4 团队工作
1.5 数据科学项目
1.5.1 角色定义
1.5.2 基本流程
1.6 应用案例
小结
习题
参考文献及扩展阅读资料
第2章 数据预处理
2.1 数据质量
2.1.1 统计学规律
2.1.2 语言学规律
2.1.3 数据连续性理论
2.1.4 数据鉴别技术
2.1.5 探索性数据分析
2.2 数据审计
2.2.1 预定义审计
2.2.2 自定义审计
2.2.3 可视化审计
2.3 数据清洗
2.3.1 缺失数据处理
2.3.2 冗余数据处理
2.3.3 噪声数据处理
2.4 数据变换
2.4.1 大小变换
2.4.2 类型变换
2.5 数据集成
2.5.1 基本类型
2.5.2 主要问题
2.6 其他预处理方法
2.6.1 数据脱敏
2.6.2 数据归约
2.6.3 数据标注
2.7 应用案例
小结
习题
参考文献及扩展阅读资料
……
第3章 数据统计
第4章 机器学习
第5章 数据可视化
第6章 数据计算
第7章 数据管理
附录
收起全部↑
作者简介
朝乐门,国家本科课程“数据科学导论”负责人,数据科学50人,中国人民大学青年杰出学者;中国计算机学会信息系统专委员会执行委员、全国高等学校计算机教育研究会“数字化能力水平认证”专家委员会委员、全国高校人工智能与大数据创新联盟专家委员会副主任委员;核心期刊《计算机科学》执行编委、英文期刊Data Science and Informatics副主编;荣获教育部高等学校科学研究优秀成果奖、IBM全球教师奖、CSC-IBM中国优秀教师奖教金等多种奖励30余项;编写教材《数据科学理论与实践》(清华大学出版社,2017)入选2019年北京高校“优质本科教材”,主讲“数据科学导论”课程被中国人民大学认定为首批建设的本科课程。
-
落洼物语
¥8.9¥28.0 -
当代中国政府与政治(新编21世纪公共管理系列教材)
¥33.6¥48.0 -
中国当代文学名篇选读
¥17.0¥53.0 -
中医基础理论
¥50.7¥59.0 -
长征记忆(八品)
¥9.5¥45.0 -
北大人文课(平装)
¥12.2¥45.0 -
世界现代设计史-[第二版]
¥63.6¥120.0 -
断代(八品)
¥13.4¥42.0 -
宪法-第二版
¥20.3¥29.0 -
先进防伪技术
¥81.3¥98.0 -
当代中国政府与政治 第二版
¥57.8¥68.0 -
企业法务教程
¥34.8¥49.0 -
习近平新时代中国特色社会主义思想概论
¥18.2¥26.0 -
毛泽东思想和中国特色社会主义理论体系概论(2021年版)
¥8.5¥25.0 -
新闻学概论(第七版)(新闻与传播学系列教材(新世纪版))
¥30.0¥50.0 -
办公室工作实务(第4版)/黄海
¥27.8¥48.0 -
全国压力管道设计和审批人员培训教材(第四版)
¥160.4¥198.0 -
习近平总书记教育重要论述讲义
¥13.3¥35.0 -
无人机概论
¥37.2¥59.0 -
(平装)北大必修课:北大口才课
¥18.2¥45.0