- ISBN:9787302531913
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:369
- 出版时间:2019-09-01
- 条形码:9787302531913 ; 978-7-302-53191-3
本书特色
重点介绍数据科学中的新理论和代表性实践,填补数据科学与大数据技术专业的核心教材的空白。主要内容包括:基础理论(术语定义、研究目的、发展简史、理论体系、基本原则、数据科学家)、理论基础(数据科学的学科地位、统计学、机器学习、数据可视化)、流程与方法(基本历程、数据加工、数据审计、数据分析、数据可视化、数据故事化、项目管理)、技术与工具(技术体系、MapReduce、Hadoop、Spark、NoSQL与NewSQL、R与Python)、数据产品及开发(主要特征、关键活动、数据柔术、数据能力、数据战略、数据治理)、典型案例及实践等
内容简介
(1)国家精品开放在线课程《数据科学导论》的配套教材(2)一本系统讲解全球范围内的数据科学的新理论与代表性实践的教材;
目录
第1章基础理论 如何开始学习 1.1术语定义 1.2研究目的 1.3研究视角 1.4发展简史 1.5理论体系 1.6基本原则 1.7相关理论 1.8人才类型 如何继续学习 习题 参考文献 第2章理论基础 如何开始学习 2.1数据科学的学科地位 2.2统计学 2.3机器学习 2.4数据可视化 如何继续学习 习题 参考文献 第3章流程与方法 如何开始学习 3.1基本流程 3.2数据加工 3.3数据审计 3.4数据分析 3.5数据可视化 3.6数据故事化 3.7数据科学项目管理 3.8数据科学中的常见错误 如何继续学习 习题 参考文献 第4章技术与工具 如何开始学习 4.1数据科学的技术体系 4.2MapReduce 4.3Hadoop 4.4Spark 4.5NoSQL与NewSQL 4.6R与Python 4.7发展趋势 如何继续学习 习题 参考文献 第5章数据产品及开发 如何开始学习 5.1定义 5.2主要特征 5.3关键活动 5.4数据柔术 5.5数据能力 5.6数据战略 5.7数据治理 5.8数据安全、隐私、道德与伦理 如何继续学习 习题 参考文献 第6章典型案例及实践 如何开始学习 6.1统计分析 6.2机器学习 6.3数据可视化 6.4Spark编程 6.52012年美国总统大选 如何继续学习 习题 参考文献 附录A本书例题的R语言版代码 附录B数据科学的重要资源 附录C术语索引 后记
图目录
图11DIKW金字塔模型3 图12数据与数值的区别4 图13数字信号与模拟信号4 图142008—2015年全球数据规模及类型的估计6 图15大数据的特征7 图16大数据的本质8 图17人工智能、机器学习和深度学习的区别与联系10 图18DIKUW模型及应用11 图19数据洞见12 图110业务数据化与数据业务化12 图111常用驱动方式13 图112数据的层次性13 图113大数据生态系统示意图14 图114数据科学的新研究视角15 图115Gartner技术成熟度曲线16 图116数据科学的萌芽期(1974—2009年)17 图117数据科学的快速发展期(2010—2013年)18 图118数据科学的逐渐成熟期(2014年至今)19 图119数据科学的理论体系20 图120数据科学的主要内容20 图121数据科学的“三世界原则”22 图122数据科学的“三个要素”及“3C精神”23 图123计算密集型应用与数据密集型应用的区别24 图124数据范式与知识范式的区别25 图125数据管理范式的变化25 图126数据的“资产”属性26 图127常用驱动方式28 图128CAPTCHA方法的应用28 图129ReCAPTCHA项目29 图130数据与算法之间的关系30 图131BellKors Pragmatic Chaos团队获得Netflix奖30 图132Netflix奖公测结果31 图133数据科学与商务智能的区别与联系32 图134数据科学与数据工程在企业应用中的区别与联系33 图135数据科学人才类型及其收入33 图136RStudio中编辑Markdown的窗口35 图137数据科学家团队38 图138大数据人才应具备的不同知识结构40 图139学习数据科学的四则原则43 图21数据科学的理论基础50 图22统计方法的分类(行为目的与思路方式视角)52 图23统计学中的数据推断53 图24数据统计方法的类型(方法论视角)53 图25数据统计基本方法54 图26元分析与基本分析54 图27GFT预测与美国疾病控制中心数据的对比55 图28GFT估计与实际数据的误差(2013年2月)56 图29大数据时代的思维模式的转变58 图210西洋双陆棋58 图211机器人驾驶58 图212机器学习的基本思路59 图213机器学习的三要素61 图214机器学习的类型62 图215KNN算法的基本步骤63 图216决策树示例——识别鸟类65 图217感知器示例67 图218前向神经网络67 图219归纳学习与分析学习70 图220增强学习70 图221机器学习的类型71 图222IBM Watson72 图223Pepper机器人73 图224机器学习中的数据73 图225Anscombe四组数据的可视化77 图226John Snow的鬼地图(Ghost Map)78 图227在Tableau中加利福尼亚州政府收入来源数据的可视化79 图31数据科学的基本流程83 图32量化自我84 图33规整数据与干净数据的区别85 图34规整数据示意图86 图35残差89 图36数据分析的类型90 图37Analytics 1.0~3.091 图38数据加工方法92 图39数据审计与数据清洗93 图310缺失数据处理的步骤94 图311冗余数据处理的方法94 图312数据分箱处理的步骤与类型96 图313均值平滑与边界值平滑96 图314内容集成98 图315结构集成99 图316数据脱敏处理100 图317数据连续性的定义及重要性104 图318可视化审计示例106 图319Gartner分析学价值扶梯模型106 图320冰激凌的销售量与谋杀案的发生数量108 图321数据分析的类型110 图322拿破仑进军俄国惨败而归的历史事件的可视化111 图323可视分析学的相关学科111 图324可视分析学模型112 图325数据可视化的方法体系113 图326视觉图形元素与视觉通道113 图327雷达图示例114 图328齐美尔连带114 图329视觉隐喻的示例——美国政府机构的设置114 图330地铁路线图的创始人Henry Beck115 图331Henry Beck的伦敦地铁线路图116 图332视觉突出的示例116 图333完图法则的示例117 图334视觉通道的选择与展示119 图335视觉通道的精确度对比119 图336视觉通道的可辨认性——某公司产品销售示意图120 图337视觉通道的可分离性差120 图338上下文导致视觉假象1121 图339上下文导致视觉假象2121 图340对亮度和颜色的相对判断容易造成视觉假象的示例121 图341数据可视化表达与数据故事化描述126 图342数据的故事化描述及故事的展现127 图343项目管理的主要内容130 图344数据科学项目的基本流程131 图412017大数据产业全景图140 图42大数据参考架构142 图43MapReduce执行过程144 图44MapReduce对中间数据的处理148 图45以MapReduce为核心和以YARN为核心的软件栈对比150 图46下一代MapReduce框架151 图47Apache的Hadoop项目151 图48Hadoop生态系统152 图49Hadoop MapReduce数据处理过程153 图410Apache Hive官方网站155 图411Apache Pig官方网站156 图412Apache Mahout官方网站157 图413Apache HBase官方网站157 图414HBase与Hadoop项目158 图415HBase的逻辑模型159 图416Apache ZooKeeper官方网站160 图417Apache Flume官方网站161 图418Apache Sqoop官方网站162 图419Spark 技术架构163 图420Spark的基本流程164 图421Spark的执行步骤169 图422Lambda 架构的主要组成部分171 图423传统关系数据库的优点与缺点172 图424关系数据库技术与NoSQL技术之间的关系174 图425NoSQL数据分布的两个基本途径175 图426分片处理176 图427主从复制177 图428对等复制178 图429数据不一致性179 图430CAP理论180 图431Memcached官方网站183 图432一致性散列的分配方式184 图433服务器增加时的变化184 图434云计算的演变过程188 图435数据管理的新变化190 图4362016—2018年数据科学相关项目中软件产品的使用率(%)192 图4372019年Gartner数据科学和机器学习平台魔力194 图51数据产品开发中的数据与数据柔术201 图52知识范式与数据范式203 图53数据产品的多样性204 图54数据产品的层次性205 图55Google全球商机洞察(Google Global Market Finder)206 图56数据产品链207 图57传统产品开发与数据产品开发的区别208 图58D.J.Patil209 图59UI(User Interface)设计方案与设计思维210 图510Google搜索的用户体验211 图511人与计算机图像内容识别能力的不同211 图512Amazon Mechanical Turk平台213 图513一个HIT的生命周期213 图514基于人与计算机的数据处理成本曲线214 图515亚马逊的数据产品——其他商家(Other Sellers)215 图516LinkedIn的数据产品——你可能认识的人们(People you may know)216 图517LinkedIn的数据产品——你的观众是谁216 图518逆向交互定律217 图519LinkedIn数据产品——岗位推荐219 图520LinkedIn的数据产品——帮助你的朋友找到工作220 图521Facebook的良好用户体验220 图522DMM模型基本思路222 图523CMM基本思想222 图524CMM成熟度等级224 图525DMM关键过程域225 图526DMM层级划分及描述227 图527IDEAL模型229 图528组织机构数据管理能力成熟度评估结果的可视化229 图529数据战略与数据管理目标的区别230 图530数据战略的目标231 图531数据战略的侧重点231 图532数据战略的范畴231 图533数据管理与数据治理的区别233 图534IBM提出的企业数据管理的范畴233 图535数据治理的PDCA模型234 图536DGI数据治理框架235 图537P2DR模型237 图538从欧洲大陆的空战中返回的轰炸机238 图61KMeans算法的基本步骤267 图62奥巴马2012年总统竞选芝加哥总部287 图63George Clooney288 图64Sarah Jessica Parker288 图65奥巴马及“快速捐赠计划”290 图66奥巴马通过Reddit与选民互动291 图672012年美国总统竞选财务数据官方网站292 图A1女性体重与身高的线性回归分析314 图A2工资数据的可视化327 图A3起飞延误时间339 图A4到达延误时间339 图A5捐助人职业、党派及捐助额度分析352 图A6分箱处理后的捐款数据可视化353 图A7捐款日期与金额的可视化354 图A8捐款月份与金额变化分析355 图A9投票结果的可视化357
表目录
表11结构化数据、非结构化数据与半结构化数据的区别与联系5 表12某数据科学家的画像(Profile)37 表21参数估计与假设检验的主要区别53 表22统计学与机器学习的术语对照表57 表23机器学习的相关学科61 表24已知6部电影的类型及其中出现的接吻次数和打斗次数64 表25已知电影与未知电影的距离64 表26分析学习和归纳学习的比较70 表27Anscombe的四组数据(Anscombes Quartet)76 表31测试数据A86 表32测试数据B86 表33测试数据C86 表34Pew论坛部分人员信仰与收入数据统计(规整化处理之前)87 表35Pew论坛部分人员信仰与收入数据统计(规整化处理之后)87 表36探索性统计中常用的集中趋势统计量89 表37探索性统计中常用的离散程度统计量89 表38探索性统计中常用的数据分布统计量89 表39常见的数据变换策略97 表310十进制**数字的使用概率103 表311数据分析中常见错误109 表312数据类型及所支持的操作类型118 表313数据类型与视觉通道的对应关系118 表314数据故事化描述应遵循的基本原则128 表315数据科学项目中的主要角色及其任务130 表41Transformation常用函数166 表42Action常用函数166 表43RDD的存储级别167 表44Spark数据类型和R数据类型之间的映射关系170 表45较有代表性的云数据库产品174 表46NoSQL数据库中常用的数据模型175 表47R与Python对比186 表48云计算的基本类型189 表49排名前10位数据科学产品的使用率及变化情况/4 表51数据转换与数据加工的区别202 表52Google公司的十大产品与服务202 表53数据管理成熟度模型的过程域分类226 表54信息系统安全等级及保护基本要求237 表55肾结石治疗数据分析——两种治疗方案的分别统计240 表56两种治疗方案的汇总统计240 表61数据集women248 表62Protein数据集266 表63工资信息274 表64各字段的名称及含义292 表A1Spark版本差异性331 表A2Spark与R的数据类型对比332 表A3SparkR与sparklyr比较340
作者简介
中国人民大学副教授,博士生导师;国家精品在线开放课程《数据科学导论》负责人;中国计算机学会信息系统专委员会委员、中国软件行业协会中国软件专业人才培养工程专家委员、全国高校人工智能与大数据创新联盟专家委员会副主任、全国高校大数据教育联盟大数据教材专家指导委员会委员;
-
落洼物语
¥8.9¥28.0 -
当代中国政府与政治(新编21世纪公共管理系列教材)
¥33.6¥48.0 -
中国当代文学名篇选读
¥17.0¥53.0 -
中医基础理论
¥50.7¥59.0 -
长征记忆(八品)
¥9.5¥45.0 -
北大人文课(平装)
¥12.2¥45.0 -
世界现代设计史-[第二版]
¥63.6¥120.0 -
断代(八品)
¥13.4¥42.0 -
宪法-第二版
¥20.3¥29.0 -
先进防伪技术
¥81.3¥98.0 -
当代中国政府与政治 第二版
¥57.8¥68.0 -
企业法务教程
¥34.8¥49.0 -
习近平新时代中国特色社会主义思想概论
¥18.2¥26.0 -
毛泽东思想和中国特色社会主义理论体系概论(2021年版)
¥8.5¥25.0 -
新闻学概论(第七版)(新闻与传播学系列教材(新世纪版))
¥30.0¥50.0 -
办公室工作实务(第4版)/黄海
¥27.8¥48.0 -
全国压力管道设计和审批人员培训教材(第四版)
¥160.4¥198.0 -
习近平总书记教育重要论述讲义
¥13.3¥35.0 -
无人机概论
¥37.2¥59.0 -
(平装)北大必修课:北大口才课
¥18.2¥45.0