- ISBN:9787302669647
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:384
- 出版时间:2024-09-01
- 条形码:9787302669647 ; 978-7-302-66964-7
本书特色
本书可作为大数据相关专业、计算机类所有专业的导论课教材。
内容简介
本书是一本集“数据思维训练、数据能力培养、批判性思维实践”于一体的关于数据科学的引导性图书,以循序渐进引发读者自主思考与探究为宗旨,在建立数据思维的同时,注重逻辑思维、批判性思维能力的提升。本书共4篇。第1篇“数据思维”,从数据科学的“道”出发,探究数据科学的起源、数据思维的特点、DIKW模型及其应用;第2篇“数据价值”和第3篇“数据技术”则是数据科学“术”的全面覆盖,包括数据预处理、描述性分析、探索性分析、数据挖掘、机器学习、深度学习、大数据存储、分布式计算、大数据云平台等内容;第4篇“数据未来”则从科学、工程与技术层面,畅想数据科学的未来、人工智能的未来,以及你我的未来。本书适合作为高等学校大数据类专业的导论性必修课教材,也适用于计算机类及工科各专业、统计及商业类各专业相关选修课和通识课程,对数据科学爱好者及相关领域从业者来说也是一本值得研读的书籍。
目录
第2篇数 据 价 值 第5章从数据到知识 开篇案例: “百度指数”能告诉你什么? 学习目标 5.1知识与知识发现 5.1.1什么是知识 5.1.2知识发现的任务 5.1.3决策与决策支持 思考题 5.2数据分析、数据挖掘与人工智能 5.2.1知识发现的方法 5.2.2数据分析与业务分析 5.2.3数据挖掘与知识发现 5.2.4机器学习与人工智能 5.2.5从数据到知识 思考题 5.3数据科学项目的选择 5.3.1数据科学的认知误区 5.3.2成功的数据科学项目 5.3.3数据科学项目的选择之旅 思考题 5.4探究与实践
第6章数据分析——描述与探索 开篇案例: 如果你在“泰坦尼克号”上会怎样? 学习目标 6.1数据分析常用方法 6.1.1因素分解法——相关思维 6.1.2对比法——比较思维 6.1.3象限分析法——分类思维 6.1.4漏斗分析法——漏斗思维 思考题 6.2数据描述性分析 6.2.1认识数据 6.2.2数据统计量及分布 6.2.3数据统计的可视化 6.2.4数据描述性分析 思考题 6.3数据探索性分析 6.3.1什么是探索性分析 6.3.2探索性分析与数据清洗 6.3.3探索性分析与可视化 思考题 6.4探究与实践 第7章从结构化数据中挖掘价值 开篇案例: Target的精准营销靠谱吗? 学习目标 7.1机器学习概述 7.1.1什么是机器学习 7.1.2机器学习算法分类 7.1.3机器学习的要素及流程 7.1.4机器学习中的“哲学”思想 思考题 7.2监督回归——线性与非线性 7.2.1线性回归 7.2.2模型的泛化及优化 7.2.3模型的评估 思考题 7.3监督分类——目标明确、八仙过海 7.3.1逻辑回归 7.3.2支持向量机——学习 7.3.3决策树——基于规则 7.3.4朴素贝叶斯——基于概率 7.3.5分类模型评价及优化 思考题 7.4非监督探索——自学成才 7.4.1聚类——物以类聚、人以群分 7.4.2关联分析——猜你还喜欢 思考题 7.5探究与实践 第8章在非结构化数据中深度学习 开篇案例: ImageNet数据库有什么用? 学习目标 8.1模拟人脑的学习 8.1.1机器学习的本质 8.1.2复杂数据及场景的突破 8.1.3神经网络——模拟人的大脑 思考题 8.2神经网络与深度学习 8.2.1神经元模型 8.2.2深度神经网络模型 8.2.3深度学习的实现 思考题 8.3卷积神经网络 8.3.1图像与图像卷积 8.3.2卷积神经网络(CNN) 8.3.3CNN应用 思考题 8.4循环神经网络 8.4.1为什么需要循环神经网络 8.4.2循环神经网络的基本结构 8.4.3循环神经网络的长短记忆 8.4.4RNN的应用 思考题 8.5图神经网络 8.5.1图数据与图结构表征 8.5.2图神经网络(GNN) 8.5.3GNN的应用 思考题 8.6强化学习——从监督学习到自主学习 8.6.1什么是强化学习 8.6.2如何强化学习 8.6.3从AlphaGo到AlphaZero 思考题 8.7探究与实践
第3篇数 据 技 术 第9章数据存储与管理 开篇案例: 阿里巴巴数据仓库架构 学习目标 9.1数据库与数据库管理系统 9.1.1数据存储管理的演变 9.1.2关系型数据库的设计 9.1.3数据库操作与SQL查询 思考题 9.2数据仓库与商业智能 9.2.1OLTP与OLAP 9.2.2数据仓库及其分层架构 9.2.3数据立方体构建及查询 9.2.4数据挖掘与商业智能 思考题 9.3大数据的挑战 9.3.1大数据存储与管理 9.3.2Google颠覆性技术创新 9.3.3数据科学生态系统 思考题 9.4探究与实践 第10章大数据分布式存储 开篇案例: 春晚抢红包大战究竟“战”什么? 学习目标 10.1分布式文件系统 10.1.1分布式文件系统概述 10.1.2HDFS存储原理及操作 10.1.3HDFS应用场景 思考题 10.2分布式数据库HBase 10.2.1BigTable的创新思考 10.2.2HBase数据模型 10.2.3HDFS与HBase 10.2.4HBase应用场景 思考题 10.3NoSQL数据库 10.3.1NoSQL数据库的兴起 10.3.2NoSQL数据库的4大类型 10.3.3从NoSQL到NewSQL 思考题 10.4探究与实践 第11章大数据计算与分析 开篇案例: 你的用户画像是如何构建出来的? 学习目标 11.1分布式计算MapReduce 11.1.1分布式并行计算 11.1.2MapReduce流程 11.1.3MapReduce的特点及应用 思考题 11.2内存计算与Spark 11.2.1什么是内存计算 11.2.2RDD原理及操作 11.2.3Spark机器学习库及工作流 思考题 11.3流计算 11.3.1大数据与流分析 11.3.2Spark Streaming流计算 11.3.3流计算的应用 思考题 11.4探索与实践 第12章大数据平台与云计算 开篇案例: 淘系的“生意参谋” 学习目标 12.1大数据平台 12.1.1Hadoop的原则 12.1.2Hadoop生态系统 12.1.3Hadoop与实时数据仓库 思考题 12.2云计算与云服务 12.2.1什么是云计算 12.2.2面向分析的云服务 12.2.3百度深度学习开源云平台 思考题 12.3业务中台与数据中台 12.3.1什么是中台 12.3.2数据中台与AI中台 12.3.3阿里巴巴数加大数据平台 思考题 12.4探索与实践
第4篇数 据 未 来 第13章从DIKW视角看技术未来 开篇案例: 通用人工智能是AI的终点吗? 学习目标 13.1工业物联网 13.1.1物联网要素 13.1.2传统物联网与工业物联网 13.1.3面向物联网的数据分析 思考题 13.2AutoML——自动机器学习 13.2.1AutoML的目标 13.2.2AutoML的流程 思考题 13.3知识图谱 13.3.1什么是知识图谱 13.3.2如何构建知识图谱 13.3.3知识图谱的自动构建 思考题 13.4大语言模型ChatGPT 13.4.1自然语言模型的变迁 13.4.2注意力机制与Transformer模型 13.4.3GPT与ChatGPT 13.4.4AIGC智能创作时代 思考题 13.5探究与实践 第14章从DIKW视角看产业未来 开篇案例: 腾讯进军“新能源” 学习目标 14.1数字化转型与数据驱动 14.1.1数字化转型与数据驱动 14.1.2数据驱动的特征 14.1.3数字化转型与赋能 思考题 14.2大数据产业的趋势 14.2.1政府大数据从管理走向服务 14.2.2电信大数据从小圈子走向大生态 14.2.3健康医疗大数据从大走向精准 14.2.4工业大数据围绕小场景从项目走向产品 14.2.5营销大数据从流量营销走向精细运营 14.2.6金融大数据从强管控走向创新服务 思考题 14.3智能时代 14.3.1AI的角色 14.3.2从弱AI到强AI 14.3.3人机融合的未来 思考题 14.4探究与实践 第15章数据科学的未来 开篇案例: 数据科学的4.0版 学习目标 15.1数据科学的挑战 15.1.1数据科学的4大科学任务 15.1.2数据科学的10大技术方向 15.1.3数据科学的发展趋势 思考题 15.2数据科学家团队 15.2.1数据科学与系统开发 15.2.2数据科学家和开发人员的合作 15.2.3数据科学相关职位与技能 15.2.4数据科学家团队 思考题 15.3探究与实践 参考文献 附录 附录A布鲁姆(Bloom)认知分类法 附录B商业分析方法 附录C批判性思维工具 附录D哈佛大学“思维可视化”路径集 数据科学导论
案例目录
【开篇案例】
第1章开篇案例: 你听说过“大数据杀熟”吗?4 第2章开篇案例: 啤酒与尿不湿26 第3章开篇案例: 别轻易点赞,它会泄露你的性格秘密46 第4章开篇案例: 《纸牌屋》背后的数据故事68 第5章开篇案例: “百度指数”能告诉你什么?88 第6章开篇案例: 如果你在“泰坦尼克号”上会怎样?108 第7章开篇案例: Target的精准营销靠谱吗?127 第8章开篇案例: ImageNet数据库有什么用?161 第9章开篇案例: 阿里巴巴数据仓库架构196 第10章开篇案例: 春晚抢红包大战究竟“战”什么?221 第11章开篇案例: 你的用户画像是如何构建出来的?243 第12章开篇案例: 淘系的“生意参谋”263 第13章开篇案例: 通用人工智能是AI的终点吗?284 第14章开篇案例: 腾讯进军“新能源”308 第15章开篇案例: 数据科学的4.0版325 【想一想】
想一想1.1: “大”数据10 想一想1.2: Excel中的数据格式12 想一想1.3: 什么是推荐系统18 想一想1.4: 你的超星(学习通)数据及价值21 想一想2.1: 统计学与数学30 想一想2.2: “大数据买披萨”的故事35 想一想2.3: 什么是整洁数据(Tidy Data)37 想一想3.1: 文字“可能”“差不多”等词可以量化吗60 想一想4.1: 生活中的DIKW69 想一想4.2: 你听说过“信息茧房”吗74 想一想4.3: Analysis与Analytics有什么区别75 想一想5.1: 知识的不确定性及不确切性的表示 90 想一想5.2: 你能从下面对“知识”的描述中得到什么95 想一想5.3: 到底是“算法”还是“模型”99 想一想5.4: 数据科学还是什么101 想一想5.5: 数据收集要考虑什么104 想一想6.1: 中位数与众数的计算114 想一想6.2: 为什么数据准备那么花时间121 想一想7.1: “回归”的含义133 想一想7.2: 空间变换——从非线性到线性142 想一想7.3: 智慧决策到底做什么150 想一想7.4: 建模是一个过程——大厨做菜152 想一想7.5: 关联规则能使东北小菜馆重获新生吗157 想一想8.1: 人类是如何思考的——为什么需要RNN178 想一想8.2: 知识从哪里来185 想一想8.3: 游戏中的AI三要素——数据、算法与算力189 想一想9.1: 什么是元数据215 想一想10.1: Google工程师是如何思考的——定义清楚问题比解决问题更难229 想一想10.2: 行存储与列存储231 想一想10.3: NoSQL数据库的特点238 想一想10.4: 从DIKW视角看数据管理240 想一想11.1: 分布式机器学习的原理249 想一想11.2: 静态数据与流数据、批处理与实时处理256 想一想11.3: Spark中数据抽象的演变——RDD、DataFrame及DStream258 想一想12.1: 网络时代,我们可以享受哪些云服务271 想一想13.1: 边缘计算的未来288 想一想13.2: 人类反馈是如何打分的304 想一想14.1: 数据驱动你体会到了吗309 想一想14.2: 免费WiFi谁会受益314 想一想14.3: 你的智能手环真的“智能”吗315 想一想14.4: 现在的自动驾驶到了哪一级322 想一想15.1: 科学、工程与技术329 想一想15.2: 入职的门槛你准备好了吗334 想一想15.3: 你想转行吗336
【试一试】
试一试1.1: 十进制、二进制、十六进制5 试一试2.1: 开放数据29 试一试2.2: 数据一致性及Excel变换39 试一试3.1: 排序算法——计算思维的实践55 试一试3.2: 网站重要性度量 59 试一试3.3: 余弦定理与文本相似度61 试一试4.1: 微信指数72 试一试4.2: 幸福与爱情77 试一试7.1: 胜率几何——小明能抢到票吗148 试一试7.2: Kmeans算法的结果是如何来的153 试一试7.3: 支持度、置信度、提升度怎么算156 试一试8.1: 神经元计算166 试一试8.2: 神经网络游乐场PlayGround171 试一试9.1: SQL实践——查询与统计204 【技术洞察】
技术洞察1.1: 图灵模型与冯·诺依曼计算机6 技术洞察1.2: 第二次工业革命——电力革命8 技术洞察1.3: CRM的起源与发展 9 技术洞察1.4: 什么是摩尔定律14 技术洞察1.5: 用户数据的价值知多少 18 技术洞察1.6: 什么是“爬虫”19 技术洞察1.7: 什么是用户画像22 技术洞察2.1: 自然语言处理——从规则到统计、从理性到经验33 技术洞察2.2: 什么是“埋点数据”36 技术洞察2.3: 数据标注40 技术洞察3.1: 大数定律与中心极限定律——统计学的基石49 技术洞察3.2: 统计描述与统计推断51 技术洞察3.3: “人”计算与“机器”计算的思维差异52 技术洞察3.4: 三种基本算法的结构及流程53 技术洞察3.5: 蒙特卡罗方法——统计模拟法56 技术洞察3.6: 计算中的递归与迭代57 技术洞察3.7: 用户偏好计算——TFIDF62 技术洞察5.1: 什么是A/B测试——奥巴马当选美国总统背后的故事93 技术洞察5.2: 自动驾驶中的数据科学、机器学习与人工智能97 技术洞察5.3: 什么是利润曲线102 技术洞察6.1: 数据分析前的准备——明确目标、定义指标109 技术洞察6.2: 同比和环比109 技术洞察6.3: RFM模型——客户分类110 技术洞察6.4: AARRR漏斗模型111 技术洞察6.5: 理解数据——变量说明表113 技术洞察6.6: 探索性可视化分析实例122 技术洞察7.1: 什么是特征工程131 技术洞察7.2: 回归建模背后的底层逻辑134 技术洞察7.3: 模型参数的“迭代优化”——梯度下降法136 技术洞察7.4: 什么是“正则化”139 技术洞察7.5: Python代码实现线性回归算法140 技术洞察7.6: 核函数高维映射144 技术洞察7.7: SVM的隐含假设145 技术洞察7.8: 结点不纯度——信息熵146 技术洞察8.1: 为什么需要非线性激活函数167 技术洞察8.2: BP学习算法169 技术洞察8.3: 神经网络的参数与超参数170 技术洞察8.4: 卷积核与卷积计算——垂直边缘检测173 技术洞察8.5: 激活函数Sigmoid与Softmax175 技术洞察8.6: Seq2Seq模型——编码/解码结构180 技术洞察8.7: 图的表示——邻接矩阵与邻接链表182 技术洞察8.8: 蒙特卡罗树搜索188 技术洞察9.1: 从计算思维看数据模型198 技术洞察9.2: 实体与ER图199 技术洞察9.3: 刚性事务与ACID原则202 技术洞察9.4: 关系模型与 SQL的诞生203 技术洞察9.5: 数据解读的六字箴言——时间、对象、指标、对比、细分、溯源211 技术洞察9.6: 模型标记语言(PMML)213 技术洞察9.7: 柔性事务与BASE原则216 技术洞察10.1: Google论文“Google File System”(2003年)——引言(译文)222 技术洞察10.2: 写时模式与读时模式224 技术洞察10.3: HDFS的文件操作命令226 技术洞察10.4: Hadoop大事记(截至2011年)227 技术洞察10.5: Google论文“BigTable: A Distributed Storage System for Structured Data”(2006年)——摘要(译文)228 技术洞察10.6: HBase的存储示例232 技术洞察10.7: HBase常用操作234 技术洞察11.1: Google论文“MapReduce: Simplified Data Processing on Large Clusters”(2004年)——引言(译文)244 技术洞察11.2: Spark诞生记250 技术洞察11.3: 从RDD再看计算思维的实践——抽象、自动化251 技术洞察12.1: 从Hadoop 1.0到Hadoop 2.0264 技术洞察12.2: 推荐系统的Hadoop实现266 技术洞察12.3: 基于云的深度学习框架272 技术洞察12.4: 算力——CPU、GPU、TPU及NPU274 技术洞察12.5: 阿里巴巴数据中台的演进之路277 技术洞察12.6: 模型迭代(Refit)与模型重构(Rebuild)278 技术洞察13.1: 传感器285 技术洞察13.2: 采样与采样频率286 技术洞察13.3: “5G 工业互联网”成为数字经济“新名片”287 技术洞察13.4: AutoSklearn——基于Python的开源工具包292 技术洞察13.5: 注意力机制与注意力模型297 技术洞察13.6: ChatGPT的预训练数据从哪里来300 技术洞察13.7: 什么是“在上下文中学习”302 技术洞察13.8: 百度“文心一言”305 技术洞察14.1: AGI何时实现——来自顶级大佬的预测321 技术洞察15.1: 2023年Gartner新兴技术成熟度327 技术洞察15.2: 数据科学与开发系统的工作流331 【应用案例】
应用案例2.1: Google的核心——PageRank算法41 应用案例2.2: 使用CRM构建全方位用户画像42 应用案例3.1: 面包的故事48 应用案例3.2: 幸运者偏差50 应用案例3.3: 淘宝的“淘气值”64 应用案例4.1: 国民阅读率71 应用案例4.2: 什么是多维度?——百度“吃货”排行榜75 应用案例4.3: 东数西算——国家大数据战略77 应用案例4.4: 用户画像的构建——标签分级80 应用案例4.5: 坐姿与汽车防盗82 应用案例5.1: 什么是“可执行的知识”91 应用案例6.1: 哪个NBA球员发挥更稳定115 应用案例6.2: 直方图与箱线图116 应用案例6.3: 描述性分析实例——驾驶员出险因素分析及结论118 应用案例6.4: 出租车GPS数据的探索性分析123 应用案例7.1: FICO信用分(美国征信体系)是怎么来的138 应用案例7.2: 逻辑回归预测点击率(ClickThroughRate,CTR)143 应用案例7.3: “泰坦尼克号”上的生还预测147 应用案例7.4: 垃圾邮件识别149 应用案例7.5: 航空公司RFM聚类155 应用案例8.1: 手写数字识别——参数知多少166 应用案例8.2: ImageNet大赛176 应用案例8.3: 语言模型的演进——从统计到神经网络181 应用案例8.4: GNN应用——增强推荐系统184 应用案例9.1: 阿波罗登月计划与数据管理197 应用案例9.2: 学生选课管理数据库系统201 应用案例9.3: 零售企业中的事实表与星状模式209 应用案例9.4: 数据仓库与用户标签210 应用案例10.1: HBase在滴滴出行中的*佳实践235 应用案例11.1: 词频统计WordCount的MapReduce实现246 应用案例11.2: 用户行为(clickstream日志)数据分析247 应用案例11.3: 基于MapReduce的视频语义分类247 应用案例11.4: 一个基于Spark的WordCount253 应用案例11.5: 用于文本分析的机器学习工作流255 应用案例11.6: 滴滴出行的ETA预测260 应用案例12.1: 基于阿里云的实时数据仓库268 应用案例13.1: 阿里巴巴的“犀牛工厂”289 应用案例13.2: 无人驾驶汽车传感器知多少289 应用案例13.3: 个性化推荐研究热点: 深度学习、知识图谱、强化学习、可解释推荐
296 应用案例13.4: 一个伟大的公司需要几个人306 应用案例14.1: 数字孪生与数字城市313 应用案例14.2: 自动驾驶迎来这样一个新阶段316 应用案例14.3: 广告投放从“千人一面”到“一人千面”317 应用案例14.4: 你的芝麻信用评分是多少317
-
断代(八品)
¥15.5¥42.0 -
家居设计解剖书
¥29.3¥39.0 -
当代中国政府与政治(新编21世纪公共管理系列教材)
¥30.2¥48.0 -
中医基础理论
¥50.7¥59.0 -
习近平新时代中国特色社会主义思想概论
¥18.2¥26.0 -
编辑审稿实务教程
¥35.1¥45.0 -
社会学概论(第二版)
¥33.0¥55.0 -
古代汉语(第四册)
¥13.3¥35.0 -
当代教育心理学(第3版)(本科教材)
¥23.8¥66.0 -
落洼物语
¥8.4¥28.0 -
EPLAN电气设计
¥29.9¥39.8 -
软件定义网络(SDN)实战教程
¥49.6¥69.8 -
[社版]大汉战神:霍去病传
¥14.0¥40.0 -
介入护理学(案例版)
¥52.4¥69.8 -
学前教育史(第二版)
¥31.2¥48.0 -
西方经济学(宏观部分·第八版)(21世纪经济学系列教材)
¥41.7¥49.0 -
西方经济学(微观部分·第八版)(21世纪经济学系列教材)
¥17.9¥56.0 -
数理经济学的基本方法(第4版)(精)
¥56.9¥79.0 -
老子道德经注校释(精)/新编诸子集成
¥30.1¥43.0 -
科技论文规范写作与编辑(第4版)
¥63.0¥75.0