大数据技术
1星价
¥56.9
(7.2折)
2星价¥56.9
定价¥79.0
图文详情
- ISBN:9787560655130
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:26cm
- 页数:515页
- 出版时间:2020-03-01
- 条形码:9787560655130 ; 978-7-5606-5513-0
本书特色
本书从系统支撑下的大数据分析角度入手,介绍了不同的大数据处理模式与代表性的处理系统,并对深度学习、知识计算等重要的大数据分析技术介绍。*后给出大数据处理和分析的典型技术Hadoop的技术及其应用。
内容简介
本书从大数据分析角度入手, 首先介绍了不同的大数据处理模式与代表性的处理系统, 其次对大数据分析所应用的数据挖掘、 机器学习的理论工具给予了介绍, *后详细介绍了典型的大数据技术IBM InfoSphere BigInsights。 本书由3篇共25章组成。 第1篇大数据系统基础, 由第1章概述和第2章大数据基础组成。 第2篇大数据分析理论基础, 由第3章到第10章组成, 主要介绍了一些概率与统计方面的基础知识、 数据挖掘的基本技术以及机器学习的常用概率化工具。 第3篇大数据技术, 由第11章到第25章组成, 全面介绍了IBM InfoSphere BigInsights各个组件和基本应用。 本书可作为高等学校大数据专业方向以及计算机科学技术、 软件工程、 物联网工程等信息科学技术类专业的本科教材, 也可作为相关专业的技术人员的参考资料。
目录
第1篇 大数据系统基础
第1章 概述 2
1.1 大数据发展现状与历史 2
1.1.1 国外发展现状 2
1.1.2 国内发展现状 3
1.1.3 大数据发展历史 4
1.2 大数据定义 5
1.3 大数据应用 6
1.4 大数据挑战 7
1.5 大数据机器学习 9
1.5.1 数据流学习 9
1.5.2 深度学习 9
1.5.3 增量学习和集成学习 10
1.5.4 粒度计算 11
1.6 大数据与Hadoop生态系统 11
1.6.1 数据存储层——HDFS和HBase 12
1.6.2 数据处理层 13
1.6.3 数据查询层——Pig、 JAQL和Hive 14
1.6.4 数据访问层——数据提取(Sqoop、 Flume和Chukwa) 15
1.6.5 数据流——Storm和Spark 17
1.6.6 存储管理——HCatalog 18
1.6.7 数据分析 19
1.6.8 管理层——协同与工作流(ZooKeeper、 Avro和Oozie) 20
1.6.9 管理层——系统部署(Ambari、 Whirr、 BigTop和Hue) 21
1.7 Hadoop的发行版本 22
1.7.1 IBM InfoSphere BigInsights 22
1.7.2 Cloudera 22
1.7.3 Hortonworks数据平台 23
1.7.4 Amazon Elastic MapReduce 23
1.7.5 MapR 24
1.7.6 GreenPlum's Pivotal HD 24
1.7.7 Oracle大数据设备 24
1.7.8 Windows Azure HDInsight 24
小结 25
思考与练习题 25
第2章 大数据基础 26
2.1 大数据架构的演进及其层次 26
2.2 数据生成 27
2.2.1 数据源 28
2.2.2 数据属性 29
2.3 大数据类型概述 29
2.3.1 大数据类型 29
2.3.2 非结构化数据典型例子 30
2.4 数据获取 30
2.4.1 数据采集与数据传输 31
2.4.2 数据预处理 33
2.5 数据存储 34
2.5.1 云计算 34
2.5.2 数据管理框架 35
2.6 数据分析 38
2.6.1 数据分析的目的和分类 38
2.6.2 常用的数据分析方法 39
2.7 大数据分析 40
2.7.1 结构化数据分析 40
2.7.2 文本分析 40
2.7.3 Web数据分析 41
2.7.4 多媒体数据分析 42
2.7.5 社交网络数据分析 42
2.7.6 移动数据分析 44
2.7.7 移动商业智能 44
小结 45
思考与练习题 45
第2篇 大数据分析理论基础
第3章 概率与统计概要 48
3.1 概率论简介 48
3.1.1 离散随机变量 48
3.1.2 基本规则 48
3.1.3 贝叶斯法则 49
3.1.4 独立和条件独立 50
3.1.5 连续随机变量 50
3.1.6 分位数 51
3.1.7 均值与方差 51
3.2 常用的离散分布 52
3.2.1 二项式分布与伯努利分布 52
3.2.2 多项式分布与Multinoulli分布 52
3.2.3 泊松分布 53
3.2.4 经验分布 53
3.3 常见的连续分布 54
3.3.1 高斯(正态)分布 54
3.3.2 退化概率密度函数 54
3.3.3 拉普拉斯分布 55
3.3.4 伽马分布 55
3.3.5 贝塔分布 56
3.3.6 帕累托分布 56
3.4 联合概率分布 57
3.4.1 协方差与相关 57
3.4.2 多变量高斯分布 58
3.4.3 多变量的t分布 58
3.4.4 狄利克雷分布 58
3.5 随机变量的变换 59
3.5.1 线性变换 59
3.5.2 通用变换 59
3.5.3 中心极限定理 61
3.6 蒙特卡洛逼近 61
3.6.1 MC方法 62
3.6.2 圆周率的蒙特卡洛积分估计 62
3.6.3 蒙特卡洛逼近的精度 62
小结 63
思考与练习题 63
第4章 数据挖掘基础 66
4.1 数据挖掘的基本概念 66
4.1.1 数据挖掘的含义 66
4.1.2 数据挖掘对象 67
4.1.3 数据挖掘系统的体系结构 68
4.2 数据挖掘的功能与方法 69
4.2.1 数据挖掘的功能 69
4.2.2 数据挖掘的过程 72
4.3 决策树 74
4.3.1 基本概念 74
4.3.2 决策树的算法与工作流程 75
4.4 分类挖掘 76
4.4.1 贝叶斯分类与朴素贝叶斯分类 76
4.4.2 k近邻方法 77
小结 78
思考与练习题 78
第5章 关联挖掘与聚类 79
5.1 关联挖掘 79
5.1.1 基本概念 79
5.1.2 关联挖掘问题、 类型与基本方法 80
5.2 聚类 81
5.2.1 聚类的基本概念 81
5.2.2 基于划分的聚类 85
5.2.3 基于层次的聚类 86
小结 87
思考与练习题 88
第6章 离散数据的生成模型 89
6.1 贝塔二项式模型 89
6.1.1 似然度 89
6.1.2 先验分布 89
6.1.3 后验分布 90
6.1.4 后验预测分布 91
6.2 狄利克雷多项式模型 91
6.2.1 似然度 91
6.2.2 先验分布 92
6.2.3 后验分布 92
6.2.4 后验预测分布 93
6.3 朴素贝叶斯分类器 93
6.3.1 模型拟合 93
6.3.2 预测模型的应用 94
小结 95
思考与练习题 95
第7章 高斯模型 97
7.1 高斯模型基础 97
7.2 高斯判决分析 99
7.3 联合高斯分布的推理 103
7.4 线性高斯系统 107
7.5 MVN的参数推断 110
7.5.1 μ的后验分布 110
7.5.2 Σ的后验分布 111
7.5.3 μ与Σ的后验分布 112
小结 116
思考与练习题 116
第8章 线性回归 119
8.1 规范模型 119
8.2 *大似然估计(*小平方) 119
8.3 鲁棒线性回归 121
8.4 岭回归 123
8.5 贝叶斯线性回归 125
8.5.1 后验分布计算 125
8.5.2 后验预测计算 126
8.5.3 σ2未知时的贝叶斯推理 126
小结 128
思考与练习题 128
第9章 逻辑回归 132
9.1 规范模型 132
9.2 模型拟合 132
9.2.1 MLE 133
9.2.2 *速下降 133
9.2.3 牛顿法 135
9.2.4 迭代加权*小二乘法(IRLS) 135
9.2.5 拟牛顿法(变尺度法) 136
9.2.6 正则化 137
9.2.7 多类逻辑回归 137
9.3 贝叶斯逻辑回归 139
9.3.1 拉普拉斯逼近 139
9.3.2 BIC推导 140
9.3.3 逻辑回归的高斯逼近 140
9.3.4 后验预测逼近 141
9.3.5 残差分析(异常值检测) 144
9.4 在线学习与随机优化 144
9.4.1 在线学习与遗憾*小化 145
9.4.2 随机优化与风险*小化 145
9.4.3 LMS算法 147
9.4.4 感知算法 147
9.4.5 贝叶斯观点 148
小结 148
思考与练习题 149
第10章 广义线性模型与指数函数簇 151
10.1 指数函数簇 151
10.1.1 定义 151
10.1.2 对数配分函数 153
10.1.3 指数函数簇的MLE 154
10.1.4 指数函数簇的贝叶斯分析 155
10.1.5 指数函数簇的*大熵推导 157
10.2 广义线性模型(GLMs) 158
10.2.1 基础知识 158
10.2.2 ML和MAP估计 160
10.3 概率回归 160
10.4 排序学习 162
10.4.1 逐点的方法 163
10.4.2 成对法 163
10.4.3 成列法 164
10.4.4 排序的损失函数 165
10.5 主成分分析(PCA)与奇异值分解 166
10.5.1 主成分分析 166
10.5.2 奇异值分解 169
小结 170
思考与练习 171
第3篇 大数据技术
第11章 Hadoop基础 174
11.1 大数据与Hadoop 174
11.2 Hadoop框架的主要组件 175
11.3 用Hadoop分析大数据 176
11.4 Hadoop分布式文件系统与集群 179
11.4.1 HDFS 179
11.4.2 Hadoop集群 180
11.5 通用并行文件系统(IBM GPFS) 181
11.6 MapReduce引擎——JobTracker与TaskTracker 182
11.7 Hadoop的云端托管 183
11.8 Hadoop的工作阶段与安装部署 184
11.8.1 工作阶段 184
11.8.2 安装部署 184
11.8.3 常用模式安装 186
小结 192
思考与练习题 193
第12章 IBM InfoSphere BigInsights 194
12.1 IBM InfoSphere BigInsights简介与环境 194
12.1.1 几个角色 194
12.1.2 参考架构 196
12.2 生产环境的硬件规格及加速器 200
12.2.1 硬件要求 200
12.2.2 IBM大数据加速器 200
12.3 管理大数据环境——概述与入门练习 202
小结 212
思考与练习题 213
第13章 Hadoop分布式文件系统 214
13.1 Hadoop分布式文件系统(HDFS)基本知识及架构 214
13.1.1 NameNode 215
13.1.2 DataNode与辅助NameNode 215
13.1.3 JobTracker与TaskTracker 217
13.2 其他文件系统与Hadoop的文件块 217
13.3 HDFS文件命令 218
13.4 Hadoop分布式文件系统的基本操作 222
13.4.1 初步操作 222
13.4.2 Hadoop分布式文件系统的终端操作与行命令界面 224
13.4.3 Hadoop分布式文件系统的Web控制台操作 230
小结 235
思考与练习题 235
第14章 NoSQL数据管理与MongoDB 236
14.1 NoSQL数据管理 236
14.1.1 文档模型 236
14.1.2 键/值模型 238
14.1.3 列或宽列模型 238
14.1.4 图存储模型 239
14.2 一致性或*终一致性与NoSQL的优点 240
14.3 MongoDB 242
14.3.1 MongoDB的基本概念 242
14.3.2 MongoDB的一致性和可用性 245
14.4 在Windows上安装MongoDB 246
14.5 管道与MongoDB常用操作 247
14.5.1 MongoDB中的管道 247
14.5.2 副本在MongoDB中的工作 248
14.5.3 分拆 249
14.5.4 分拆转储MongoDB数据 250
小结 251
思考与练习题 252
第15章 HBase与Cassandra 253
15.1 HDFS与HBase 253
15.1.1 HBase简介 253
15.1.2 HDFS与HBase的比较 254
15.1.3 HBase架构 254
15.1.4 HBase数据模型 255
15.1.5 HBase映射 256
15.2 Cassandra 259
15.2.1 Cassandra概要 259
15.2.2 Cassandra中的数据复制与组件 260
15.2.3 Cassandra查询语言与数据模型 261
15.3 Cassandra安装与操作 263
15.3.1 Cassandra预安装设置 263
15.3.2 cqlsh启动与命令 267
15.3.3 Cassandra文档化Shell命令 269
小结 279
思考与练习题 280
第16章 MapReduce 281
16.1 MapReduce概要 281
16.2 MapReduce基本工作原理及应用 282
16.2.1 基本工作原理 282
16.2.2 MapReduce编程示例——电影推荐 284
16.2.3 MapReduce中JobTracker的运用 285
16.3 运行MapReduce程序 286
16.3.1 启动FuleSystem(fs) Shell 286
16.3.2 在终端运行MapReduce程序 287
16.3.3 在Web控制台上运行MapReduce程序 292
16.3.4 MapReduce的用户界面 295
小结 297
思考与练习题 297
第17章 JAQL——基于JSON的查询语言 298
17.1 概述 298
17.2 用JAQL访问JSON的数组和记录 299
17.2.1 设置与运行JAQL 299
17.2.2 JAQL的常见用法和语法 302
17.2.3 JAQL的输入/输出 305
17.2.4 常见的JAQL基本应用 306
实验一 核心运算符的操作 324
实验二 核心运算符的应用 325
小结 325
思考与练习题 336
第18章 Hive——Hadoop数据仓库 327
18.1 概述 327
18.2 Hive构件及数据文件格式 330
18.2.1 Hive构件 330
18.2.2 Hive数据文件格式 331
18.3 用Hive访问Hadoop数据 332
18.3.1 访问Hive BeeLine 命令行界面(CLI) 333
18.3.2 使用Hive中的数据库 333
18.4 Hive中的表 339
18.5 Hive运算符和函数 342
18.6 Hive DML 344
18.6.1 装载数据 345
18.6.2 运行查询 347
18.6.3 导出数据 352
18.6.4 EXPLAIN 354
18.7 使用Hive数据仓库 354
18.7.1 Hive存储格式 354
18.7.2 HiveQL——数据操作 362
18.7.3 查询 365
18.7.4 Hive的内置函数 369
小结 370
思考与练习题 371
第19章 Pig——高级编程环境 372
19.1 概述 372
19.2 Pig编程语言 374
19.2.1 Pig编程步骤 374
19.2.2 Pig Latin 374
19.2.3 特殊数据类型 375
19.2.4 数据类型 377
19.3 Pig基本应用的验证与练习 379
19.4 Pig关系运算符的验证 384
19.5 Pig评估函数的验证 386
19.6 Pig中的脚本格式与本地模式中的Pig 390
19.6.1 脚本格式 390
19.6.2 本地模式 391
19.6.3 Grunt Shell命令 394
19.6.4 Grunt Shell实用命令 394
小结 397
思考与练习题 398
第20章 BigSheets 399
20.1 创建InfoSphere BigInsights项目 400
20.2 通过创建子工作簿来裁剪数据 400
20.3 从两个工作簿中组合数据 402
20.4 通过分组数据创建列 403
20.5 在BigSheets图中查看数据 404
20.6 在图表中可视化结果和优化结果 404
20.7 从工作簿中导出数据 406
小结 407
思考与练习题 408
第21章 Big SQL——IBM NoSQL 409
21.1 概述 409
21.2 Big SQL的基本应用 411
21.2.1 启动VMware镜像 411
21.2.2 连接IBM Big SQL服务器 413
21.2.3 使用Big SQL命令行界面(JSqsh) 415
21.2.4 发送JSqsh命令以及进行Big SQL查询 423
21.3 使用Eclipse处理Big SQL 428
21.3.1 启动Web控制台验证BigInsights服务的开启和运行 429
21.3.2 在Eclipse中创建一个Big SQL连接 230
21.4 创建项目和SQL脚本文件 435
21.5 创建并执行查询 438
21.6 查询Big SQL的结构化数据 439
21.7 查询Big SQL的数据与从BigSheets导出的数据 446
21.7.1 查询Big SQL的数据 446
21.7.2 用Big SQL处理从BigSheets导出的数据 448
21.8 处理非传统数据 449
21.8.1 注册SerDe 450
21.8.2 创建、 填充以及查询使用SerDe的表 450
小结 451
思考与练习题 452
第22章 Sqoop——从异构数据源导入数据 453
22.1 概述 453
22.2 导入表 455
22.3 导出 461
22.4 创建并维护Sqoop作业 462
22.5 Sqoop——Codegen工具 464
22.6 Sqoop——eval 465
22.7 Sqoop——数据库清单 466
22.8 Sqoop——表清单 467
小结 467
思考与练习题 467
第23章 Flume——大数据实时流 469
23.1 概述 469
23.2 Apache Flume的流与源 470
23.2.1 Flume中的数据流 471
23.2.2 流/日志数据 471
23.3 Flume的基本架构与代理的其他组件 472
23.3.1 Flume的基本架构 472
23.3.2 Flume代理的其他组件 473
23.4 Apache Flume的环境 474
23.4.1 命名组件 474
23.4.2 Source、 Sink和Channel的描述 475
23.5 HDFS的put命令及其HDFS存在的问题 476
23.5.1 put命令 476
23.5.2 HDFS具有的问题 477
实验 使用Flume将数据移动到HDFS中 477
小结 481
思考与练习题 482
第24章 R编程——可视化与图形工具 483
24.1 概述 483
24.2 R语言入门 483
24.2.1 在Windows系统中安装R语言 483
24.2.2 使用R语言进行数据图表绘制 488
小结 497
思考与练习题 498
第25章 Hadoop的其他组件——Oozie、 ZooKeeper和Mahout 499
25.1 Hadoop工作流调度程序Oozie简介 499
25.2 ZooKeeper——跨集群的同步化 500
25.2.1 Apache ZooKeeper简介 500
25.2.2 ZooKeeper在Hadoop中的地位 501
25.2.3 分布式应用程序的挑战 501
25.2.4 ZooKeeper的工作 502
25.2.5 ZooKeeper的益处与架构 502
25.2.6 分层命名空间 504
25.2.7 znode的类型、 会话与Watches(手表) 505
25.3 Mahout——Hadoop的机器学习 505
25.3.1 Apache Mahout简介 505
25.3.2 Mahout的特点 506
25.3.3 Mahout的应用 507
25.3.4 Mahout中的机器学习 507
小结 511
思考与练习题 512
参考文献 513
展开全部
预估到手价 ×
预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。
确定