×
超值优惠券
¥50
100可用 有效期2天

全场图书通用(淘书团除外)

关闭
暂无评论
图文详情
  • ISBN:9787302667308
  • 装帧:70g胶版纸
  • 册数:暂无
  • 重量:暂无
  • 开本:16开
  • 页数:332
  • 出版时间:2024-08-01
  • 条形码:9787302667308 ; 978-7-302-66730-8

本书特色

本书全面系统地介绍了大数据基础知识和相关技术。 融会贯通大数据概念与大数据技术及应用,配套应用案例培养大数据思维及计算思维,构建数据科学与大数据技术专业知识体系,便于读者更好理解和掌握大数据技术及应用。

内容简介

本书系统介绍了大数据基础知识和相关技术,全书分为大数据基础、大数据存储与管理篇、大数据采集与预处理、大数据分析与挖掘、大数据平台Hadoop实践与应用案例5篇,共17章,主要内容包括大数据基本概念、大数据平台Hadoop基础、大数据存储与管理基本概念、大数据分布式文件系统HDFS、大数据分布式数据库系统HBase、大数据分布式数据仓库系统Hive、大数据采集与预处理技术、大数据采集工具、大数据计算模式、大数据MapReduce计算模型、大数据Spark计算模型、大数据Flink计算模型、大数据MapReduce基础算法、大数据挖掘算法、Hadoop大数据平台实践、开敞式码头系泊缆力预测应用案例以及曙光XData大数据平台及应用案例。全书提供了大量应用实例,且大多章后附有习题。本书特色在于融会贯通大数据基本概念与大数据技术及应用,很好地将大数据概念、技术及应用融合在一起,便于读者更好地理解大数据基本概念,更快掌握大数据前沿技术及其应用。
本书适合作为高等院校计算机、软件工程、信息管理等相关专业的本科生及研究生大数据技术课程的教学用书,也可作为相关T工程技术人员的参考用书。

目录

第1篇 大数据基础 第1章 大数据基本概念……………………………………………………………………… 3 1.1 大数据时代 ………………………………………………………………………… 3 1.1.1 大数据有多大……………………………………………………………… 3 1.1.2 大数据的产生……………………………………………………………… 4 1.1.3 大数据的发展历程………………………………………………………… 5 1.1.4 大数据对科学研究的影响………………………………………………… 7 1.1.5 大数据对思维模式的影响 ……………………………………………… 10 1.2 大数据的定义与特征……………………………………………………………… 11 1.2.1 大数据的定义 …………………………………………………………… 11 1.2.2 大数据的数据特征 ……………………………………………………… 11 1.3 大数据的应用……………………………………………………………………… 13 1.3.1 大数据在科研领域的应用 ……………………………………………… 13 1.3.2 大数据在交通领域的应用 ……………………………………………… 13 1.3.3 大数据在通信领域的应用 ……………………………………………… 13 1.3.4 大数据在医疗领域的应用 ……………………………………………… 13 1.3.5 大数据在金融领域的应用 ……………………………………………… 13 1.3.6 大数据在制造领域的应用 ……………………………………………… 13 1.3.7 大数据在体育领域的应用 ……………………………………………… 14 1.3.8 大数据在个性化生活领域的应用 ……………………………………… 14 1.3.9 大数据在安全领域的应用 ……………………………………………… 14 1.4 大数据框架体系…………………………………………………………………… 14 1.4.1 大数据基础设施层 ……………………………………………………… 14 1.4.2 大数据采集层 …………………………………………………………… 14 1.4.3 大数据存储层 …………………………………………………………… 15 1.4.4 大数据处理层 …………………………………………………………… 15 1.4.5 大数据交互展示层 ……………………………………………………… 15 Ⅷ 1.4.6 大数据应用层 …………………………………………………………… 15 1.5 大数据关键技术…………………………………………………………………… 15 1.5.1 数据采集与预处理技术 ………………………………………………… 15 1.5.2 数据存储和管理技术 …………………………………………………… 16 1.5.3 数据分析与挖掘技术 …………………………………………………… 16 1.5.4 数据可视化技术 ………………………………………………………… 16 1.5.5 数据安全和隐私保护技术 ……………………………………………… 17 1.6 大数据支撑技术…………………………………………………………………… 18 1.6.1 云计算 …………………………………………………………………… 18 1.6.2 物联网 …………………………………………………………………… 21 1.6.3 人工智能 ………………………………………………………………… 25 习题 ……………………………………………………………………………………… 27 第2章 大数据平台Hadoop基础 ………………………………………………………… 28 2.1 大数据平台 Hadoop概述 ………………………………………………………… 28 2.1.1 Hadoop简介 …………………………………………………………… 28 2.1.2 Hadoop项目起源 ……………………………………………………… 28 2.1.3 Hadoop发展历程 ……………………………………………………… 29 2.1.4 Hadoop特性 …………………………………………………………… 30 2.1.5 Hadoop主要用途 ……………………………………………………… 30 2.2 大数据平台 Hadoop原理 ………………………………………………………… 31 2.2.1 分布式计算原理 ………………………………………………………… 31 2.2.2 MapReduce原理 ………………………………………………………… 33 2.2.3 Yarn原理………………………………………………………………… 33 2.3 大数据平台 Hadoop组件 ………………………………………………………… 37 2.3.1 HDFS组件 ……………………………………………………………… 38 2.3.2 MapReduce组件 ………………………………………………………… 38 2.3.3 ZooKeeper组件 ………………………………………………………… 39 2.3.4 Yarn组件………………………………………………………………… 39 2.3.5 HBase组件 ……………………………………………………………… 39 2.3.6 Hive组件 ………………………………………………………………… 40 2.3.7 Spark组件 ……………………………………………………………… 40 2.3.8 Mahout组件 …………………………………………………………… 40 2.3.9 Flume组件 ……………………………………………………………… 41 2.3.10 Sqoop组件 ……………………………………………………………… 41 2.3.11 Kafka组件 ……………………………………………………………… 42 2.3.12 Pig组件 ………………………………………………………………… 42 2.3.13 Ambari组件 …………………………………………………………… 42 2.3.14 Tez组件 ………………………………………………………………… 42 Ⅸ 2.3.15 Common组件 ………………………………………………………… 43 习题 ……………………………………………………………………………………… 43 第2篇 大数据存储与管理 第3章 大数据存储与管理基本概念 ……………………………………………………… 47 3.1 大数据的数据类型………………………………………………………………… 47 3.1.1 结构化数据 ……………………………………………………………… 47 3.1.2 半结构化数据 …………………………………………………………… 48 3.1.3 非结构化数据 …………………………………………………………… 48 3.2 数据管理技术的发展……………………………………………………………… 48 3.2.1 文件系统阶段 …………………………………………………………… 48 3.2.2 数据库系统阶段 ………………………………………………………… 49 3.2.3 数据仓库阶段 …………………………………………………………… 52 3.2.4 分布式系统阶段 ………………………………………………………… 54 3.3 分布式系统基础理论……………………………………………………………… 56 3.3.1 CAP理论 ………………………………………………………………… 56 3.3.2 BASE 思想 ……………………………………………………………… 57 3.4 NoSQL 数据库 …………………………………………………………………… 58 3.4.1 NoSQL 数据库的兴起…………………………………………………… 58 3.4.2 NoSQL 数据库与关系数据库的比较…………………………………… 59 3.4.3 NoSQL 数据库的4大类型……………………………………………… 60 3.5 大数据存储与管理技术…………………………………………………………… 62 3.5.1 分布式存储技术 ………………………………………………………… 62 3.5.2 虚拟化技术 ……………………………………………………………… 64 3.5.3 云存储技术 ……………………………………………………………… 65 习题 ……………………………………………………………………………………… 67 第4章 大数据分布式文件系统HDFS …………………………………………………… 68 4.1 HDFS概述………………………………………………………………………… 68 4.1.1 HDFS简介 ……………………………………………………………… 68 4.1.2 HDFS设计特点 ………………………………………………………… 70 4.2 HDFS工作原理…………………………………………………………………… 74 4.2.1 HDFS体系结构 ………………………………………………………… 74 4.2.2 HDFS工作组件 ………………………………………………………… 75 4.3 HDFS工作流程…………………………………………………………………… 76 4.3.1 读数据的过程 …………………………………………………………… 77 4.3.2 写数据的过程 …………………………………………………………… 77 4.4 HDFS基本操作…………………………………………………………………… 78 Ⅹ 4.4.1 HDFS文件操作 ………………………………………………………… 78 4.4.2 HDFS管理命令 ………………………………………………………… 81 4.5 HDFS编程接口…………………………………………………………………… 82 4.5.1 HDFS常用JavaAPI…………………………………………………… 82 4.5.2 HDFSAPI编程实例 …………………………………………………… 83 习题 ……………………………………………………………………………………… 85 第5章 大数据分布式数据库系统HBase ………………………………………………… 86 5.1 HBase概述 ……………………………………………………………………… 86 5.1.1 HBase简介 ……………………………………………………………… 86 5.1.2 HBase特性 ……………………………………………………………… 86 5.1.3 HBase与传统关系数据库对比 ………………………………………… 87 5.1.4 HBase应用场景 ………………………………………………………… 88 5.2 HBase数据模型 ………………………………………………………………… 88 5.2.1 HBase数据模型术语 …………………………………………………… 88 5.2.2 HBase数据逻辑模型 …………………………………………………… 89 5.2.3 HBase数据物理模型 …………………………………………………… 90 5.3 HBase工作原理 ………………………………………………………………… 90 5.3.1 HBase体系结构 ………………………………………………………… 90 5.3.2 HBase工作组件 ………………………………………………………… 91 5.4 HBase安装 ……………………………………………………………………… 92 5.4.1 下载 HBase ……………………………………………………………… 92 5.4.2 安装 HBase ……………………………………………………………… 94 5.4.3 启动 HBase ……………………………………………………………… 97 5.4.4 关闭 HBase ……………………………………………………………… 98 5.5 HBase操作命令 ………………………………………………………………… 98 5.5.1 HBase表操作 …………………………………………………………… 98 5.5.2 HBase数据操作 ……………………………………………………… 100 5.6 HBase编程接口 ………………………………………………………………… 100 5.6.1 HBase常用JavaAPI ………………………………………………… 100 5.6.2 HBaseAPI编程实例 ………………………………………………… 103 习题……………………………………………………………………………………… 111 第6章 大数据分布式数据仓库系统Hive ……………………………………………… 113 6.1 Hive概述 ………………………………………………………………………… 113 6.1.1 Hive特性 ……………………………………………………………… 113 6.1.2 Hive工作原理 ………………………………………………………… 114 6.1.3 Hive执行流程 ………………………………………………………… 114 6.2 Hive数据类型及数据模型 ……………………………………………………… 115 Ⅺ 6.2.1 Hive数据类型 ………………………………………………………… 115 6.2.2 Hive数据模型 ………………………………………………………… 115 6.3 安装 Hive ……………………………………………………………………… 117 6.3.1 下载 Hive ……………………………………………………………… 117 6.3.2 安装配置 Hive ………………………………………………………… 117 6.3.3 安装 MySQL …………………………………………………………… 119 6.3.4 配置 MySQL 允许 Hive接入 ………………………………………… 120 6.3.5 启动 Hive ……………………………………………………………… 120 6.3.6 关闭 Hive ……………………………………………………………… 121 6.4 HiveSQL ……………………………………………………………………… 121 6.4.1 DDL 语句 ……………………………………………………………… 121 6.4.2 DML 语句 ……………………………………………………………… 122 6.4.3 DQL 语句 ……………………………………………………………… 123 6.4.4 Hive操作实例 ………………………………………………………… 123 6.5 Hive访问接口 …………………………………………………………………… 125 6.5.1 HiveCLI访问接口 …………………………………………………… 125 6.5.2 JDBC 访问接口 ………………………………………………………… 126 习题……………………………………………………………………………………… 126 第3篇 大数据采集与预处理 第7章 大数据采集与预处理技术………………………………………………………… 129 7.1 数据抽取、转换、加载技术 ……………………………………………………… 129 7.1.1 ETL 概述 ……………………………………………………………… 129 7.1.2 数据抽取………………………………………………………………… 129 7.1.3 数据转换………………………………………………………………… 130 7.1.4 数据加载………………………………………………………………… 131 7.1.5 ETL 工具 ……………………………………………………………… 132 7.2 数据爬虫技术 …………………………………………………………………… 133 7.2.1 爬虫流程………………………………………………………………… 133 7.2.2 爬虫分类………………………………………………………………… 134 7.2.3 大数据爬虫技术………………………………………………………… 136 7.3 数据预处理技术 ………………………………………………………………… 138 7.3.1 数据清理………………………………………………………………… 139 7.3.2 数据集成………………………………………………………………… 140 7.3.3 数据变换………………………………………………………………… 140 7.3.4 数据归约………………………………………………………………… 142 习题……………………………………………………………………………………… 142 Ⅻ 第8章 大数据采集工具…………………………………………………………………… 143 8.1 Sqoop关系型大数据采集系统 ………………………………………………… 143 8.1.1 Sqoop简介 ……………………………………………………………… 143 8.1.2 Sqoop工作原理 ………………………………………………………… 144 8.2 Flume日志大数据采集系统 …………………………………………………… 150 8.2.1 Flume简介……………………………………………………………… 150 8.2.2 Flume工作原理………………………………………………………… 151 8.2.3 Flume的配置与启动…………………………………………………… 155 8.3 Kafka消息队列大数据采集系统 ……………………………………………… 156 8.3.1 Kafka简介 ……………………………………………………………… 156 8.3.2 Kafka工作原理 ………………………………………………………… 156 8.3.3 Kafka的配置与启动 …………………………………………………… 158 8.4 Nutch分布式大数据爬虫系统 ………………………………………………… 159 8.4.1 Nutch简介 ……………………………………………………………… 159 8.4.2 Nutch工作原理 ………………………………………………………… 160 习题……………………………………………………………………………………… 162 第4篇 大数据分析与挖掘 第9章 大数据计算模式…………………………………………………………………… 165 9.1 大数据批处理 …………………………………………………………………… 165 9.1.1 大数据批处理概述……………………………………………………… 165 9.1.2 大数据批处理常用组件………………………………………………… 166 9.2 大数据查询分析计算 …………………………………………………………… 166 9.2.1 大数据查询分析计算概述……………………………………………… 166 9.2.2 大数据查询分析计算组件……………………………………………… 167 9.3 大数据流计算 …………………………………………………………………… 168 9.3.1 大数据流计算概述……………………………………………………… 168 9.3.2 大数据流计算组件……………………………………………………… 169 9.4 大数据迭代计算 ………………………………………………………………… 169 9.4.1 大数据迭代计算概述…………………………………………………… 169 9.4.2 迭代计算组件…………………………………………………………… 170 9.5 大数据图计算 …………………………………………………………………… 171 9.5.1 大数据图计算概述……………………………………………………… 171 9.5.2 图计算组件……………………………………………………………… 172 习题……………………………………………………………………………………… 173 ?? 第10章 大数据MapReduce计算模型 …………………………………………………… 174 10.1 MapReduce概述 ……………………………………………………………… 174 10.1.1 MapReduce简介 …………………………………………………… 174 10.1.2 MapReduce由来 …………………………………………………… 175 10.1.3 MapReduce主要功能 ……………………………………………… 175 10.1.4 MapReduce技术特征 ……………………………………………… 175 10.2 MapReduce模型框架 ………………………………………………………… 176 10.2.1 MapReduce设计思想 ……………………………………………… 176 10.2.2 MapReduce模型架构 ……………………………………………… 177 10.3 MapReduce数据处理过程 …………………………………………………… 178 10.3.1 MapReduce运行原理 ……………………………………………… 179 10.3.2 数据输入输出流程 ………………………………………………… 180 10.4 MapReduce程序执行过程 …………………………………………………… 181 10.4.1 作业提交 …………………………………………………………… 182 10.4.2 作业初始化 ………………………………………………………… 183 10.4.3 作业分配 …………………………………………………………… 183 10.4.4 任务执行 …………………………………………………………… 184 10.4.5 过程和状态更新 …………………………………………………… 184 10.4.6 作业完成 …………………………………………………………… 184 10.5 MapReduce编程接口 ………………………………………………………… 185 10.5.1 数据读入 …………………………………………………………… 185 10.5.2 Mapper类和 Reducer类…………………………………………… 187 10.5.3 数据处理 …………………………………………………………… 187 10.5.4 数据输出 …………………………………………………………… 188 10.6 MapReduce实例分析 ………………………………………………………… 189 10.6.1 WordCountMapReduce设计 …………………………………… 190 10.6.2 WordCount编程实现 ……………………………………………… 191 习题 …………………………………………………………………………………… 194 第11章 大数据Spark计算模型 ………………………………………………………… 195 11.1 Spark概述 …………………………………………………………………… 195 11.1.1 Spark产生 ………………………………………………………… 195 11.1.2 Spark的相关概念及其组件 ……………………………………… 197 11.1.3 Spark特性 ………………………………………………………… 199 11.2 Spark工作原理 ……………………………………………………………… 200 11.2.1 RDD 原理 …………………………………………………………… 200 11.2.2 Spark工作流程 …………………………………………………… 202 11.2.3 Spark集群架构及运行模式 ……………………………………… 204 ?? 11.2.4 SparkStreaming工作原理………………………………………… 209 11.3 Spark访问接口 ……………………………………………………………… 210 11.3.1 Spark访问接口概述 ……………………………………………… 210 11.3.2 SparkContext访问接口 …………………………………………… 210 11.3.3 RDD 访问接口……………………………………………………… 211 11.4 Spark实例分析 ……………………………………………………………… 212 11.4.1 SparkShellWordCount编程实现………………………………… 212 11.4.2 Scala WordCount编程实现 ……………………………………… 213 11.4.3 Java WordCount编程实现 ………………………………………… 214 习题 …………………………………………………………………………………… 216 第12章 大数据Flink计算模型 ………………………………………………………… 217 12.1 Flink概述 …………………………………………………………………… 217 12.1.1 Flink简介 ………………………………………………………… 217 12.1.2 Flink的由来 ……………………………………………………… 217 12.1.3 Flink流处理 ……………………………………………………… 217 12.1.4 Flink的核心特性 ………………………………………………… 219 12.2 Flink工作原理 ……………………………………………………………… 219 12.2.1 Flink的计算框架 ………………………………………………… 219 12.2.2 Flink的体系结构 ………………………………………………… 220 12.2.3 Flink的运行架构 ………………………………………………… 221 12.3 Flink编程接口 ……………………………………………………………… 221 12.3.1 Flink的编程模型 ………………………………………………… 221 12.3.2 Flink的编程结构 ………………………………………………… 222 12.4 Flink实例分析 ……………………………………………………………… 223 12.4.1 Scala WordCount编程实现 ……………………………………… 223 12.4.2 Java WordCount编程实现 ………………………………………… 223 习题 …………………………………………………………………………………… 225 第13章 大数据MapReduce基础算法 …………………………………………………… 226 13.1 关系代数运算 ………………………………………………………………… 226 13.1.1 关系代数运算规则 ………………………………………………… 226 13.1.2 关系代数运算的 MapReduce设计与实现………………………… 228 13.2 矩阵乘法 ……………………………………………………………………… 233 13.2.1 矩阵乘法原理 ……………………………………………………… 233 13.2.2 矩阵乘法 MapReduce设计 ………………………………………… 233 13.2.3 矩阵乘法 MapReduce实现 ………………………………………… 234 习题 …………………………………………………………………………………… 236 ?? 第14章 大数据挖掘算法 ………………………………………………………………… 237 14.1 大数据关联分析算法 ………………………………………………………… 237 14.1.1 Apriori算法简介 …………………………………………………… 238 14.1.2 Apriori算法 MapReduce设计 …………………………………… 238 14.1.3 Apriori算法 MapReduce实现 …………………………………… 239 14.2 大数据 KNN 分类算法 ……………………………………………………… 245 14.2.1 KNN 分类算法简介 ……………………………………………… 245 14.2.2 KNN 算法 MapReduce设计 ……………………………………… 246 14.2.3 KNN 算法 MapReduce实现 ……………………………………… 246 14.3 大数据 K-Means聚类算法 …………………………………………………… 249 14.3.1 K-Means聚类算法简介 …………………………………………… 249 14.3.2 基于 MapReduce的 K-Means算法的设计 ……………………… 251 14.3.3 基于 MapReduce的 K-Means算法的实现 ……………………… 251 14.4 大数据回归分析算法 ………………………………………………………… 258 14.4.1 大数据回归分析算法简介 ………………………………………… 258 14.4.2 基于 MapReduce的多元回归分析算法设计……………………… 259 14.4.3 基于 MapReduce的多元回归分析算法的实现…………………… 259 习题 …………………………………………………………………………………… 263 第5篇 大数据平台Hadoop实践与应用案例 第15章 Hadoop大数据平台实践………………………………………………………… 267 15.1 Hadoop系统的安装与配置 ………………………………………………… 267 15.1.1 安装前的准备工作 ………………………………………………… 268 15.1.2 Linux虚拟机的安装 ……………………………………………… 268 15.1.3 安装和配置JDK …………………………………………………… 275 15.1.4 下载安装 Hadoop ………………………………………………… 276 15.1.5 SSH 免密登录 ……………………………………………………… 278 15.1.6 虚拟机克隆 ………………………………………………………… 279 15.1.7 Hadoop运行 ……………………………………………………… 279 15.1.8 查看集群状态 ……………………………………………………… 280 15.2 Hadoop平台基本操作 ……………………………………………………… 280 15.2.1 Hadoop启动与关闭命令 ………………………………………… 280 15.2.2 Hadoop文件操作 ………………………………………………… 281 15.2.3 Hadoop程序运行命令 …………………………………………… 282 15.3 Hadoop平台程序开发过程 ………………………………………………… 282 15.3.1 开发环境配置 ……………………………………………………… 282 ?? 15.3.2 程序开发流程 ……………………………………………………… 285 习题 …………………………………………………………………………………… 288 第16章 开敞式码头系泊缆力预测应用案例 …………………………………………… 289 16.1 开敞式码头系泊缆力预测背景描述 ………………………………………… 289 16.1.1 开敞式码头系泊作业背景描述 …………………………………… 289 16.1.2 开敞式码头系泊缆力预测背景 …………………………………… 289 16.2 大数据系泊缆力相似性查询预测方法 ……………………………………… 290 16.2.1 模糊相似性查询基本方法 ………………………………………… 290 16.2.2 系泊缆力相似性查询预测模型 …………………………………… 291 16.3 相似性查询预测方法 MapReduce设计……………………………………… 293 16.3.1 相似性查询预测方法 Map设计…………………………………… 293 16.3.2 相似性查询预测方法 Reduce设计 ……………………………… 293 16.4 相似性查询预测方法 MapReduce实现……………………………………… 294 16.4.1 系泊缆力预测结果展示 …………………………………………… 295 16.4.2 系泊缆力预测结果分析 …………………………………………… 295 第17章 曙光XData大数据平台及应用案例 …………………………………………… 297 17.1 曙光 XData大数据平台简介 ………………………………………………… 297 17.1.1 曙光 XData大数据平台概述 ……………………………………… 297 17.1.2 曙光 XData大数据平台特点及应用 ……………………………… 298 17.2 曙光大数据平台架构及关键技术 …………………………………………… 298 17.2.1 曙光 XData大数据平台架构 ……………………………………… 298 17.2.2 曙光 XData大数据平台关键技术 ………………………………… 299 17.3 曙光 XData大数据平台组件 ………………………………………………… 301 17.3.1 曙光 XData大数据集成与数据治理组件 ………………………… 301 17.3.2 曙光 XData大数据存储与数据计算组件 ………………………… 302 17.3.3 曙光 XData大数据分析与数据智能组件 ………………………… 302 17.3.4 曙光 XData大数据可视化分析组件 ……………………………… 303 17.3.5 曙光 XData大数据安全管控与管理运维组件 …………………… 304 17.4 曙光 XData大数据平台操作实践 …………………………………………… 305 17.4.1 曙光 XData大数据平台安装与配置概述 ………………………… 305 17.4.2 曙光 XData大数据平台基本操作 ………………………………… 306 17.5 基于曙光 XData大数据平台的智能交通应用案例 ………………………… 309 17.5.1 曙光 XData智能交通应用项目背景 ……………………………… 309 17.5.2 曙光 XData智能交通应用方案设计 ……………………………… 310 17.5.3 曙光 XData智能交通功能实现及应用效果 ……………………… 311 参考文献……………………………………………………………………………………… 314
展开全部

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航