×
超值优惠券
¥50
100可用 有效期2天

全场图书通用(淘书团除外)

关闭
大数据平台运维(高级)

大数据平台运维(高级)

1星价 ¥29.3 (4.9折)
2星价¥29.3 定价¥59.8

温馨提示:5折以下图书主要为出版社尾货,大部分为全新(有塑封/无塑封),个别图书品相8-9成新、切口有划线标记、光盘等附件不全详细品相说明>>

图文详情
  • ISBN:9787121426285
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 开本:16开
  • 页数:276
  • 出版时间:2021-12-01
  • 条形码:9787121426285 ; 978-7-121-42628-5

内容简介

本书为"1+X”职业技能等级证书配套教材,按国家"1+X”大数据平台运维职业技能等级标准编写。本书属于大数据平台运维初级教材,从大数据平台运维工程师角度由浅入深、全方位地介绍大数据平台运维的相关基础知识和基本实操。本书共分6个部分18章,**部分为大数据平台安装,涉及平台操作系统的使用、Hadoop平台安装、平台基础环境配置;第二部分为大数据平台配置,涉及Hadoop文件参数配置、Hadoop集群运行;第三部分为大数据平台组件的安装与配置,涉及Hive、HBase、ZooKeeper、Sqoop和Flume组件的安装与配置;第四部分为大数据平台实施,涉及大数据平台实施方案、培训方案;第五部分为大数据平台监控,涉及基于大数据平台的监控命令、监控界面和报表、日志和告警信息监控;第六部分为大数据运维综合实战案例,以实际项目为例介绍从平台部署、数据业务采集、数据分析到数据可视化的整体基础实施过程,并介绍了大数据平台运维的常见故障及处理流程。 本书可作为中高职院校大数据及计算机类相关专业的教材,也可作为大数据平台运维人员的参考用书。

目录

目录 **部分 大数据平台架构 第1章 Hadoop集群选型 2 1.1 Hadoop 集群概述 2 1.1.1 Cloudera Hadoop发行版 CDH简介 2 1.1.2 CDH 特性 3 1.1.3 CDH 版本演进 3 1.1.4 CDH 和 Apache Hadoop 对比 4 1.1.5 Cloudera Manager 简介 4 1.2 Hadoop 集群硬件设计概述 5 1.3 大数据平台硬件选型 6 1.4 集群硬件配置方案制定 7 1.5 大数据集群网络方案设计 8 1.5.1 网络平面设计 8 1.5.2 机架部署设计 8 1.5.3 Hadoop集群网络规范 8 1.5.4 大数据集群网络部署实例 10 1.6 大数据集群网络高可用方案 设计 11 1.6.1 集群主机和角色分布 11 1.6.2 集群高可用方案设计 11 1.7 本章小结 12 第2章 Hadoop平台架构设计 13 2.1 Hadoop 集群节点高可用方案 规划设计 13 2.2 Hadoop集群容量方案规划 设计 14 2.2.1 小规模集群规划设计 14 2.2.2 中等规模集群规划设计 15 2.2.3 大规模集群规划设计 16 2.3 Hadoop行业方案规划设计 17 2.4 Hadoop企业方案规划设计 21 2.4.1 企业大数据平台易产生的 缺陷 21 2.4.2 企业大数据平台架构思想 22 2.4.3 企业大数据平台能力需求 23 2.4.4 企业大数据平台设计方案 24 2.5 本章小结 26 第3章 Hadoop组件部署规划 27 3.1 Hadoop 集群组件选择 27 3.1.1 CDH 集群 27 3.1.2 CDH 组件 28 3.2 Hadoop 集群版本选择 32 3.3 Hadoop 生态组件的工作原理 32 3.3.1 生态体系 32 3.3.2 各层相关组件概念及原理 32 3.4 Hadoop 生态圈的发展趋势 37 3.5 本章小结 37 第二部分 大数据平台安全管理 第4章 大数据平台安全体系 40 4.1 安全与认证概述 40 4.1.1 安全要求 40 4.1.2 安全等级 41 4.1.3 认证概述 41 4.2 Hadoop 安全背景 41 4.2.1 Hadoop 安全背景 41 4.2.2 Hadoop 安全架构 42 4.2.3 Hadoop 安全机制 43 4.3 安全认证 43 4.3.1 身份验证协议(Kerberos) 43 4.3.2 Hadoop 安全机制的具体 实现 48 4.3.3 Hadoop 安全机制的应用 场景 50 4.4 认证方式 52 4.4.1 Kerberos 安全工件 52 4.4.2 Kerberos 主体 52 4.5 本章小结 53 第5章 大数据平台安全实战 54 5.1 Kerberos 安装部署 54 5.1.1 集群环境准备 55 5.1.2 Kerberos 安装 55 5.2 HDFS 配置 Kerberos 60 5.2.1 创建认证规则 60 5.2.2 认证规则配置实现 60 5.2.3 创建 keytab 文件 61 5.2.4 部署 Kerberos keytab 文件 62 5.2.5 修改 HDFS 配置文件 62 5.2.6 启动 NameNode 64 5.2.7 启动 DataNode 65 5.3 YARN 配置 Kerberos 66 5.3.1 生成 keytab 66 5.3.2 修改 YARN 配置文件 67 5.3.3 启动服务 69 5.3.4 测试 69 5.4 本章小结 70 第6章 大数据平台治理 71 6.1 大数据数据资产概述 71 6.1.1 数据资产定义 71 6.1.2 数据资产管理五星模型 72 6.1.3 大数据资产管理框架 75 6.2 大数据平台管理体系 76 6.2.1 大数据标准体系框架 76 6.2.2 大数据平台关键技术 78 6.2.3 面向特定领域大数据参考 架构 81 6.3 大数据的数据共享与开放 83 6.3.1 数据共享开放概述 83 6.3.2 政府数据开放共享发展 历程 84 6.3.3 数据开放共享主要实现 方式 85 6.3.4 大数据开放共享困境 87 6.4 大数据安全与隐私保护 88 6.4.1 大数据安全与隐私问题 现状 88 6.4.2 大数据安全技术总体视图 89 6.4.3 开源大数据平台安全方案 90 6.5 本章小结 92 第三部分 大数据平台资源治理 第7章 大数据平台资源治理 94 7.1 大数据平台资源治理概述 94 7.1.1 资源统一管理与调度 94 7.1.2 资源管理调度模型框架 96 7.2 资源管理调度技术框架 99 7.2.1 Hadoop 资源管理调度架构 99 7.2.2 YARN 资源隔离 101 7.2.3 YARN 资源调度策略 102 7.3 Spark 内存管理模型 107 7.3.1 Spark 内存管理模型概述 107 7.3.2 静态资源管理模型 108 7.3.3 动态资源管理模型 110 7.4 本章小结 111 第8章 大数据平台数据治理 112 8.1 数据治理综述 112 8.2 数据治理标准及框架 114 8.2.1 数据管理能力成熟度评估 模型(DCMM) 114 8.2.2 GB/T 34960 数据治理规范 115 8.2.3 DAMA 数据管理理论框架 116 8.2.4 数据资产管理体系架构 116 8.3 数据治理核心工具 117 8.3.1 数据模型管理工具 117 8.3.2 元数据管理工具 118 8.3.3 数据质量管理工具 119 8.3.4 数据标准管理工具 120 8.3.5 主数据管理工具 121 8.3.6 数据安全管理工具 122 8.3.7 数据服务平台工具 123 8.4 高校数据治理实践 124 8.4.1 背景介绍 124 8.4.2 数据治理解决方案 125 8.5 本章小结 127 第四部分 大数据平台优化 第9章 Linux系统优化 130 9.1 swap 分区优化 130 9.1.1 swap 分区简介 130 9.1.2 swap 分区的优化 131 9.2 内存分配策略调整 132 9.2.1 内存分页 132 9.2.2 脏页 133 9.2.3 脏页参数优化 134 9.3 Socket 监听参数修改 134 9.3.1 什么是 Socket 134 9.3.2 Socket 读写缓冲区调优 135 9.4 打开文件描述符的上限优化 137 9.4.1 什么是文件描述符 137 9.4.2 可打开文件描述符的数目 优化 137 9.5 Transparent Huge Pages 优化 138 9.5.1 Transparent Huge Pages 简介 138 9.5.2 Transparent Huge Pages 对 系统的影响 139 9.5.3 禁用 Transparent Huge Pages 139 9.6 本章小结 140 第10章 Hadoop应用程序优化 141 10.1 减少大量小文件输入 141 10.1.1 HDFS 上的小文件问题 141 10.1.2 小文件问题解决方案 142 10.2 合理分配分布式缓存 143 10.2.1 分布式缓存简介 143 10.2.2 分布式缓存应用场景 144 10.2.3 分布式缓存的工作机制 144 10.2.4 分布式缓存实现 144 10.3 写数据类型合理使用 145 10.3.1 Hadoop 中的写数据类型 介绍 145 10.3.2 Java 基本数据类型的 Writable 封装 145 10.3.3 自定义 Writable 数据类型 146 10.4 JVM 缓存调优 146 10.4.1 为什么需要 JVM 缓存 调优 146 10.4.2 JVM 缓存参数 147 10.4.3 JVM 调优的原则和步骤 148 10.5 本章小结 148 第11章 Hadoop组件性能优化 149 11.1 HDFS 集中缓存管理 149 11.1.1 HDFS 集中缓存简介 149 11.1.2 HDFS 集中缓存架构及 概念定义 150 11.1.3 集中缓存配置 152 11.2 MapReduce 调度配置优化 153 11.2.1 MapReduce on YARN 调度 机制 153 11.2.2 公平调度器(Fair Scheduler) 153 11.2.3 容量调度器(Capacity Scheduler) 156 11.2.4 先进先出调度器 (FIFO Scheduler) 158 11.3 YARN 内存配置优化 159 11.3.1 MapReduce on YARN 159 11.3.2 优化内存配置方法 160 11.4 Spark 程序优化 161 11.4.1 Spark 程序优化必要性 161 11.4.2 Spark 参数调优 162 11.4.3 环境变量配置 163 11.4.4 常用的可调优参数 163 11.5 本章小结 165 第五部分 大数据平台升级 第12章 大数据备份和恢复 168 12.1 备份恢复概述 168 12.2 HDFS 备份恢复 168 12.2.1 HDFS 元数据备份恢复 168 12.2.2 HDFS 快照 171 12.2.3 HDFS 本地备份与恢复 173 12.2.4 Sqoop 增量导入 174 12.3 Hive元数据库备份恢复 174 12.4 HBase 备份恢复 176 12.4.1 HBase 表备份恢复 176 12.4.2 HBase 快照 179 12.5 本章小结 181 第13章 大数据平台核心升级 182 13.1 大数据平台升级概述 182 13.2 评估升级的影响 183 13.3 升级平台操作系统 184 13.4 升级准备工作 185 13.4.1 集群检查 185 13.4.2 备份 CDH 187 13.4.3 备份 HDFS 188 13.4.4 备份 HBase 190 13.4.5 升级前相关组件手动 操作 195 13.4.6 准备 CDH6 的本地 yum 源 195 13.5 本章小结 197 第14章 大数据平台及组件升级 198 14.1 HDFS 升级概述 198 14.1.1 不停机升级 198 14.1.2 停机升级 199 14.1.3 滚动升级的命令和启动 选项 200 14.2 HDFS 升级 201 14.3 YARN 升级 203 14.4 ZooKeeper 升级 206 14.5 HBase 升级 206 14.5.1 HBase 版本号和兼容性 206 14.5.2 滚动升级 208 14.5.3 升级路径 209 14.5.4 升级 HBase 操作 211 14.6 本章小结 212 第六部分 大数据平台项目综合案例 第15章 政务大数据运维项目实战 214 15.1 政务项目背景和流程 214 15.1.1 背景介绍 214 15.1.2 政务项目开发流程 215 15.2 数据说明与预处理 215 15.2.1 数据说明 215 15.2.2 数据预处理 215 15.3 数据上传 216 15.4 在 MySQL 中建库 218 15.4.1 进入 MySQL Shell环境 218 15.4.2 创建一个数据库 218 15.4.3 创建数据明细表 218 15.4.4 创建区域金额表 219 15.4.5 创建人员类型金额表 219 15.4.6 添加 MySQL 数据库驱动 程序 JAR 包 219 15.5 通过 Spark 程序分析数据 220 15.5.1 新建项目 220 15.5.2 设置依赖包 221 15.5.3 设置项目目录 222 15.5.4 新建 Scala 代码文件 222 15.5.5 编写 Scala 代码文件 223 15.5.6 配置 pom.xml 文件 225 15.5.7 在 IDEA 中运行程序 227 15.6 查询分析结果 228 15.7 本章小结 229 第16章 大数据平台安全运维实战 230 16.1 项目背景 230 16.1.1 大数据加大隐私泄露风险 230 16.1.2 大数据技术被应用到攻击 手段中 230 16.1.3 认证授权能力弱 231 16.1.4 数据无加密 231 16.1.5 内部人员窃密 231 16.2 需求分析 231 16.3 Sentry 介绍 232 16.3.1 Sentry 架构概述 232 16.3.2 Sentry 关键概念 232 16.3.3 Sentry 与 Hadoop 生态系统 集成 233 16.3.4 Hive 和 Sentry 233 16.3.5 Sentry 和 HDFS 234 16.4 解决方案 235 16.4.1 总体设计 235 16.4.2 详细设计 235 16.5 项目实施 236 16.5.1 用户规划 236 16.5.2 目录规划 237 16.5.3 HDFS 文件权限控制 237 16.5.4 HDFS ACL 权限设置 238 16.5.5 服务访问控制授权 239 16.5.6 YARN 队列访问控制列表 240 16.5.7 安装 Sentry 244 16.5.8 配置 Sentry 244 16.5.9 配置 Sentry 客户端参数 245 16.5.10 配置 Hive 集群集成 Sentry 246 16.6 本章小结 250 第17章 商业大数据平台运维实战 251 17.1 集群状态查看 251 17.1.1 检查各服务的运行状态 251 17.1.2 集群各个主机资源负载 情况 252 17.2 HDFS 运维与监控 253 17.2.1 HDFS 总体情况 253 17.2.2 HDFS 数据节点卷故障 检查 254 17.2.3 HDFS 回收站管理 255 17.2.4 NameNode 重要监控 255 17.2.5 HDFS 数据块检查 256 17.2.6 HDFS 安全模式操作 259 17.3 YARN 运维与监控 259 17.3.1 YARN 总体情况 259 17.3.2 YARN 多租户资源队列 运维 260 17.4 HBase 运维与监控 262 17.4.1 HBase 总体情况 262 17.4.2 定位数据热点 262 17.4.3 禁用 Major 合并 263 17.4.4 一致性检查和不一致 修复 263 17.4.5 备份和恢复 264 17.4.6 数据快照 265 17.5 本章小结 266
展开全部

作者简介

新华三技术有限公司是紫光股份旗下新华三集团作为数字化解决方案领导者,致力于成为客户业务创新、数字化转型*可信赖的合作伙伴。新华三拥有计算、存储、网络、5G、安全等全方位的数字化基础设施整体能力,提供云计算、大数据、人工智能、工业互联网、信息安全、智能联接、新安防、边缘计算等在内的一站式数字化解决方案,以及端到端的技术服务。同时,新华三也是HPE?服务器、存储和技术服务的中国**提供商。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航