大数据技术科普2——大数据采集、存储与管理

1星价 ¥23.7 (7.4折)

2星价￥23.7 定价￥32.0

作者：靳大尉

出版社：西安电子科技大学出版社

本类榜单：计算机/网络

分类：计算机/网络 > 计算机理论

暂无评论

图文详情

ISBN：9787560668178
装帧：平装-胶订
册数：暂无
重量：暂无
开本：其他
页数：132
出版时间：2023-06-01
条形码：9787560668178 ; 978-7-5606-6817-8

本书特色

本书编写时特别注意了3点。一是每章在内容上相对独立，每章都可以独立地作为一个专题，而不需要其他章节内容的支撑。当然，如果能够按顺序阅读，体验会更好。二是选择主流、典型的开源产品来阐述特定技术。例如，分布式文件存储的HDFS、列族数据库HBase、文档数据库MongoDB和图数据库Neo4j等，都是本领域*为流行的开源产品。针对某种产品，选择其次新版进行介绍，兼顾了时效性和稳定性。三是辅以必要的操作来“感性”地体现产品的特性和功能，操作流程和结果体现“知其然”；对一些经典的产品如HDFS和HBase，还给出了一些“所以然”的知识，供读者深入阅读。

内容简介

本书是大数据技术普及系列读物之一，主要涉及大数据采集、分布式文件存储和非关系型数据管理等内容。全书共6章，每章一个专题，按照大数据运用流程，从网页和日志文件两种常用的大数据采集方法入手，介绍了分布式文件存储、NoSQL数据库基础理论和4种NoSQL数据库技术。针对特定技术选择了一款*典型的产品进行诠释，先后对Python语言中的Requests和BeautifulSoup包，Hadoop生态中的Flume、HDFS和HBase，以及Redis、MongoDB和Neo4j等产品进行了介绍。在每章结构上，按照要做什么(需求背景)、是什么(产品功能和特性)、为什么(体系结构/数据模型)和怎么做(基本操作)?4个方面递进展开，内容相对独立，方便读者根据自身需要选择章节进行阅读。全书内容相对浅显，具有较强的可读性，适合对大数据技术感兴趣，希望从技术和产品层面对大数据采集、存储和管理进行初步学习的读者阅读。

第1章大数据采集 1.1 概述 1.2 网页数据的爬取 1.2.1 网络爬虫概述 1.2.2 网络爬虫的实现 1.2.3 网页爬取策略 1.3 日志文件的采集 1.3.1 Apache软件组织 1.3.2 文件采集工具Flume 1.3.3 实验：Flume的使用方法小结第2章分布式文件存储 2.1 Hadoop概述 2.1.1 Hadoop的诞生与发展 2.1.2 Hadoop生态系统 2.1.3 Hadoop版本演进 2.1.4 Hadoop的发行版本 2.2 HDFS分布式文件系统 2.2.1 HDFS概述 2.2.2 HDFS设计思想 2.2.3 HDFS实现机制 2.2.4 HDFS数据读取和写入 2.2.5 HDFS文件操作方式 2.3 HDFS分布式部署实战 2.3.1 虚拟化技术 2.3.2 实验设计 2.3.3 实验过程小结第3章 NoSQL数据库 3.1 数据管理技术的发展 3.2 关系型数据库技术 3.3 NoSQL技术概述 3.3.1 传统数据库面临的挑战 3.3.2 NoSQL技术的特点 3.3.3 NoSQL的理论基础 3.4 常见的NoSQL数据库 3.4.1 NoSQL数据库的分类 3.4.2 键值数据库小结第4章列族数据库 4.1 概述 4.2 HBase数据模型 4.2.1 列族数据模型 4.2.2 一个网页的数据实例 4.3 HBase体系结构 4.4 常用命令 4.4.1 表操作 4.4.2 数据操作小结第5章文档数据库

展开全部

本类五星书