×
大数据-大数据整体解决方案及关键技术探索

大数据-大数据整体解决方案及关键技术探索

1星价 ¥29.6 (5.5折)
2星价¥29.6 定价¥53.8
暂无评论
图文详情
  • ISBN:9787568012706
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 开本:16开
  • 页数:251
  • 出版时间:2015-10-01
  • 条形码:9787568012706 ; 978-7-5680-1270-6

本书特色

本书站在大数据学科发展前沿和大数据产业发展方向上,结合学术界和工业界的研究成果和实践经验,传播大数据领域的研究动态和先进技术。 全书通过“基础、进阶、实战、应用”四个篇章,既深入浅出地介绍大数据的基本概念,又面面俱到地剖析了大数据整体解决方案所涉及的具体技术细节。 本书既适合初学者作为基础学习资料,又适合科研人员作为理论研究教程,更适合从业人员作为技术参考书目。

内容简介

本书作者是大数据领域学术界和产业界的**专家,这是国内**本产学研合作介绍大数据研究热点和技术难点的图书,它全方位解读了该领域的现状、趋势及挑战。本书详细介绍了大数据的生命周期、关键技术及应用领域,并突出强调了大数据整体解决方案的重要性。不论传统的数据仓库技术,还是新兴的分布式处理技术等方案都有特定的短板,无法满足大数据对于基础设施扩展性,数据处理个性化、多样性和一体化等方面的需求。

目录

目录1大数据背景(8)1.1大数据时代的到来(8)1.2大数据定义及特征(4)1.3大数据价值(6)1.4大数据备受关注(7)1.5大数据带来的挑战(8)2大数据基础(10)2.1云计算(10)2.1.1云计算概述(10)2.1.2云计算与大数据的联系(12)2.2物联网(13)2.2.1物联网概述(13)2.2.2物联网与大数据(14)2.3数据中心(14)2.3.1数据中心概述(14)2.3.2数据中心与大数据(15)3大数据的生成和采集(19)3.1大数据生成(19)3.1.1企业内部数据(19)3.1.2物联网数据(20)3.1.3互联网数据(21)3.1.4生物医疗数据(21)3.1.5其他科学数据(22)3.2大数据采集(22)3.2.1数据收集(23)3.2.2数据传输(25)3.2.3数据预处理(26)4大数据存储(28)4.1海量存储系统(28)4.2分布式存储系统(29)4.3大数据存储机制(31)4.3.1数据库技术(32)4.3.2数据库编程模型(36)5大数据分析(39)5.1传统数据分析方法(39)5.2大数据分析方法(40)5.3大数据分析架构(42)5.4大数据挖掘和分析软件(43)大数据浪潮——大数据整体解决方案及关键技术探索目录6大数据整体解决方案(47)6.1大数据解决方案方法论(47)6.1.1大数据解决方案参考模型(48)6.1.2大数据解决方案分类(49)6.2大数据硬件平台(50)6.2.1可扩展性设计(51)6.2.2可定制性设计(52)6.3大数据软件系统(55)6.3.1大数据处理系统核心模块(55)6.3.2发行版增强功能、企业应用优化和增值服务(56)6.3.3基于内存计算的大数据处理系统(60)6.4大数据典型处理流程(63)6.5大数据一体化解决方案比较(67)7分布式文件系统hdfs(72)7.1hadoop i/o操作(72)7.1.1i/o操作中的数据检查(73)7.1.2数据的压缩(76)7.1.3数据的i/o中序列化操作(78)7.2hadoop文件系统(87)7.3hdfs体系结构(89)7.3.1hdfs的特点和局限(89)7.3.2hdfs相关概念(90)7.3.3hdfs架构(91)7.4 hdfs文件结构(94)7.4.1namenode的文件结构(94)7.4.2编辑日志(edit log)及文件系统映像(filesystem image)(95)7.4.3secondary namenode的目录结构(96)7.4.4datanode的目录结构(97)7.5hdfs读/写数据流(98)7.5.1文件的读取(98)7.5.2文件的写入(99)7.5.3一致性模型(101)7.6hdfs命令详解(102)7.6.1通过distcp进行并行复制(102)7.6.2hdfs平衡(103)7.6.3其他命令(103)8并行编程模型mapreduce(108)8.1mapreduce体系结构(108)8.1.1mapreduce基本模型(108)8.1.2mapreduce作业执行流程(108)8.2mapreduce关键流程详解(110)8.2.1partiton过程(110)8.2.2combine过程(111)8.2.3shuffle过程(112)8.3mapreduce高级应用(114)8.3.1二次排序(114)8.3.2全排序(119)8.3.3分布式缓存(121)8.3.4mapreduce 小文件处理与文件压缩(123)8.3.5mapreduce负载均衡(125)9nosql数据库hbase(128)9.1hbase体系结构(128)9.2rowkey的设计与数据访问(132)9.3过滤器(135)9.3.1比较过滤器(137)9.3.2专用过滤器(137)9.3.3附加过滤器(139)9.3.4filterlist(139)9.3.5自定义过滤器(140)9.4hbase多维数据访问(142)9.4.1通过filter实现(142)9.4.2通过设计rowkey实现(143)9.5协处理器coprocessor(143)9.5.1coprocessor类(144)9.5.2协处理器的加载(144)9.5.3观察者(146)9.5.4终端(150)9.6二级索引(154)9.6.1全局索引(global index)(154)9.6.2本地索引(local index)(155)10交互式查询语言hive(157)10.1hive体系结构(157)10.1.1hive客户端(159)10.1.2metastore(159)10.2hive数据类型(160)10.2.1基本类型(161)10.2.2复杂类型(161)10.3hive存储方式和压缩类型(162)10.3.1托管表和外部表(162)10.3.2存储方式(163)10.4hive关键技术(164)10.4.1hiveql简介(164)10.4.2hive表的创建(165)10.4.3hive表的数据加载(166)10.4.4hive表的查询(167)10.4.5hive表的更改(170)10.4.6hive表的删除(171)10.4.7hive表的分区(171)10.4.8hive表的分桶(173)10.4.9用户定义函数(174)10.5hive优化技术(175)10.5.1join优化(175)10.5.2数据倾斜优化(176)10.5.3map和reduce个数控制(177)11资源管理和调度框架——yarn(180)11.1mrv1架构面临的问题(180)11.2yarn架构(181)11.2.1yarn整体架构(181)11.2.2rm组件的作用(183)11.2.3am组件的作用(184)11.2.4nm组件的作用(185)11.2.5运行在yarn上的计算框架(186)11.2.6在yarn上定制计算框架(187)11.3yarn管理后台简介(188)11.4yarn资源调度(192)12内存计算引擎spark(197)12.1spark简介(197)12.2spark整体架构(198)12.3spark核心概念(199)12.3.1弹性分布式数据集(199)12.3.2rdd模型的优点(200)12.3.3spark dag(201)12.4spark编程模型(202)12.4.1spark初始化(203)12.4.2rdds(203)12.4.3shared variables(205)12.5spark相关组件(207)12.6spark应用实例(208)12.6.1inmemory analytics(208)12.6.2traffic modeling(209)12.6.3twitter spam classification (209)13大数据应用(213)13.1大数据应用演化(213)13.2大数据分析的关键领域(214)13.2.1结构化数据分析(214)13.2.2文本分析(215)13.2.3web分析(216)13.2.4多媒体分析(217)13.2.5网络分析(218)13.2.6移动分析(219)14大数据案例分析(221)14.1物联网大数据(221)14.1.1物联网大数据的表示(222)14.1.2物联网大数据的预处理(223)14.1.3物联网大数据的快速处理(224)14.1.4物联网大数据的并行分析(226)14.1.5物联网大数据处理平台的搭建(227)14.2其他大数据的典型应用(231)14.2.1企业级应用(231)14.2.2社交网络大数据(232)14.2.3医疗健康(234)14.2.4群智感知(235)14.2.5智能电网(235)15总结(237)15.1大数据的研究热点及研究方向(237)15.1.1基础理论研究(237)15.1.2关键技术研究(238)15.1.3应用实践研究(238)15.1.4数据安全研究(239)15.2展望(240)参考文献(243)
展开全部

作者简介

陈敏,男,1980年12月出生,教授,博士生导师,华中科技大学嵌入与普适计算实验室主任,23岁获华南理工大学通信与信息系统博士学位。发表学术论文180余篇,其中包括SCI论文90余篇,IEEE/ACM期刊论文40余篇;相关论文在美国科技信息索引SCI 数据库中他引总数500次,Google Scholar中引用总数超过4250次,单篇论文引用超高520次,其中十篇**作者论著引用次数超过1800次,H-index = 29;曾获第五届国际异构网服务质量大会QShine 2008*佳论文奖和IEEE ICC 2012*佳论文奖。2012年入选国家第二批“青年千人计划”,长期从事普适计算、移动通信、多媒体通信、传感网、云计算、远程医疗等领域的研究工作,担任Information Science等7个国际SCI学术期刊的副编辑或编委,以及IEEE Wireless Communications及IEEE Network等多个著名国际杂志及期刊的特邀编辑。任IEEE CIT 2012,TRIDENTCOM 2014,Mobimedia 2015等国际学术大会副总主席,任Cloudcomp 2014/2015大会指导委员会成员。陈敏教授具有多年海外工作经验,曾在韩国国立汉城大学、加拿大不列颠哥伦比亚大学从事博士后研究,曾任韩国首尔大学助理教授。1999年入选国际电子电气工程师学会(IEEE)高级会员,2014年担任IEEE计算机协会大数据技术委员会主席。入选爱思唯尔2014年中国高被引学者。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航