- ISBN:9787547860984
- 装帧:70g胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:324
- 出版时间:2023-04-01
- 条形码:9787547860984 ; 978-7-5478-6098-4
本书特色
适读人群 :数据科学与大数据技术学科专业的高等院校师生,从事各个领域大数据和数字化转型的工程技术人员1. 概况 数据、技术、应用,大数据三要素。信息化技术是生产数据的技术,大数据技术则是开发数据的技术。本书完整地介绍了数据开发利用的技术体系,包括大数据计算、管理、安全、可视化、流通、挖掘分析等一系列技术。 2.特色 (1)全面介绍了数据开发利用技术,还特别对数据产品生产技术进行了阐述,这是数据开发利用过程的必然选择,也是数据市场建设发展的必然选择。 (2)针对数字经济发展提供了系统性的数据开发利用技术知识。
内容简介
本书系统地介绍大数据的概念、原理、技术和应用。内容包括认识和理解大数据;大数据的相关技术(大数据获取技术、大数据存储管理技术和大数据可视化技术等);大数据计算框架;大数据挖掘任务(关联分析、聚类分析、分类分析、演变分析、特异群组分析和异常分析);大数据应用实现;大数据挖掘工具等。本书对大数据技术进行了全面而细致的定义和归纳,并将向读者展现该领域近期新研究热点和技术。关于大数据应用实现章节的内容将采用本套丛书编委们实际主持和完成的大数据项目为实际案例,阐述大数据应用实现过程中的问题、解决方案和取得的成果。
目录
第1章 绪论 1
1.1 大数据的技术挑战 1
1.1.1 大数据的"大"1
1.1.2 数据"大"的技术挑战 3
1.1.3 大数据决策的技术挑战 5
1.1.4 数据安全的技术问题 7
1.2 大数据计算 8
1.2.1 大数据文件 9
1.2.2 大数据计算框架 10
1.2.3 大数据管理 11
1.3 数据开发 12
1.3.1 数据获取 12
1.3.2 数据分析 13
1.3.3 数据可视化 14
1.4 数据产业支持 15
1.4.1 数据产业需要的技术支持 15
1.4.2 数据资产化 16
1.4.3 数据产品及其质量 17
1.4.4 数据流通与安全 18
1.5 小结 19
参考文献 19
第 2章 大数据计算 21
2.1 数据访问21
2.1.1 安全模型 21
2.1.2 访问控制策略 23
2.1.3 访问控制与授权 24
2.1.4 访问控制与审计 24
2.2 分布式文件系统 24
2.2.1 GoogleFS 25
2.2.2 HDFS 27
2.2.3 GlusterFS 28
2.2.4 CephFS 29
2.3 大数据计算框架 30
2.3.1 批处理 30
2.3.2 流数据计算 38
2.3.3 增量计算模型 41
2.3.4 新兴计算框架 44
2.3.5 大数据计算框架的发展 46
2.4 多地计算异地计算模式 48
2.4.1 概念48
2.4.2 计算模型 49
2.4.3 特点 49 2.5 小结 49
参考文献 49
第 3章 大数据管理 51
3.1 概述 51
3.2 分布式文件系统 HDFS 52
3.2.1 前提和设计目标 53
3.2.2 数据块 53
3.2.3 HDFS架构 54
3.2.4 HDFS容错机制 54
3.3 列式存储格式 Parquet 55
3.3.1 行存储与列存储文件格式 55
3.3.2 Parquet 概述 56
3.3.3 数据模型 56
3.3.4 Parquet 文件的存储格式 57
3.4 NOSOL 58
3.4.1 键值对数据库 58
3.4.2 基于列族的数据库 59
3.4.3 基于文档的数据库 59
3.4.4 基于图的数据库 60
3.5 键值数据库 Redis 60
3.5.1 Redis简介 60
3.5.2 Redis数据类型 61 3.5.3 Redis事务 63
3.5.4 Redis 持久化机制 63
3.6 HBase 63
3.6.1 HBase简介 63
3.6.2 HBase访问接口 64
3.6.3 HBase数据模型 64
3.6.4 HBase系统架构 65
3.6.5 HBase存储格式 66
3.7 Dynamo67
3.7.1 Dynamo系统设计假设和前提 67
3.7.2 Dynamo数据分布策略 68
3.7.3 CAP原理 68
3.7.4 Dynamo 的一致性实现技术 69
3.7.5 Dynamo系统访问接口 69
3.8 Cassandra 69
3.9 MongoDB 70
3.9.1 MongoDB简介 70
3.9.2 MongoDB数据模型70
3.9.3 MongoDB基础操作71
3.9.4 MongoDB聚集操作 73
3.9.5 MongoDB复制机制75
3.9.6 MongoDB分片机制 76
3.10 Neo4j 76
3.10.1 Neo4j简介 76
3.10.2 Neo4j基础概念 77
3.10.3 NeO4j的Cypher查询语言和模式 78
......
作者简介
朱扬勇,复旦大学计算机科学技术学院教授、学术委员会主任,上海市数据科学重点实验室主任,上海市政府信息化专家委员会专家,中国计算机学会大数据专家委员会专家,美国马里兰大学客座教授。从事数据领域研究25年,是很早一批从事数据挖掘研究的学者,是数据科学研究的主要倡导者之一。主持过国家自然科学基金、国家863计划项目、上海市科委重点等多项数据挖掘领域的研究课题,曾获上海市科技进步一、二、三等奖。相关研究成果在具有影响力的外期刊或会议上发表论文100余篇,出版专著2本,教材3本。2009年发表了数据科学论文Data Explosion, Data Nature 等。
-
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
全图解零基础word excel ppt 应用教程
¥12.0¥48.0 -
机器学习
¥59.4¥108.0 -
深度学习的数学
¥43.5¥69.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥37.7¥65.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥77.4¥109.0 -
UG NX 12.0数控编程
¥24.8¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
UN NX 12.0多轴数控编程案例教程
¥25.8¥38.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥84.5¥119.0 -
PREMIERE PRO 2023全面精通:视频剪辑+颜色调整+转场特效+字幕制作+案例实战
¥69.3¥99.0