- ISBN:9787030636423
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:376
- 出版时间:2022-10-01
- 条形码:9787030636423 ; 978-7-03-063642-3
内容简介
本书从空间大数据分析入手,详细介绍空间大数据、基于机器学习的聚类、分类与回归算法、基于仿生物学的优化算法、多维决策与多目标求解、复杂地理计算、空间大数据可视化等内容和方法,同时在*后加入综合实验案例,让学生对空间大数据分析与智能计算基础有深刻的了解,并能应用到实际工作中。
目录
前言
第1章 空间大数据 1
1.1 概述 1
1.1.1 空间大数据的概念 1
1.1.2 空间大数据的特征 2
1.1.3 空间大数据时代的挑战 3
1.2 空间大数据的获取 5
1.2.1 来源 5
1.2.2 获取方式 8
1.2.3 数据清洗 10
1.3 空间大数据的管理 13
1.3.1 云计算 13
1.3.2 管理框架 17
1.4 空间大数据分析 24
1.4.1 分析框架 24
1.4.2 空间智能计算 25
1.5 本书内容与章节安排 26
第2章 学习原理 29
2.1 学习任务与经验 29
2.1.1 学习任务 29
2.1.2 学习经验 31
2.2 性能度量 34
2.2.1 ROC与AUC 34
2.2.2 容量、过拟合和欠拟合 37
2.2.3 超参数和验证集 40
2.2.4 偏差和方差 41
第3章 聚类、分类与回归 43
3.1 DBSCAN算法 43
3.1.1 基本概念 44
3.1.2 算法描述 44
3.1.3 与传统聚类方法的对比 45
3.1.4 实例 45
3.2 投影寻踪聚类算法 46
3.2.1 基本原理 46
3.2.2 投影指标 47
3.2.3 算法描述 48
3.2.4 投影寻踪聚类实例 49
3.3 贝叶斯算法 50
3.3.1 贝叶斯分类 50
3.3.2 贝叶斯回归 54
3.4 支持向量机算法 55
3.4.1 支持向量机分类 57
3.4.2 支持向量机回归 58
3.4.3 支持向量机分类SVC 实例 58
3.4.4 支持向量机回归SVR 实例 59
3.5 神经网络算法 59
3.5.1 原理及学习过程 60
3.5.2 BP神经网络 60
3.5.3 BP神经网络实例 62
3.5.4 其他几种算法 62
3.6 决策树算法 66
3.6.1 基本原理 66
3.6.2 具体算法描述 68
3.6.3 实例 69
3.7 集成学习 70
3.7.1 原理概述 70
3.7.2 bagging 71
3.7.3 boosting 72
3.7.4 stacking 72
3.7.5 实例 73
3.8 随机森林 76
3.8.1 概述与算法流程 76
3.8.2 特征重要性评估 77
3.8.3 实例 78
3.9 提升方法 79
3.9.1 Adaboost 79
3.9.2 提升树 80
3.10 迁移学习 82
3.10.1 概述 82
3.10.2 分类 83
3.10.3 实例 85
第4章 关联规则 86
4.1 基本概念 86
4.1.1 定义 86
4.1.2 分类 87
4.1.3 挖掘过程 88
4.2 相关算法 89
4.2.1 Apriori算法 89
4.2.2 FP-Growth算法 92
4.2.3 多层关联规则挖掘算法 95
4.2.4 多维关联规则挖掘算法 95
第5章 优化 96
5.1 算法分类 96
5.1.1 贪心算法 96
5.1.2 启发式算法 98
5.2 蚁群算法 100
5.2.1 基本思想 100
5.2.2 算法原理 101
5.2.3 实例 102
5.3 人工鱼群算法 104
5.3.1 基本概念 104
5.3.2 行为描述 104
5.3.3 算法步骤 105
5.3.4 比较分析 105
5.3.5 实例 106
5.4 蜂群算法 107
5.4.1 基于蜜蜂繁殖机理的蜂群算法 107
5.4.2 基于蜜蜂采蜜机理的蜂群算法 109
5.4.3 人工蜂群算法函数优化实例 112
5.5 粒子群优化算法 113
5.5.1 概述 113
5.5.2 实例 116
5.6 遗传算法 117
5.6.1 有关概念及实现过程 117
5.6.2 基于实数编码的遗传算法 119
5.6.3 操作过程 122
5.6.4 特点 122
5.6.5 实例 123
5.7 禁忌搜索算法 124
5.7.1 概述 125
5.7.2 实例 126
5.8 模拟退火算法 127
5.8.1 基本原理 127
5.8.2 算法步骤 128
5.8.3 实例 128
第6章 深度学习 130
6.1 深度学习发展史 130
6.1.1 起源阶段 130
6.1.2 发展阶段 131
6.1.3 爆发阶段 131
6.2 深度学习的常用方法 132
6.2.1 自动编码器 132
6.2.2 深度前馈神经网络 135
6.2.3 深度卷积神经网络 138
6.2.4 深度置信网络 142
6.2.5 深度融合网络 144
6.2.6 深度强化学习 147
6.3 深度学习平台 148
6.3.1 TensorFlow 148
6.3.2 Caffe 149
6.3.3 Theano 149
6.3.4 Torch 150
第7章 面向数据流的学习方法 152
7.1 概述 152
7.1.1 数据流处理的特点 153
7.1.2 数据流的基本模型 154
7.2 面向数据流的处理技术 155
7.2.1 窗口技术 155
7.2.2 动态抽样技术 156
7.2.3 概要数据结构 157
7.2.4 更新策略 158
7.3 面向数据流的学习算法 160
7.3.1 数据流聚类算法 160
7.3.2 数据流分类算法 165
7.4 分形学习 168
7.4.1 分形聚类算法 169
7.4.2 分形分类 174
第8章 概率推理 177
8.1 不确定性的量化 177
8.1.1 推理的不确定性 177
8.1.2 利用概率量化不确定性 178
8.1.3 使用完全联合分布进行计算 180
8.1.4 使用朴素贝叶斯模型降低计算量 181
8.2 普通概率推理 183
8.2.1 贝叶斯网络 183
8.2.2 贝叶斯网络中的精确推理 185
8.2.3 贝叶斯网络中的近似推理 188
8.3 时序概率推理 191
8.3.1 转移模型与传感器模型 191
8.3.2 一般时序推理 193
8.3.3 隐马尔可夫模型 197
8.3.4 卡尔曼滤波器 199
8.3.5 动态贝叶斯网络 202
8.3.6 跟踪多个对象 209
第9章 复杂决策 211
9.1 模糊集 211
9.1.1 定义 211
9.1.2 模糊综合评价法 214
9.2 智集 215
9.2.1 定义 215
9.2.2 区间值智集软集 219
9.2.3 智集在复杂决策中的应用 220
9.3 粗糙集 221
9.3.1 基础理论 221
9.3.2 方法概述 222
9.3.3 实例 223
9.4 多维决策分析 224
9.4.1 标准化 224
9.4.2 层次分析法 225
9.4.3 模糊层次分析法 228
9.4.4 变异系数法 229
9.4.5 熵权法 229
9.4.6 突变级数法 229
9.4.7 物元分析 232
9.4.8 集对分析 237
9.4.9 灰色理论 240
第10章 多目标求解 249
10.1 线性规划法 249
10.1.1 线性规划的数学模型 249
10.1.2 线性规划的解及其性质 250
10.1.3 线性规划问题的求解方法 251
10.2 目标规划法 252
10.2.1 描述目标规划模型的有关概念 252
10.2.2 优先因子(优先等级)与权系数 252
10.2.3 目标函数 252
10.2.4 目标规划模型的一般形式 253
10.2.5 求解目标规则的单纯形方法 253
10.3 灰色规划法 254
10.3.1 概念及方法 254
10.3.2 灰色线性规划的特点 255
10.3.3 灰参数线性规划 255
10.3.4 实例 256
第11章 感知 259
11.1 物理感知 259
11.1.1 物理感知的发展 260
11.1.2 物理感知的新技术与应用 261
11.2 社会感知 262
11.2.1 发展历史 262
11.2.2 技术与应用 263
11.2.3 社会媒体数据获取 265
11.2.4 社会传感器网络 266
11.2.5 应用领域 268
第12章 文本分类与情感分析 270
12.1 文本分类 270
12.1.1 文本分类概述 270
12.1.2 向量空间模型 271
12.1.3 n元语法 272
12.1.4 分词原理 274
12.1.5 分词工具库 276
12.1.6 文本特征的选取方法 277
12.1.7 特征权重计算 279
12.1.8 分类器设计 280
12.1.9 分类性能评价 281
12.2 文本情感分析 282
12.2.1 概述 282
12.2.2 情感词典 282
12.2.3 基于情感特征匹配的文本情感分析 283
12.2.4 基于情感词典的加权情感分析 284
12.2.5 文本数据的情感分析 284
第13章 社会网络 289
13.1 社会网络的基本概念 289
13.1.1 社群图表达法 290
13.1.2 矩阵代数表达法 291
13.2 社会网络分析 291
13.2.1 静态几何特征 291
13.2.2 中心性分析 293
13.2.3 凝聚子群 297
13.2.4 自相似网络 300
13.3 社会网络分析的应用 303
13.3.1 社会网络分析软件 303
13.3.2 社区发现 304
第14章 复杂地理计算 307
14.1 地理元胞自动机 308
14.1.1 元胞自动机的定义 308
14.1.2 元胞自动机进行模拟的原理 308
14.1.3 地理元胞自动机的原理及应用 309
14.2 多智能体 319
14.2.1 基本概念 319
14.2.2 多智能体系统建模过程 320
14.2.3 主流仿真模拟平台 323
第15章 可视化 325
15.1 可视化分析研究方向 325
15.2 空间大数据可视化方法 326
15.2.1 地理信息可视化 326
15.2.2 海量特征数据可视化 327
15.2.3 时空特征数据可视化 328
15.2.4 多维特征数据可视化 329
15.2.5 社会网络
节选
第1章 空间大数据 随着传感器网络、移动定位技术、无线通信技术、互联网Web2.0,以及社交媒体等领域的发展,海量且具有位置标签的个体数据和行业数据被采集、存储、更新及推广,使得地理空间信息不断地聚合与融合。这些数据中约90%都是非结构化和半结构化的数据,称为空间大数据。相较于一般的空间数据而言,空间大数据的类型更加丰富多样,获取、管理、清洗和分析的技术流程更加复杂,对理论、实践及软硬件条件都提出了更高的要求。本章在介绍空间大数据概念和特征的基础上,总结空间大数据时代所面临的挑战;简述空间大数据的来源、获取方式和清洗技术;叙述云计算技术在管理空间大数据方面的优势及当前业界流行的管理框架方案;*后针对空间大数据的分析框架和空间智能计算,着重介绍了空间智能计算的范畴与优势。本章作为本书的引子,旨在抛砖引玉,引领读者踏入空间智能计算的奇妙殿堂。本章结构如图1-1所示。 图1-1 本章结构 1.1 概述 1.1.1 空间大数据的概念 1. 空间大数据的兴起 近年来,随着集成电路与芯片、传感器网络、移动定位技术、无线通信技术、移动互联网及高性能计算与存储技术等的飞速发展,数据采集和计算单元不断延展,每个人都成为移动传感器,无时无刻不在积累和提供着数据,如生理指标与健康档案、通信记录、网络浏览记录、消费记录、出行轨迹、社交网络关系等,这些数据是能够全方位多角度地反映个人、自然环境与社会动态的宝贵数据。同时,这些数据也为传统制造业、金融保险业、零售业、医疗卫生事业、交通运输业及新兴的移动互联网与电子商务等行业开展产品设计与优化、生产流程与调度优化、商品推荐与广告投递、店铺选址与成本分析等实际需求提供了巨大的支持。在此背景下,全球数据呈现爆发式增长态势。互联网数据中心研究的结果显示,全球每18个月新增的数据量是人类有史以来全部数据量的总和。2020年,全球一年产生的数据将达到40 ZB,而这些数据中约90%都是不精确的、非结构化的数据。这些数据的管理与分析已经超出了传统数据管理技术的能力,业界通常把这些超出正常处理规模,难以采用传统方法在合理时间内管理、处理并整理成为辅助决策信息的非结构化和半结构化数据称为大数据(big data)。 随着全球卫星定位导航系统、蜂窝移动通信定位技术及WiFi定位技术的进步,大数据的位置标签越发精确。人类活动所产生的数据中约80%的数据与空间位置有关。一个较为显著的例子是,通过大数据与空间位置的融合,21世纪初开始风靡全球的社交网络服务(social network services,SNS)从一个完全基于网络的虚拟系统发展成为客观世界与虚拟世界相融合的基于位置的社交网络(location-based social network,LBSN),创造了巨大的社会效应和经济价值,成为当下人们生活中密不可分的一部分。 2. 空间数据与空间大数据 对于地理信息科学(geographical information science,GIS)而言,传统空间数据的含义是较为固定的,是表征地理圈层或地理环境固有要素和物质数量、质量、分布特征、联系及规律的数字、文字、图像和图形的总称。从数据表达上看,可以将空间数据抽象为点、线、面三类元素;从数据结构上看,空间数据一般由矢量数据和栅格数据组成;从内容上看,空间数据主要表达空间对象的位置、属性和时态特征。空间数据的位置信息可以根据大地参考系定义,如常见的经纬度坐标;也可以定义为空间对象间的相对位置关系,如关联、邻接、包含等。属性数据又称非空间数据,是描述空间对象特征的定性或者定量指标,包括统计数据等。时态特征是指空间数据采集或地理现象发生的时刻或时段,不同时段内空间对象的位置信息和属性特征可能会有所变化,通常需要对同一空间范围多时相数据进行采集和管理。传统的空间数据强调几何上的精确性,因此以实地测绘、对地观测、航空遥感为主要的采集手段,由受过专业训练的人员完成。 与传统的空间数据不同,空间大数据的位置信息在大多数情况下是隐式表达的,且没有统一明确的数据结构。伴随着人们的活动,每时每刻每地都在源源不断地产生空间数据。因此,空间大数据往往以流数据(streaming data)的形式展现,即按照时间的推移动态增加,具有连续性和无限增长性。一个典型的例子是城市交管部门“天眼”摄像头记录的体量巨大的路况数据。因此,空间大数据更强调空间位置的连续表达和非空间属性的实时变化,对于空间对象的位置及其属性信息(如人流、车流、空气质量、噪声等),强调以位置为核心的时空动态关联。空间大数据的采集手段更加丰富和自由,不再局限于专业的测绘工作部门,每个人都是数据的提供者,如个体出行、上网记录、消费信息等均是空间大数据的重要来源,因此空间大数据具有非专业性、实时性和全面性等特点。 1.1.2 空间大数据的特征 传统的空间数据是各种地理特征和现象间关系的表示,一般具有空间位置、属性和时态特征。空间数据中的位置是通过坐标数据进行标识的,这是空间数据区别于其他数据的*显著标志,空间数据具有区域性、多维结构和动态变化的特性。①区域性指通过经纬网建立的地理坐标实现空间位置的标识。②多维结构指在同一位置上可以有多种专题的地理信息,如在同一位置同时有光照条件、湿度、温度、降水量、空气污染程度等多种特性。③时态特征指时空的动态变化引起空间数据中的属性数据或者空间数据的变化,使得空间数据的多时态特性成为一个明显的特征。 空间大数据的特征相较于传统空间数据而言更加丰富。除了较为隐含的空间特性,对于大数据,“5V”特征是*基本也是*显著的特征。“5V”分别是:①Volume(体量大)。大量TB级别及以上的已有数据等待处理,给当前的物理介质存储能力及运算速度带来了巨大的挑战。②Velocity(速度快)。需要应对以秒甚至毫秒计的不断产生无限增长的流数据,这类长期积累的数据不可能全部存储在存储介质中,数据通常在存储前需要进行预处理,去粗取精,保留一些有价值的信息。③Variety(多源异构性)。与空间位置相关的大数据类型多样,采集的内容也千差万别,时常具有不同的时间或空间粒度,从数据格式到存储方法都存在着很大差异,文本、图片、视频等结构化和非结构化数据并存。④Veracity(真伪难辨)。由数据的噪声、缺失、不一致性、歧义、隐喻等引起的数据不确定性。⑤Value(价值)。大数据的真正价值在于数据中所蕴藏的信息和知识。现实世界是一个多参数、非线性、随时间变化的不稳定系统,空间数据中的不确定性是无法回避的问题,大数据使得人们以前所未有的维度量化和理解世界,蕴含了巨大的价值,大数据的终极目标在于从数据中挖掘价值。表1-1总结了传统空间数据与空间大数据的特征差异。 表1-1 传统空间数据与空间大数据的特征差异 1.1.3 空间大数据时代的挑战 在空间大数据爆发式增长的今天,能够实时有效地体现自然、社会环境特征的信息日趋多样。如何分析利用空间大数据,从中提取有效信息,使之体现出群体智慧的价值,为改善和提升政府智能管理、企业商业决策和大众现代生活助力,是值得思考和深入探究的问题。 1. 数据获取与管理 由于空间大数据的“5V”特征,一般而言,传统的人工量测方式已经无法适应空间大数据的要求。空间大数据采集技术强调空间无缝、自动化、实时性、非专业、协同交互,发挥群体智慧。同时,需要对数据进行实时清洗和甄别,尽可能去伪存真。原始数据经过获取后,被丢弃或被存储,但是存储后再次提取代价昂贵。这个过程通常以应用为导向,需要构建适于实时分析的概要结构、时空聚合和多尺度表达等方法,实现高效的数据筛选和聚合机制,以解决数据冗余及噪声问题。 空间大数据更强调多源异构特性和动态性,而不仅仅是数据规模,广义的空间大数据包括多源地理空间信息、全景实景影像、视频、移动对象轨迹、社交网络关系、空间隐喻文本、生活服务信息、个性化地理信息等。与空间位置相关的传感器随着应用的不同,类型多样,采集的内容也千差万别,且常具有不同的时间或空间粒度,从数据格式到存储方法都存在着很大差异。虽然多源异构数据也是GIS中的一个经典命题,但是更具挑战性的是越来越多的非结构化数据。传统GIS几乎没有涉及非结构化数据,常用的关系型数据库也难以管理和使用非结构化数据。对结构化与非结构化数据进行统一的管理是利用空间大数据面临的另一个挑战。 随着大数据时代的到来,关系型数据库在海量数据管理、高并发读写及扩展性等方面的瓶颈逐渐显现,且由于空间数据追求精确性的特点,传统的空间数据库以相对静态的数据为主,不能满足大体量和流数据的存储要求,这表明现有的工具已经无法对空间大数据进行有效存储与管理。相对于静态、有限的数据集,空间大数据的数据存储管理系统需要具备扩展性,以处理动态无限增长的数据的存储和查询。目前普遍采用的云端服务模式已经成为解决大数据存储和管理的技术趋势,然而,这对空间大数据的异地多点查询和数据关联与聚合等提出了挑战。在云环境下,数据可能存放在不同磁盘、不同机器甚至不同地点,现有的分布式文件系统、数据索引与查询的方法都具有局限性。所以,针对空间大数据的数据划分,基于内存的索引,针对历史、当前及未来数据时空索引的并发控制,以及基于多线程的并发连续查询等仍然是亟须深入研究的问题。 2. 数据分析与计算 传统的空间数据分析重在使用统计模型对地理现象间的空间关联进行描述,已故图灵奖获得者Jim Gray提出,科学研究的范式已经从实验科学、理论推演、计算模拟发展到数据密集型科学发现。1994 年在渥太华举行的GIS 国际会议上,李德仁院士**次提出了从GIS数据库中发现知识(knowledge discovery from GIS,KDG)的概念,建议从纷杂的空间数据中挖掘隐含的模式、规则和知识,这是发挥空间大数据价值的一个重要思路。大数据的真正价值在于各种异构数据之间的关联性,可以采用数据挖掘的方法对多源异构的空间大数据进行不同尺度上的信息挖掘和知识发现。为了克服大数据的噪声和不确定性,常用的方法是对多源空间数据进行融合,如公交卡刷卡数据、出租车轨迹数据、自行车租用数据、手机信令数据等都是典型的城市大数据,但是单独使用其中任何一种数据都无法全面客观地描述城市交通、人群的移动等信息。移动终端,如智能手机上也具备多种传感器,但是单独使用全球定位系统(global positioning system,GPS)只能进行室外定位,结合WiFi、陀螺仪、气压计等就可以同时进行室内及高程定位。所以,无论是宏观还是微观层面,要尽可能地使用多源数据并对多源数据进行融合分析和挖掘,以充分发挥空间大数据的优势。从空间数据分析的角度而言,传统的确定性地理计算,如道路中心线提取仍将继续发挥作用,但是在空间大数据分析中,其适用场景更多的是从当前所积累的定量数据中抽取定性的规则,进而采用空间数据挖掘算法处理不确定性问题,并发现其中蕴含的知识及规律,例如,从众多车辆轨迹中识别出道路边界和中心线等。由传统空间分析方法中的模型驱动逐渐转变为数据驱动,是提取空间大数据价值的重要方式,新时代的空间分析不仅要有建立模型的能力,更要有发现新模式、新知识甚至新规律的能力。 目前,随着GIS、软件技术的成熟及人工智能领域的进展,智能计算技术成为空间大数据分析的重要手段。智能计算是借用自然界、生物界规律的启迪,根据其原理模仿设计求解问题的算法,具有识别现有知识、获取新知识、不断改善性能、实现自身完善的能力,是一个辅助人类去处理各种问题的具有独立思考能力的系统,包括遗传算法、模拟退火算法、禁忌搜索算法、进化算法、启发式算法、蚁群算法、人工鱼群算法、粒子群算法、混合智能算法、免疫算法、人工智能、神经网络、机器学习、生物计算、DNA计算、量子计算、模糊逻辑、模式识别、知识发现等。但由于缺乏可用的计算资源,全方位空间分析和
-
全图解零基础word excel ppt 应用教程
¥15.6¥48.0 -
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
硅谷之火-人与计算机的未来
¥12.7¥39.8 -
机器学习
¥59.4¥108.0 -
情感计算
¥66.8¥89.0 -
LINUX企业运维实战(REDIS+ZABBIX+NGINX+PROMETHEUS+GRAFANA+LNMP)
¥48.3¥69.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
LINUX实战——从入门到精通
¥48.3¥69.0 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
数据驱动的工业人工智能:建模方法与应用
¥68.3¥99.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥76.3¥109.0 -
UG NX 12.0数控编程
¥24.8¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
UN NX 12.0多轴数控编程案例教程
¥24.3¥38.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
Go 语言运维开发 : Kubernetes 项目实战
¥38.7¥79.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥84.5¥119.0