- ISBN:9787030697295
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:511
- 出版时间:2021-09-01
- 条形码:9787030697295 ; 978-7-03-069729-5
内容简介
本书介绍了多元统计分析的方法和理论,以及R语言计算,涵盖了经典多元统计分析的全部内容,包括:矩阵运算知识、数据可视化与R语言、多元正态分布、多元正态总体的抽样分布、多元正态分布的参数估计、置信域和假设检验、线性回归模型、多元多重回归分析、主成分分析、因子分析、判别分析、聚类分析和典型相关分析等内容,以及R语言的应用。本书除了重点介绍各种多元统计分析的思想、方法和理论外,使用R语言进行计算和数据可视化也是本书的特色,对书中所有的多元统计分析方法和理论都给出了R语言程序和应用,有大量翔实的应用案例可供参考,并配有相当数量的习题可供练习。 本书取材新颖、内容丰富、阐述严谨、推导详尽、重点突出、思路清晰、深入浅出、富有启发性,便于教学与自学。 本书可作为统计学、数学、金融学和经济学等专业的本科生和研究生多元统计分析课程的教材或参考书,也可作为数据分析相关科技人员和工作者使用多元统计分析方法与R语言的参考手册。
目录
“统计与数据科学丛书”序
前言
第1章 绪论和预备知识 1
1.1 绪论 1
1.1.1 多元统计分析概述 1
1.1.2 关于本书 2
1.1.3 适用对象 3
1.2 矩阵运算知识 4
1.2.1 线性空间 4
1.2.2 Kronecker乘积与拉直运算 6
1.2.3 矩阵的几种重要分解 7
1.2.4 矩阵的广义逆 11
1.2.5 对称幂等阵 14
1.2.6 分块矩阵 16
1.2.7 矩阵微商和变换的雅可比 18
习题1 22
第2章 数据可视化与R语言 24
2.1 数据可视化概述 24
2.2 R语言介绍 25
2.3 R语言绘图基础 29
2.3.1 R基础的数据可视化 29
2.3.2 ggplot2系列程序包的可视化 36
2.4 多元统计数据的可视化 39
2.4.1 轮廓图 39
2.4.2 雷达图 40
2.4.3 星图 41
2.4.4 脸谱图 42
2.4.5 散点图 44
习题2 47
第3章 多元正态分布 49
3.1 随机向量 49
3.1.1 随机向量及其分布表示 49
3.1.2 随机向量的数字特征 51
3.1.3 变量变换 56
3.2 多元正态分布的定义、性质与独立性 56
3.2.1 多元正态分布的定义及性质 58
3.2.2 多元正态分布的R语言计算 62
3.2.3 条件分布和独立性 65
3.3 偏相关系数* 68
3.4 矩阵多元正态分布 72
习题3 75
第4章 多元正态总体的抽样分布 79
4.1 二次型分布 79
4.2 Wishart分布 84
4.2.1 Wishart分布的定义及其性质 84
4.2.2 非中心Wishart分布 93
4.3 HotellingT 2分布 94
4.4 Wilks分布 97
习题4 99
第5章 多元正态分布的参数估计 102
5.1 多元正态分布样本统计量和极大似然估计 102
5.1.1 多元正态分布样本统计量 102
5.1.2 极大似然估计 105
5.2 多元正态分布的参数估计的性质 107
5.2.1 无偏性 107
5.2.2 充分性 107
5.2.3 相合性 108
5.2.4 完备性 111
5.2.5 有效性 111
5.2.6 Bayes与minimax估计* 112
5.3 均值向量的改进估计* 113
5.3.1 协方差矩阵已知时,均值向量的改进估计 114
5.3.2 协方差矩阵未知时,均值向量的改进估计 120
5.4 相关系数的估计与应用* 120
5.4.1 样本相关系数的精确分布 121
5.4.2 样本相关系数的渐近正态分布 132
5.4.3 样本偏相关系数 135
习题5 137
第6章 多元正态分布的置信域和假设检验 140
6.1 总体均值向量的置信域估计 140
6.1.1 单个多元正态总体 140
6.1.2 同时置信区间 144
6.1.3 Bonferroni同时置信区间 146
6.1.4 大样本置信区间 149
6.1.5 两个多元正态总体 150
6.2 p值与似然比统计量 154
6.2.1 p值法 154
6.2.2 似然比原理 155
6.3 总体均值向量的检验与R语言计算 157
6.3.1 总体均值向量的检验 157
6.3.2 案例与R语言计算 160
6.4 多总体均值向量的检验 161
6.4.1 两正态总体均值向量比较的检验 161
6.4.2 案例与R语言计算 164
6.4.3 多个正态总体均值向量的检验——多元方差分析 165
6.4.4 案例与R语言计算 169
6.5 协方差矩阵的检验 170
6.5.1 单个多元正态总体协方差矩阵的检验 170
6.5.2 球形检验问题 172
6.5.3 均值向量和协方差矩阵的联合检验问题 175
6.5.4 多总体协方差矩阵的检验问题 176
6.5.5 多正态总体均值向量和协方差矩阵的同时检验问题 179
6.6 独立性检验 181
习题6 184
第7章 线性回归模型 189
7.1 多元线性回归分析 189
7.1.1 模型介绍 189
7.1.2 *小二乘估计 194
7.1.3 σ2的估计 195
7.1.4 假设检验 198
7.1.5 预测区间与置信区间 200
7.1.6 R语言函数及应用 201
7.2 回归诊断 205
7.2.1 什么是回归诊断? 205
7.2.2 残差 206
7.2.3 残差图 208
7.2.4 影响分析 210
7.2.5 多重共线性 214
7.3 子集选择 218
7.3.1 *优子集选择 218
7.3.2 逐步选择方法 219
7.3.3 *优模型选择 220
7.3.4 案例与R语言计算 223
7.4 压缩估计方法 230
7.4.1 岭回归 231
7.4.2 桥回归 234
7.4.3 惩罚变量选择方法 235
7.5 Lasso:线性回归模型应用 240
7.5.1 Lasso方法 240
7.5.2 自由度 242
7.5.3 调节参数λ的选择 243
7.5.4 案例与R语言计算 243
7.6 SCAD:线性回归模型应用 245
7.6.1 理论结果 245
7.6.2 算法 247
7.6.3 调节参数λ的选择 251
7.6.4 案例与R语言计算 252
7.7 自适应Lasso 254
7.8 高维回归模型:Lasso应用 261
习题7 268
第8章 多元多重回归分析 273
8.1 多元方差分析模型 273
8.1.1 单因子多元方差分析 273
8.1.2 双因子多元方差分析 280
8.2 多元多重回归 284
8.2.1 多响应变量的多元多重回归模型 284
8.2.2 模型参数的估计 286
8.2.3 模型参数的检验 291
8.2.4 多元多重线性回归模型的预测 296
8.2.5 案例分析 297
8.3 多元生长曲线模型 302
习题8 305
第9章 主成分分析 307
9.1 总体主成分分析 307
9.1.1 主成分的定义与导出 307
9.1.2 主成分分析的几何意义 309
9.2 主成分的推导和性质 311
9.2.1 主成分的计算和性质 311
9.2.2 基于标准化的主成分 318
9.3 样本主成分分析 320
9.3.1 基于样本协方差矩阵S的主成分 321
9.3.2 样本主成分的解释 323
9.3.3 标准化的样本主成分 324
9.4 大样本性质 329
9.4.1 特征值和特征向量估计的大样本性质 329
9.4.2 等相关结构的检验 332
9.4.3 主成分的充分性检验 332
9.5 主成分分析在图像处理中的应用 333
9.5.1 图像压缩 333
9.5.2 人脸识别 335
习题9 338
第10章 因子分析 341
10.1 因子分析模型 341
10.2 因子载荷矩阵的估计方法 345
10.2.1 主成分法 345
10.2.2 主因子法 349
10.2.3 极大似然法 353
10.3 因子旋转 358
10.4 因子分析模型的拟合优度检验 364
10.5 因子得分 367
10.5.1 Thomson因子得分 367
10.5.2 Bartlett因子得分 368
10.5.3 Thomson因子得分和Bartlett因子得分比较 371
10.5.4 案例与R语言计算 372
10.6 因子分析与主成分分析的关系 379
习题10 380
第11章 判别分析 383
11.1 判别准则 383
11.1.1 判别准则简介 383
11.1.2 两个总体的情形 384
11.2 两个总体的判别方法 386
11.2.1 先验概率已知的情形 386
11.2.2 先验概率未知的情形 388
11.3 两个已知多元正态分布的判别 389
11.3.1 先验概率已知的情形 389
11.3.2 先验概率不存在的情形 391
11.4 参数未知时两个正态总体的判别 394
11.4.1 判别准则 394
11.4.2 判别准则的分布 395
11.4.3 判别准则的渐近分布 396
11.4.4 极大似然比准则 397
11.5 错判概率 399
11.5.1 基于W错判概率的渐近展开 399
11.5.2 基于Z错判概率的渐近展开 402
11.6 多个总体的判别 404
11.7 多个多元正态分布的判别 407
11.8 案例及R语言计算 410
习题11 423
第12章 聚类分析 428
12.1 距离和相似系数 429
12.1.1 数据预处理 429
12.1.2 样本间的距离 431
12.1.3 相似系数 434
12.1.4 定性变量样本的距离和相似系数 438
12.1.5 定性变量间的相似系数 442
12.2 K均值聚类 445
12.2.1 K均值聚类算法 445
12.2.2 K均值聚类中类个数的确定和应用 448
12.2.3 图像色彩的K均值聚类 451
12.2.4 密度聚类 453
12.3 系统聚类法 457
12.3.1 系统聚类法的思想和算法 457
12.3.2 类间距离和系统聚类法 458
12.3.3 系统聚类法的统一 464
12.3.4 系统聚类法的性质和类的确定 465
12.3.5 系统聚类的R语言计算和应用 470
12.3.6 新的聚类方法 475
12.4 基于统计模型的聚类*475
习题12 480
第13章 典型相关分析 483
13.1 相关系数的定义 483
13.2 总体的典型相关分析 486
13.2.1 总体的典型相关的定义 486
13.2.2 典型相关系数的性质 487
13.3 样本典型相关分析 491
13.3.1 样本典型相关 491
13.3.2 典型相关系数个数的检验 495
13.4 典型相关分析的R语言应用 497
13.4.1 典型相关分析的程序 497
13.4.2 案例分析 500
习题13 504
参考文献 506
“统计与数据科学丛书”已出版书目 512
节选
第1章 绪论和预备知识 学习目标与要求: 1.了解多元统计分析的概述和本书的特点; 2.掌握矩阵的各种性质和运算; 3.结合多元统计分析的内容,掌握矩阵运算在多元统计分析中的重要性. 1.1 绪论 1.1.1 多元统计分析概述 多元统计分析是从经典统计学中发展起来的一个分支,是研究多元数据处理方法的一门科学.多元统计分析能够在多个对象和多个指标互相关联的情况下分析它们的统计规律,是一门具有很强应用性的课程,包括了很多非常有用的数据处理方法,在自然科学和社会科学等各个领域中得到了广泛的应用. 多元统计分析起源于20世纪初,1928年Wishart发表的学术论文《多元正态总体样本协差阵的精确分布》,可以说是多元统计分析的开端.在20世纪30年代,Fisher、Hotelling、Roy和许宝騄等统计学者作了一系列的奠基性工作,使多元统计分析在理论上得到了迅速发展.20世纪40年代,多元统计分析方法和理论在心理学、教育学、生物学等方面有不少的应用,但计算量大,使多元统计分析的发展受到一定影响,甚至停滞了相当长的时间.在20世纪50年代中期,随着电子计算机的出现和发展,多元统计分析方法在地质、气象、医学和社会学等方面得到广泛的应用.在20世纪60年代,多元统计分析的理论在应用和实践中又得到了完善与发展,新的方法和理论不断涌现,促进和扩大了多元统计分析的应用范围.20世纪70年代初期,多元统计分析在我国才受到各个领域的极大关注,并在多元统计分析的理论研究和应用上也取得了很多显著成绩,有些研究工作达到了国际水平,并已形成一支科研队伍,活跃在各条战线上.在20世纪末与21世纪初,随着现代技术的快速发展,特别是计算机科学、人工智能、网络信息、生物工程、医学技术等的发展,大数据时代正在向我们走来,并渗透到了各个领域.数字化技术的发展也使得更加方便收集和交换数据,并使得数据的存储成本变得越来越便宜.多元统计分析方法与人工智能和数据库技术相结合,已在经济、商业、金融、天文、医学、生物、环境、地质、农业和工业等领域得到了成功的应用. 在实际应用中,多个指标或变量共同作用或影响的现象大量存在,这时变量之间不可避免存在相关性.例如,在研究地区经济发展的指标时,需要考察总产值、利润、效益、劳动生产率、固定资产、物价、信贷、税收等指标;在医学诊断研究中,需要考察血压、血糖、脉搏、白细胞、体温、甘油三酯和胆固醇等指标.为了研究变量之间的相关关系并揭示变量的内在规律性,需要对p个指标变量X=(X1, ,Xp)′进行n观测试验,即收集多重观测数据,则这n个观测数据样本可以看成是p维空间的n个点.多元统计分析的研究对象就是多重观测数据,基本思想是利用多重观测之间的潜在相关性来提升推断效率,为研究变量之间的相关关系和内在规律性提供方法和理论. 在多元统计分析中,可用总体均值向量、各变量的标准差以及各变量之间的相关系数来刻画总体.相应地可用样本均值向量、各变量的样本标准差以及各变量之间的样本相关系数来概括一组样本.在研究变量之间相关关系的统计推断时,精确的统计推断理论需要对总体X进行正态分布的假设,而渐近的统计推断也需要多元的极限理论.所以,在多元统计分析中需要引入多元正态分布的概念,而多元正态分布也是多元统计分析的理论基础.多元统计分析的内容包括:矩阵运算、数据可视化、多元正态分布、多元正态总体的抽样分布、多元正态分布的参数估计、置信域和假设检验、线性回归模型、多元多重回归分析、主成分分析、因子分析、判别分析、聚类分析和典型相关分析等内容. 多元统计分析方法在经济、管理、金融、农业、医学、教育学、体育科学、生态学、地质学、社会学、考古学、环境科学、军事科学和文学等方面都有广泛的应用.因此,学习多元统计分析方法、理论和应用是非常必要的. 1.1.2 关于本书 目前,国内外统计学者已经出版了很多优秀的多元统计分析教材,例如,Anderson(2003),Johnson和Wichern(2008),张尧庭和方开泰(1982),高惠璇(2005),张润楚(2006),王静龙(2008),白志东等(2012),吴密霞和刘春玲(2014),吴喜之(2019)等.在本书编写过程中,吸收了这些优秀教材的许多精华和优点,突出了以下几个特色. (1)为了让读者系统掌握多元统计分析内容,本书严谨并系统地介绍了多元统计分析的基本思想、方法和理论,还配有大量翔实的应用案例可供参考.此外,本书在第7章的线性回归模型部分还系统介绍了前沿的惩罚变量选择方法、算法和应用,如Lasso、SCAD和自适应Lasso等. (2)本书特色是用R语言进行案例分析,做到在理论的学习中体会应用,在应用的分析中加深理论.书中所有的多元统计方法都给出了R语言程序,在应用R语言进行案例分析时,除了介绍每种多元统计分析方法的程序包和核心函数外,更重要的是突出编程思想,培养读者能应用R语言进行编程和数据分析.通过编程,加深对每种多元统计分析方法的理解和掌握. (3)本书的另一个特色是数据可视化.本书在进行案例分析时,几乎对所有多元统计分析方法的结果都通过精美的图形进行数据可视化展示,可以让读者更直观地对多元统计分析方法进行比较和评价. (4)本书有相当数量的习题可供练习,这些习题中一部分可以加强统计理论和方法,另一部分针对实际问题,可培养读者结合统计方法独立解决实际问题的能力和素质. (5)本书增加了教学资源的电子教案,教材中涉及的数据、R语言程序和插图等,供使用本书的师生参考和使用,丰富教与学的过程,提高教与学的效果. (6)本书使用的符号、变量和参数非常多,因此,在撰写本书的过程中,对数学符号的定义很清楚,做到全书统一,具有可读性.此外,当符号**次出现时,都会给出清晰的定义.在本书中,用黑正体表示矩阵,黑斜体表示向量.例如,令X表示一个n×p矩阵,表示为 令xi=(xi1,xi2, ,xip)′表示长度为p的列向量,其中X′或x′表示矩阵X或向量x的转置. 1.1.3 适用对象 本书可作为统计学、数学、金融学和经济学等专业高年级本科生、研究生多元统计分析课程的教材或参考书,也可作为数据分析相关科技人员和工作者使用多元统计分析方法和R语言的参考手册.本书的目的是介绍多元统计分析的方法和理论,并通过案例让读者理解所学多元统计分析方法,并掌握多元统计分析方法的R语言应用.本书的学习要求具备一些基础课程,如概率论、数理统计、高等数学、高等代数和矩阵论等. 本书内容已经针对北京师范大学应用统计专业硕士、统计学硕士和博士研究生进行了讲授,得到了学生的认可.本书的内容较多,教师在选用本书作为教材时,对于不同培养层次的学生,可灵活选取适当的内容进行讲授.例如,对高年级本科生、应用统计专业硕士研究生,以及其他专业学生可重点介绍多元统计分析的思想和方法,并突出应用和数据分析,不建议讲授带“*”的内容.统计学硕士和博士研究生可重点介绍方法和理论,可适当选择讲授教材中带“*”的内容,注重奠定学生扎实的理论基础. 1.2 矩阵运算知识 矩阵是多元统计分析一个十分重要的工具,本节主要介绍多元统计分析中有关矩阵论的一些预备知识. 1.2.1 线性空间 记全体n×1实向量组成的集合为Rn. 定义1.1 线性空间 设H为Rn的一个子集,如果它对向量加法和数乘两种运算具有封闭性, 即 (1)对任意x∈H和y∈H,必有x+y∈H; (2)对一切实数c和任意x∈H,都有cx∈H. 这时,把满足上面两种运算的子集H称为线性空间. 显然,Rn是一个线性空间.记S0是由Rn中向量组a1, ,ak的一切可能的线性组合构成的集合,即 容易验证,S0也是线性空间,称S0为Rn的一个子空间.若将a1, ,ak排成一个n×k矩阵A=(a1, ,ak),则S0可表示为 它是矩阵A的列向量张成的子空间,记为S0=M(A). 定义1.2 线性相关/线性无关 设a1, ,ak为Rn中的一组向量,若存在不全为零的实数α1, ,αk,使得 则称向量组a1, ,ak线性相关,否则称它们是线性无关的. 如果子空间S0由一组线性无关的向量a1, ,ak张成,则称a1, ,ak为S0的一组基,k称为S0的维数,记作k=dim(S0).因此,dim(M(A))=rank(A). 对Rn中的任意两个向量a′=(a1, ,an)和b′=(b1, ,bn),定义它们的内积为 特别地,称为向量a的长度或模,记作∥a∥.记则(b,b)=1,并称b为a的标准化后的向量. 若(a,b)=0,则称a与b正交,记为a⊥b.若a与子空间S中的每一个向量正交,则称a正交于S,记为a⊥S. 定义1.3 正交补空间 设S为一子空间,称子空间S⊥={x:x⊥S}为S的正交补空间. 设A为n×k矩阵,记A⊥为满足条件A′A⊥=0且具有*大秩的矩阵,则 M(A⊥)=M(A)⊥. 定义1.4 正交矩阵 设P为n×n的矩阵,若P′P=In,则称P为正交矩阵. 由正交矩阵的定义易证:若A为正交矩阵,则 (1); (2),即A的所有列向量相互正交,所有行向量也相互正交,各列向量和各行向量的模为1. 对于n×n的方阵A,若A的列向量a1, ,an是相互正交的,即,则对其列向量进行标准化 便得到一个正交矩阵:P=(p1, ,pn),显然P′P=In. 定理1.2.1对任意矩阵A,恒有M(A)=M(AA′). 证明显然M(AA′).M(A),故只需证M(A).M(AA′).事实上,对任给x⊥M(AA′),有x′AA′=0.右乘x,得,故A′x=0于是x⊥M(A),则完成了定理1.2.1的证明.□ 1.2.2 Kronecker乘积与拉直运算 本节介绍矩阵的两种特殊运算:Kronecker乘积与拉直运算,它们在线性模型和多元统计分析等分支的参数估计理论中有特别重要的应用. 定义1.5 Kronecker乘积 设A=(aij)和B=(bij)分别为m×n和p×q的矩阵,定义mp×nq的矩阵C=(aijB),称为矩阵A和B的Kronecker乘积,记为,即 Kronecker乘积具有下列性质: (1)(结合律); (2)(分配律); (3)(数量乘法)对任意实数α和β,有; (4)(矩阵乘法); (5)(矩阵转置); (6)(逆矩阵); (7)(矩阵的迹); (8)(行列式)若A和B分别为m阶和n阶方阵,则. 定义1.6 矩阵的拉直运算 设矩阵A=(a1, ,an)是一个m×n矩阵,其中,且i=1, ,n.把矩阵A按列向量a1, ,an依次排成一个mn×1的向量,即则称Vec(A)为矩阵A的拉直运算.
作者简介
李高荣 北京师范大学统计学院教授,博士生导师。2007年在北京工业大学获得博士学位,2007-2009年在华东师范大学做博士后,2016-2017年在南加利福尼亚大学Marshall商学院做博士后。目前为全国工业统计学教学研究会常务理事、中国数学会概率统计学会第十一届理事、中国工业互联网研究院技术专家委员会专家、北京应用统计学会常务理事、中国现场统计研究会高维数据统计分会理事、生存分析分会理事和副秘书长、北京大数据协会理事和美国数学评论评论员。主要研究方向是非参数统计、高维统计、统计学习、纵向\/面板数据分析、测量误差数据和因果推断等。迄今为止,在Annals of Statistics、Journal of the AmericanStatistical Association、Journal of Business & Economic Statistics、Statistics and Computing、Statistica Sinica、《中国科学:数学》和《统计研究》等学术期刊上发表学术论文90多篇。在科学出版社出版2部专著:《纵向数据半参数模型》和《现代测量误差模型》,后者入选“现代数学基础丛书”系列。
-
勒维特之星-大发现系列丛书
¥4.0¥16.0 -
喜马拉雅山珍稀鸟类图鉴
¥23.8¥68.0 -
昆虫的生存之道
¥19.1¥38.0 -
古文诗词中的地球与环境事件
¥8.4¥28.0 -
昆虫采集制作及主要目科简易识别手册
¥20.5¥50.0 -
声音简史
¥18.7¥52.0 -
物理学之美-插图珍藏版
¥30.4¥69.0 -
不匹配的一对:动物王国的性别文化
¥13.7¥42.8 -
技术史入门
¥20.6¥48.0 -
现代物理学的概念和理论
¥23.1¥68.0 -
图说相对论(32开平装)
¥19.8¥46.0 -
数学的魅力;初等数学概念演绎
¥13.0¥22.0 -
数学专题讲座
¥11.0¥29.0 -
改变世界的发现
¥15.4¥48.0 -
为了人人晓得相对论
¥4.6¥13.5 -
舟山群岛植物图志
¥20.1¥59.0 -
宇宙与人
¥10.5¥35.0 -
布尔巴基-数学家的秘密社团
¥11.4¥38.0 -
一代神话:哥本哈根学派
¥6.7¥15.5 -
考研数学高频考点精选题
¥1.2¥3.2