人工智能科学与技术丛书统计学习理论与方法——R语言版
- ISBN:9787302530886
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:396
- 出版时间:2020-06-01
- 条形码:9787302530886 ; 978-7-302-53088-6
本书特色
从统计学观点出发,以数理统计为基础,全面系统地介绍了机器学习的主要方法。 根据全新设计的学习路线图编写,注重夯实理论基础,更便于深化对知识点的理解,建立系统性的全局观。 对机器学习所涉及的数学基础进行了完整的解释和必要的铺垫,更便于读者对深化相关知识的理解。
内容简介
本书从统计学观点出发,以数理统计为基础,全面系统地介绍了统计机器学习的主要方法。内容涉及回归(线性回归、多项式回归、非线性回归、岭回归,以及LASSO等)、分类(感知机、逻辑回归、朴素贝叶斯、决策树、支持向量机、人工神经网络等)、聚类(K均值、EM算法、密度聚类等)、蒙特卡洛采样(拒绝采样、自适应拒绝采样、重要性采样、吉布斯采样和马尔科夫链蒙特卡洛等)、降维与流形学习(SVD、PCA和MDS等),以及概率图模型基础等话题。此外,为方便读者自学,本书还扼要地介绍了机器学习中所推荐的数学知识(包括概率论与数理统计、凸优化及泛函分析基础等)。 本书是统计机器学习及相关课程的教学参考书,适用于高等院校人工智能、机器学习或数据挖掘等相关专业的师生研习之用,也可供从事计算机应用,特别是数据科学相关专业的研发人员参考。
目录
目录
第1章概率论基础
1.1基本概念
1.2随机变量数字特征
1.2.1期望
1.2.2方差
1.2.3矩与矩母函数
1.2.4协方差与协方差矩阵
1.3基本概率分布模型
1.3.1离散概率分布
1.3.2连续概率分布
1.3.3在R中使用内嵌分布
1.4概率论中的重要定理
1.4.1大数定理
1.4.2中央极限定理
1.5经验分布函数
第2章统计推断
2.1参数估计
2.1.1参数估计的基本原理
2.1.2单总体参数区间估计
2.1.3双总体均值差的估计
2.1.4双总体比例差的估计
2.2假设检验
2.2.1基本概念
2.2.2两类错误
2.2.3均值检验
2.3极大似然估计
2.3.1极大似然法的基本原理
2.3.2求极大似然估计的方法
2.3.3极大似然估计应用举例
第3章采样方法
3.1蒙特卡洛法求定积分
3.1.1无意识统计学家法则
3.1.2投点法
3.1.3期望法
3.2蒙特卡洛采样
3.2.1逆采样
3.2.2博克斯穆勒变换
3.2.3拒绝采样与自适应拒绝采样
3.3矩阵的极限与马尔科夫链
3.4查普曼柯尔莫哥洛夫等式
3.5马尔科夫链蒙特卡洛
3.5.1重要性采样
3.5.2马尔科夫链蒙特卡洛的基本概念
3.5.3MetropolisHastings算法
3.5.4Gibbs采样
第4章非参数检验方法
4.1列联分析
4.1.1类别数据与列联表
4.1.2皮尔逊(Pearson)的卡方检验
4.1.3列联分析应用条件
4.1.4费希尔(Fisher)的确切检验
4.2符号检验
4.3威尔科克森符号秩检验
4.4威尔科克森的秩和检验
4.5克鲁斯卡尔沃利斯检验
第5章一元线性回归
5.1回归分析的性质
5.2回归的基本概念
5.2.1总体的回归函数
5.2.2随机干扰的意义
5.2.3样本的回归函数
5.3回归模型的估计
5.3.1普通*小二乘法原理
5.3.2一元线性回归的应用
5.3.3经典模型的基本假定
5.3.4总体方差的无偏估计
5.3.5估计参数的概率分布
5.4正态条件下的模型检验
5.4.1拟合优度的检验
5.4.2整体性假定检验
5.4.3单个参数的检验
5.5一元线性回归模型预测
5.5.1点预测
5.5.2区间预测
第6章多元线性回归
6.1多元线性回归模型
6.2多元回归模型估计
6.2.1*小二乘估计量
6.2.2多元回归的实例
6.2.3总体参数估计量
6.3从线性代数角度理解*小二乘
6.3.1*小二乘问题的通解
6.3.2*小二乘问题的计算
6.4多元回归模型检验
6.4.1线性回归的显著性
6.4.2回归系数的显著性
6.5多元线性回归模型预测
6.6格兰杰因果关系检验
第7章线性回归进阶
7.1更多回归模型函数形式
7.1.1双对数模型以及生产函数
7.1.2倒数模型与菲利普斯曲线
7.1.3多项式回归模型及其分析
7.2回归模型的评估与选择
7.2.1嵌套模型选择
7.2.2赤池信息准则
7.2.3逐步回归方法
7.3现代回归方法的新进展
7.3.1多重共线性
7.3.2岭回归
7.3.3从岭回归到LASSO
7.3.4正则化
第8章方差分析方法
8.1方差分析的基本概念
8.2单因素方差分析方法
8.2.1基本原理
8.2.2分析步骤
8.2.3强度测量
8.3双因素方差分析方法
8.3.1无交互作用的分析
8.3.2有交互作用的分析
8.4多重比较
8.4.1多重t检验
8.4.2Dunnett检验
8.4.3Tukey的HSD检验
8.4.4NewmanKeuls检验
8.5方差齐性的检验方法
8.5.1Bartlett检验法
8.5.2Levene检验法
第9章逻辑回归与*大熵模型
9.1逻辑回归
9.2牛顿法解Logistic回归
9.3多元逻辑回归
9.4*大熵模型
9.4.1*大熵原理
9.4.2约束条件
9.4.3模型推导
9.4.4极大似然估计
第10章聚类分析
10.1聚类的概念
10.2K均值算法
10.2.1距离度量
10.2.2算法描述
10.2.3数据分析实例
10.2.4图像处理应用举例
10.3*大期望算法
10.3.1算法原理
10.3.2收敛探讨
10.4高斯混合模型
10.4.1模型推导
10.4.2应用实例
10.5密度聚类与DBSCAN算法
第11章支持向量机
11.1线性可分的支持向量机
11.1.1函数距离与几何距离
11.1.2*大间隔分类器
11.1.3拉格朗日乘数法
11.1.4对偶问题的求解
11.2松弛因子与软间隔模型
11.3非线性支持向量机方法
11.3.1从更高维度上分类
11.3.2非线性核函数方法
11.3.3机器学习中的核方法
11.3.4默瑟定理
11.4对数据进行分类的实践
11.4.1基本建模函数
11.4.2分析建模结果
第12章贝叶斯推断
12.1贝叶斯公式与边缘分布
12.2贝叶斯推断中的重要概念
12.2.1先验概率与后验概率
12.2.2共轭分布
12.3朴素贝叶斯分类器
12.4贝叶斯网络
12.4.1基本结构单元
12.4.2模型推理
12.5贝叶斯推断的应用举例
第13章降维与流形学习
13.1主成分分析(PCA)
13.2奇异值分解(SVD)
13.2.1一个基本的认识
13.2.2为什么可以做SVD
13.2.3SVD与PCA的关系
13.2.4应用举例与矩阵的伪逆
13.3多维标度法(MDS)
第14章决策树
14.1决策树基础
14.1.1Hunt算法
14.1.2基尼测度与划分
14.1.3信息熵与信息增益
14.1.4分类误差
14.2决策树进阶
14.2.1ID3算法
14.2.2C4.5算法
14.3分类回归树
14.4决策树剪枝
14.4.1没有免费午餐原理
14.4.2剪枝方法
14.5分类器的评估
第15章人工神经网络
15.1从感知机开始
15.1.1感知机模型
15.1.2感知机学习
15.1.3多层感知机
15.2基本神经网络
15.2.1神经网络结构
15.2.2符号标记说明
15.2.3后向传播算法
15.3神经网络实践
15.3.1核心函数介绍
15.3.2应用分析实践
附录A必不可少的数学基础
A.1泰勒公式
A.2海塞矩阵
A.3凸函数与詹森不等式
A.3.1凸函数的概念
A.3.2詹森不等式及其证明
A.3.3詹森不等式的应用
A.4泛函与抽象空间
A.4.1线性空间
A.4.2距离空间
A.4.3赋范空间
A.4.4巴拿赫空间
A.4.5内积空间
A.4.6希尔伯特空间
A.5从泛函到变分法
A.5.1理解泛函的概念
A.5.2关于变分的概念
A.5.3变分法的基本方程
A.5.4哈密尔顿原理
A.5.5等式约束下的变分
参考文献
节选
第3章采样方法 上一章介绍了采样的概念。例如,想知道一所大学里所有男生的平均身高。但是因为学校里的男生可能有上万人之多,所以为每个人都测量一下身高存在很大困难,于是从每个学院随机挑选出100名男生来作为样本,这个过程就是采样。然而,本章将要讨论的采样则有另外一层含义。现实中的很多问题可能求解起来是相当困难的。这时就可能会想到利用计算机模拟的方法来帮助求解。在使用计算机进行模拟时,所说的采样,是指从一个概率分布中生成观察值的方法。而这个分布通常是由其概率密度函数来表示的。但即使在已知概率密度函数的情况下,让计算机自动生成观测值也不是一件容易的事情。 3.1蒙特卡洛法求定积分 蒙特卡洛(Monte Carlo)法是一类随机算法的统称。它是20世纪40年代中期由于科学技术的发展,尤其是电子计算机的发明,而被提出并发扬光大的一种以概率统计理论为基础的数值计算方法。它的核心思想就是使用随机数(或更准确地说是伪随机数)来解决一些复杂的计算问题。现今,蒙特卡洛法已经在诸多领域展现出了超强的能力。本节,我们将通过蒙特卡洛法*为常见的一种应用——求解定积分,来演示这类算法的核心思想。 3.1.1无意识统计学家法则 作为一个预备知识,先来介绍一下无意识统计学家法则(Law of the Unconscious Statistician,LOTUS)。在概率论与统计学中,如果知道随机变量X的概率分布,但是并不显式地知道函数g(X)的分布,那么LOTUS就是一个可以用来计算关于随机变量X的函数g(X)之期望的定理。该法则的具体形式依赖于随机变量X之概率分布的描述形式。 如果随机变量X的分布是离散的,而且我们知道它的PMF是fX,但不知道fg(X),那么g(X)的期望是 E[g(X)]=∑xg(x)fX(x) 其中和式是在取遍X的所有可能之值x后求得。 如果随机变量X的分布是连续的,而且我们知道它的PDF是fX,但不知道fg(X),那么g(X)的期望是 E[g(X)]=∫∞-∞g(x)fX(x) 简而言之,已知随机变量X的概率分布,但不知道g(X)的分布,此时用LOTUS公式能计算出函数g(X)的数学期望。其实就是在计算期望时,用已知的X的PDF(或PMF)代替未知的g(X)的PDF(或PMF)。 3.1.2投点法 图31投点法求定积分 投点法是讲解蒙特卡洛法基本思想的一个*基础也*直观的实例。这个方法也常常被用来求圆周率π。现在我们用它来求函数的定积分。如图31所示,有一个函数f(x),若要求它从a到b的定积分,其实就是求曲线下方的面积。 可以用一个比较容易算得面积的矩型罩在函数的积分区间上(假设其面积为Area)。然后随机地向这个矩形框里面投点,其中落在函数f(x)下方的点为菱形,其他点为三角形。然后统计菱形点的数量占所有点(菱形+三角形)数量的比例为r,那么就可以据此估算出函数f(x)从a到b的定积分为Area×r。 注意由蒙特卡洛法得出的值并不是一个精确值,而是一个近似值。而且当投点的数量越来越大时,这个近似值也越接近真实值。 3.1.3期望法 下面来重点介绍利用蒙特卡洛法求定积分的第二种方法——期望法,有时也称为平均值法。 任取一组相互独立、同分布的随机变量{Xi},Xi在[a,b]上服从分布律fX,也就是说fX是随机变量X的PDF(或PMF)。令g*(x)=g(x)fX(x),则g*(Xi)也是一组独立同分布的随机变量,而且因为g*(x)是关于x的函数,所以根据LOTUS可得 E[g*(Xi)]=∫bag*(x)fX(x)dx=∫bag(x)dx=I 由强大数定理 PrlimN→∞1N∑Ni=1g*(Xi)=I=1 若选 =1N∑Ni=1g*(Xi) 则依概率1收敛到I。平均值法就用作为I的近似值。 假设要计算的积分有如下形式 I=∫bag(x)dx 其中,被积函数g(x)在区间[a,b]上可积。任意选择一个有简便办法可以进行抽样的概率密度函数fX(x),使其满足下列条件: (1) 当g(x)≠0时,fX(x)≠0,a≤x≤b; (2) ∫bafX(x)dx=1。 如果记 g*(x)=g(x)fX(x) ,fX(x)≠0 0,fX(x)=0 那么原积分式可以写成 I=∫bag*(x)fX(x)dx 因而求积分的步骤是: (1) 产生服从分布律fX的随机变量Xi,i=1,2,…,N; (2) 计算均值 =1N∑Ni=1g*(Xi) 并用它作为I的近似值,即I≈。 如果a,b为有限值,那么fX可取作为均匀分布 fX(x)=1b-a,a≤x≤b 0,其他 此时原来的积分式变为 I=(b-a)∫bag(x)1b-adx 因而求积分的步骤是: (1) 产生[a,b]上的均匀分布随机变量Xi,i=1,2,…,N; (2) 计算均值 =b-aN ∑Ni=1g(Xi) 并用它作为I的近似值,即I≈。 *后来看一下平均值法的直观解释。注意积分的几何意义就是[a,b]区间曲线下方的面积,如图32所示。 当在[a,b]随机取一点x时,它对应的函数值就是f(x),然后便可以用f(x)·(b-a)来粗略估计曲线下方的面积(也就是积分),如图33所示,当然这种估计(或近似)是非常粗略的。 图32积分的几何意义 图33对积分值进行粗略估计 于是我们想到在[a,b]随机取一系列点xi时(xi满足均匀分布),然后把估算出来的面积取平均来作为积分估计的一个更好的近似值,如图34所示。可以想象,如果这样的采样点越来越多,那么对于这个积分的估计也就越来越接近。 图34对积分值进行估计 按照上面这个思路,得到积分公式为 =(b-a)1N ∑N-1i=0f(Xi)=1N ∑N-1i=0f(Xi)1b-a 其中,1b-a 就是均匀分布的PMF。这跟之前推导出来的蒙特卡洛积分公式是一致的。
作者简介
左飞 博士,技术作家、译者。著作涉及人工智能、图像处理和编程语言等多个领域,其中两部作品的繁体版在中国台湾地区发行。同时,他还翻译出版了包括《编码》在内的多部经典著作。曾荣获“*受读者喜爱的IT图书作译者奖”。他撰写的技术博客(https://baimafujinji.blog.csdn.net/)非常受欢迎,累计拥有近500万的访问量。
-
深度学习的数学
¥43.5¥69.0 -
全图解零基础word excel ppt 应用教程
¥19.0¥48.0 -
机器学习
¥59.4¥108.0 -
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥31.9¥65.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥76.3¥109.0 -
UG NX 12.0数控编程
¥22.1¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥83.3¥119.0 -
Visual Basic 语言程序设计基础(第6版)
¥32.0¥45.0 -
贝叶斯推理与机器学习
¥139.3¥199.0