- ISBN:9787302634010
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:364
- 出版时间:2023-09-01
- 条形码:9787302634010 ; 978-7-302-63401-0
内容简介
机器学习是人工智能的核心,而统计思维则是机器学习方法的核心:从随机性中寻找规律性。例如,利用损失*小化思想制定学习策略,采用概率**化思想估计模型参数,利用方差对不确定性的捕捉构造k维树,采用贝叶斯公式构建分类决策模型,等等。只有树立正确的统计思维,才能准确高效地运用机器学习方法开展数据处理与分析。本书以统计思维的视角,揭示监督学习中回归和分类模型的核心思想,帮助读者构建理论体系。具体模型包括线性回归模型、K近邻模型、贝叶斯推断、逻辑回归模型、**熵模型、决策树模型、感知机模型、支持向量机、EM算法和提升方法。本书共12章,绪论介绍贯穿本书的两大思维模式,以及关于全书的阅读指南;第1章介绍一些基本术语,并给出监督学习的流程;第2章介绍关于回归问题的机器学习方法;第3~9章介绍关于分类问题的机器学习方法;第10章介绍可应用于具有隐变量模型的参数学习算法——EM算法;第11章简单介绍集成学习,并重点阐述其中的提升(Boosting)方法。为满足个性化学习需求的不同需求,本书从核心思想、方法流程及实际案例应用等不同角度,详细描述各种方法的原理和实用价值,非常适合数据科学、机器学习专业的本科生和研究生学习,也可供相关从业者参考。
目录
目录
绪论1 0.1本书讲什么,初衷是什么 1 0.2贯穿本书的两大思维模式 3 0.2.1提问的思维方式 3 0.2.2发散的思维方式 4 0.3这本书决定它还想要这样 5 0.3.1**性原理 . 5 0.3.2奥卡姆剃刀原理 7 0.4如何使用本书 8 第 1章步入监督学习之旅 .11 1.1机器学习从数据开始 11 1.2监督学习是什么 . 14 1.2.1基本术语 16 1.2.2学习过程如同一场科学推理 17 1.3如何评价模型的好坏 21 1.3.1评价模型的量化指标 21 1.3.2拟合能力 24 1.3.3泛化能力 24 1.4损失*小化思想 . 25 1.5怎样理解模型的性能:方差-偏差折中思想 . 27 1.6如何选择*优模型 28 1.6.1正则化:对模型复杂程度加以惩罚 28 1.6.2交叉验证:样本的多次重复利用 . 30 1.7本章小结 . 31 1.8习题 31 第 2章线性回归模型 33 2.1探寻线性回归模型 33 2.1.1诺贝尔奖中的线性回归模型 33 2.1.2回归模型的诞生 34 2.1.3线性回归模型结构 . 38 2.2*小二乘法 39 2.2.1回归模型用哪种损失:平方损失 . 40 机器学习中的统计思维 (Python实现)
2.2.2如何估计模型参数:*小二乘法 . 41 2.3线性回归模型的预测 44 2.3.1一元线性回归模型的预测 . 44 2.3.2多元线性回归模型的预测 . 48 2.4拓展部分:岭回归与套索回归 . 49 2.4.1岭回归 50 2.4.2套索回归 51 2.5案例分析——共享单车数据集 . 53 2.6本章小结 . 56 2.7习题 57
第 3章 K近邻模型 59 3.1邻友思想 . 59 3.2 K近邻算法. 60 3.2.1聚合思想 60 3.2.2 K近邻模型的具体算法 61 3.2.3 K近邻算法的三要素 . 63 3.2.4 K近邻算法的可视化 . 67 3.3*近邻分类器的误差率 . 67 3.4 k维树. 70 3.4.1 k维树的构建 70 3.4.2 k维树的搜索 73 3.5拓展部分:距离度量学习的 K近邻分类器 76 3.6案例分析——莺尾花数据集 79 3.7本章小结 . 83 3.8习题 83
第 4章贝叶斯推断 .85 4.1贝叶斯思想 85 4.1.1什么是概率 . 86 4.1.2从概率到条件概率 . 91 4.1.3贝叶斯定理 . 93 4.2贝叶斯分类器 97 4.2.1贝叶斯分类 . 97 4.2.2朴素贝叶斯分类 98 4.3如何训练贝叶斯分类器 103 4.3.1极大似然估计:概率*大化思想 104 4.3.2贝叶斯估计:贝叶斯思想 111 4.4常用的朴素贝叶斯分类器.115 4.4.1离散属性变量下的朴素贝叶斯分类器 .115 4.4.2连续特征变量下的朴素贝叶斯分类器 .115 4.5拓展部分 116 4.5.1半朴素贝叶斯.116
目录
4.5.2贝叶斯网络 119 4.6案例分析——蘑菇数据集 .122 4.7本章小结 124 4.8习题.124 4.9阅读时间:贝叶斯思想的起源 125 第 5章逻辑回归模型 131 5.1一切始于逻辑函数.131 5.1.1逻辑函数 .131 5.1.2逻辑斯谛分布.133 5.1.3逻辑回归 .134 5.2逻辑回归模型的学习 .136 5.2.1加权*小二乘法 .136 5.2.2极大似然法 139 5.3逻辑回归模型的学习算法.141 5.3.1梯度下降法 141 5.3.2牛顿法.143 5.4拓展部分 144 5.4.1拓展 1:多分类逻辑回归模型 144 5.4.2拓展 2:非线性逻辑回归模型 147 5.5案例分析——离职数据集 .147 5.6本章小结 149 5.7习题.150 5.8阅读时间:牛顿法是牛顿提出的吗 .150 第 6章*大熵模型 . 153 6.1问世间熵为何物 153 6.1.1热力学熵 .153 6.1.2信息熵.155 6.2*大熵思想.156 6.2.1离散随机变量的分布.156 6.2.2连续随机变量的分布.160 6.3*大熵模型的学习问题 163 6.3.1*大熵模型的定义 163 6.3.2*大熵模型的原始问题与对偶问题.167 6.3.3*大熵模型的学习 169 6.4模型学习的*优化算法 173 6.4.1*速梯度下降法 .177 6.4.2拟牛顿法:DFP算法和 BFGS算法 178 6.4.3改进的迭代尺度法 179 6.5案例分析——汤圆小例子 .183 6.6本章小结 185 6.7习题.186
机器学习中的统计思维 (Python实现)
6.8阅读时间:奇妙的对数 187
第 7章决策树模型 . 191 7.1决策树中蕴含的基本思想.191 7.1.1什么是决策树.191 7.1.2决策树的基本思想 195 7.2决策树的特征选择.195 7.2.1错分类误差 195 7.2.2基于熵的信息增益和信息增益比 196 7.2.3基尼不纯度 199 7.2.4比较错分类误差、信息熵和基尼不纯度 201 7.3决策树的生成算法.201 7.3.1 ID3算法202 7.3.2 C4.5算法 205 7.3.3 CART算法205 7.4决策树的剪枝过程.211 7.4.1预剪枝.211 7.4.2后剪枝.213 7.5拓展部分:随机森林 .223 7.6案例分析——帕尔默企鹅数据集 .223 7.7本章小结 226 7.8习题.226 7.9阅读时间:经济学中的基尼指数.227
第 8章感知机模型 . 231 8.1感知机制——从逻辑回归到感知机 .231 8.2感知机的学习 .233 8.3感知机的优化算法.234 8.3.1原始形式算法.235 8.3.2对偶形式算法.239 8.4案例分析——莺尾花数据集 .241 8.5本章小结 243 8.6习题.243
第 9章支持向量机 . 245 9.1从感知机到支持向量机 245 9.2线性可分支持向量机 .248 9.2.1线性可分支持向量机与*大间隔算法 .248 9.2.2对偶问题与硬间隔算法 .254 9.3线性支持向量机 258 9.3.1线性支持向量机的学习问题.259 9.3.2对偶问题与软间隔算法 .260 9.3.3线性支持向量机之合页损失.263 9.4非线性支持向量机.265
目录
9.4.1核变换的根本——核函数 266 9.4.2非线性可分支持向量机 .277 9.4.3非线性支持向量机 278 9.5 SMO优化方法 .279 9.5.1“失败的”坐标下降法 .279 9.5.2“成功的”SMO算法.280 9.6案例分析——电离层数据集 .287 9.7本章小结 288 9.8习题.289 第 10章 EM算法 291 10.1极大似然法与 EM算法 .291 10.1.1具有缺失数据的豆花小例子291 10.1.2具有隐变量的硬币盲盒例子295 10.2 EM算法的迭代过程298 10.2.1 EM算法中的两部曲 298 10.2.2 EM算法的合理性 .302 10.3 EM算法的应用 305 10.3.1高斯混合模型305 10.3.2隐马尔可夫模型 309 10.4本章小结 316 10.5习题 .317 第 11章提升方法. 319 11.1提升方法(Boosting)是一种集成学习方法.319 11.1.1什么是集成学习 319 11.1.2强可学习与弱可学习321 11.2起步于 AdaBoost算法 323 11.2.1两大内核:前向回归和可加模型 .323 11.2.2 AdaBoost的前向分步算法.324 11.2.3 AdaBoost分类算法 .326 11.2.4 AdaBoost分类算法的训练误差 333 11.3提升树和 GBDT算法 .339 11.3.1回归提升树 .339 11.3.2 GDBT算法 342 11.4拓展部分:XGBoost算法344 11.5案例分析——波士顿房价数据集 .346 11.6本章小结 347 11.7习题 .348 参考文献 . 349
作者简介
董平(博士),上海对外经贸大学统计与信息学院讲师。曾获概率论与数理统计理学博士学位(山东大学2018)、 理学学士学位和经济学学士学位(山东大学2012);美国迈阿密大学访问学者。主要研究领域为高维数据、假设检验、半监督回归、统计机器学习等。参与多项科研项目和工程类项目,主持多项校级课程建设项目,曾获第三届上海市高校教师教学创新大赛二等奖。
-
乡村振兴新技术:新时代农村短视频编辑技术基础入门
¥12.8¥32.0 -
AI绘画+AI摄影+AI短视频从入门到精通
¥45.5¥79.8 -
企业AI之旅
¥43.5¥79.0 -
机器学习
¥59.4¥108.0 -
基于知识蒸馏的图像去雾技术
¥61.6¥88.0 -
软件设计的哲学(第2版)
¥51.0¥69.8 -
智能算法优化及其应用
¥52.4¥68.0 -
Photoshop图像处理
¥25.5¥49.0 -
R语言医学数据分析实践
¥72.3¥99.0 -
大模型推荐系统:算法原理、代码实战与案例分析
¥62.3¥89.0 -
剪映 从入门到精通
¥25.7¥59.8 -
游戏造梦师----游戏场景开发与设计
¥67.6¥98.0 -
SAR图像处理与检测
¥35.4¥49.8 -
人工智能
¥29.4¥42.0 -
中文版PHOTOSHOP 2024+AI修图入门教程
¥59.3¥79.0 -
WPS办公软件应用
¥25.2¥36.0 -
格拉斯曼流行学习及其在图像集分类中的应用
¥13.7¥28.0 -
轻松上手AIGC:如何更好地向CHATGPT提问
¥40.3¥62.0 -
元宇宙的理想与现实:数字科技大成的赋能与治理逻辑
¥61.6¥88.0 -
云原生安全:攻防与运营实战
¥66.8¥89.0