- ISBN:9787302669098
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:32开
- 页数:324
- 出版时间:2024-09-01
- 条形码:9787302669098 ; 978-7-302-66909-8
本书特色
通过“特征工程”技术,可优化训练数据,提升机器学习流程的输出效果!“特征工程”基于现有数据设计相关的输入变量,由此简化训练过程,增强模型性能。调整超参数或模型的效果都不如特征工程;特征工程通过改变数据流程,大幅提升了性能。
内容简介
通过“特征工程”技术,可优化训练数据,提升机器学习流程的输出效果!“特征工程”基于现有数据设计相关的输入变量,由此简化训练过程,增强模型性能。调整超参数或模型的效果都不如特征工程;特征工程通过改变数据流程,大幅提升了性能。
《特征工程训练营》将列举6个实践项目,引导你利用特征工程优化训练数据。每章探讨一个代码驱动的新案例,涉及金融、医疗等行业。你将学会清洗和转换数据,减轻偏见。本书呈现各种性能提升技巧,涵盖从自然语言处理到时间序列分析等所有主要机器学习子领域。
主要内容
·识别和实现特征转换
·用非结构化数据构建ML(机器学习)流程
·量化并尽量避免ML流程中的偏见
·使用特征存储构建实时ML流程
·通过操纵输入数据来增强现有ML流程
读者对象
本书面向熟悉Python且经验丰富的ML工程师。
目录
1.1 特征工程是什么,为什么它如此重要 2
1.1.1 谁需要特征工程 4
1.1.2 特征工程的局限性 4
1.1.3 出色的数据,出色的模型 5
1.2 特征工程流程 6
1.3 本书的编排方式 10
1.3.1 特征工程的五种类型 11
1.3.2 本书案例研究的概述 12
1.4 本章小结 14
第2 章 特征工程基础知识 17
2.1 数据类型 18
2.1.1 结构化数据 18
2.1.2 非结构化数据 18
2.2 数据的四个层次 20
2.2.1 定性数据与定量数据 20
2.2.2 名义层次 21
2.2.3 序数层次 23
2.2.4 区间层次 24
2.2.5 比率层次 26
2.3 特征工程的类型 31
2.3.1 特征改进 31
2.3.2 特征构建 32
2.3.3 特征选择 34
2.3.4 特征提取 35
2.3.5 特征学习 36
2.4 如何评估特征工程的成果 38
2.4.1 评估指标1:机器学习度量标准 38
2.4.2 评估指标2:可解释性 39
2.4.3 评估指标3:公平性和偏见 39
2.4.4 评估指标4:机器学习复杂性和
速度 40
2.5 本章小结 41
第3 章 医疗服务:COVID-19的诊断 43
3.1 COVID 流感诊断数据集 45
3.2 探索性数据分析 49
3.3 特征改进 52
3.3.1 补充缺失的定量数据 52
3.3.2 填充缺失的定性数据 58
3.4 特征构建 61
3.4.1 数值特征的转换 61
3.4.2 构建分类数据 68
3.5 构建特征工程流程 75
3.6 特征选择 84
3.6.1 互信息 84
3.6.2 假设检验 85
3.6.3 使用机器学习 87
3.7 练习与答案 90
3.8 本章小结 90
第4 章 偏见与公平性:再犯率建模 93
4.1 COMPAS 数据集 93
4.2 探索性数据分析 97
4.3 测量偏见和公平性 101
4.3.1 不同对待与不同影响 102
4.3.2 公平的定义 102
4.4 构建基准模型 105
4.4.1 特征构建 105
4.4.2 构建基准流程 106
4.4.3 测量基准模型的偏见 108
4.5 偏见缓解 115
4.5.1 模型训练前 116
4.5.2 模型训练中 116
4.5.3 模型训练后 116
4.6 构建偏见感知模型 117
4.6.1 特征构建:使用Yeo-Johnson 转换器处理不同的影响 117
4.6.2 特征提取:使用aif360 学习公平表示实现 123
4.7 练习与答案 129
4.8 本章小结 130
第5 章 自然语言处理:社交媒体情感分类 131
5.1 推文情感数据集 134
5.2 文本向量化 138
5.2.1 特征构建:词袋模型 138
5.2.2 计数向量化 139
5.2.3 TF-IDF向量化 146
5.3 特征改进 149
5.3.1 清理文本中的噪声 150
5.3.2 对token 进行标准化 152
5.4 特征提取 155
5.5 特征学习 158
5.5.1 自动编码器简介 159
5.5.2 训练自动编码器以学习特征 160
5.5.3 迁移学习简介·· 165
5.5.4 使用BERT 的迁移学习 166
5.5.5 使用BERT 的预训练特征 169
5.6 文本向量化回顾 172
5.7 练习与答案 173
5.8 本章小结 174
第6 章 计算机视觉:对象识别 175
6.1 CIFAR-10 数据集 176
6.2 特征构建:像素作为特征 178
6.3 特征提取:梯度方向直方图 181
6.4 使用VGG-11 进行特征学习 190
6.4.1 使用预训练的VGG-11 作为特征提取器 191
6.4.2 微调VGG-11 196
6.4.3 使用经过微调的VGG-11 特征进行逻辑回归 201
6.5 图像矢量化总结 203
6.6 练习与答案 204
6.7 本章小结 205
第7 章 时间序列分析:利用机器学习进行短线交易 207
7.1 TWLO 数据集 208
7.2 特征构建 213
7.2.1 日期/时间特征 213
7.2.2 滞后特征 215
7.2.3 滚动/扩展窗口特征 216
7.2.4 领域特定特征 229
7.3 特征选择 238
7.3.1 使用机器学习选择特征 238
7.3.2 递归特征消除 240
7.4 特征提取 242
7.5 结论 248
7.6 练习与答案 249
7.7 本章小结 251
第8 章 特征存储 253
8.1 MLOps 和特征存储 254
8.1.1 使用特征存储的收益 255
8.1.2 维基百科、MLOps和特征存储 260
8.2 使用Hopsworks 设置特征存储 262
8.2.1 使用HSFS API 连接到Hopsworks 263
8.2.2 特征组 265
8.2.3 使用特征组来选择数据 273
8.3 在Hopsworks 中创建训练数据 275
8.3.1 训练数据集 276
8.3.2 数据溯源 280
8.4 练习与答案 281
8.5 本章小结 281
第9 章 汇总 283
9.1 重新审视特征工程流程 283
9.2 主要收获 284
9.2.1 特征工程与机器学习模型的选择同样至关重要 285
9.2.2 特征工程并非一劳永逸的解决方案 286
9.3 特征工程回顾 286
9.3.1 特征改进 286
9.3.2 特征构建 286
9.3.3 特征选择 287
9.3.4 特征提取 287
9.3.5 特征学习 289
9.4 数据类型特定的特征工程技术 290
9.4.1 结构化数据 290
9.4.2 非结构化数据 293
9.5 常见问题解答 295
9.5.1 何时应将分类变量进行虚拟化,而不是将它们保留为单独的列 295
9.5.2 如何确定是否需要处理数据中的偏见 297
9.6 其他特征工程技术 298
9.6.1 分类虚拟桶化 298
9.6.2 将学到的特征与传统特征结合 300
9.6.3 其他原始数据向量化器 305
9.7 扩展阅读 306
9.8 本章小结 307
作者简介
Sinan Ozdemir是Shiba公司的创始人兼首席技术官,他曾在约翰·霍普金斯大学担任数据科学讲师,迄今已出版了多本关于数据科学和机器学习的教材。
-
铁道之旅:19世纪空间与时间的工业化
¥42.3¥59.0 -
桥梁史话
¥15.9¥37.0 -
金属材料及热处理
¥46.8¥72.0 -
中国建筑史
¥36.8¥75.0 -
测井井控技术手册(第二版)
¥68.0¥80.0 -
装配化工字组合梁设计
¥88.0¥160.0 -
高速线材轧机装备技术
¥33.3¥98.0 -
冶金建设工程
¥19.3¥35.0 -
城市桥梁工程施工与质量验收手册-(含光盘)
¥38.2¥78.0 -
棒料高速剪切机
¥11.4¥20.0 -
炼钢厂设计原理
¥16.0¥29.0 -
冶金企业废弃生产设备设施处理与利用
¥12.2¥36.0 -
毛皮加工及质量鉴定
¥1.7¥6.0 -
轧钢机械知识问答
¥21.0¥30.0 -
宣纸制造
¥6.0¥20.0 -
转炉炼钢实训
¥10.2¥30.0 -
实用高炉炼铁技术
¥16.0¥29.0 -
轧钢机械
¥27.0¥49.0 -
电气控制与PLC 第2版
¥51.8¥69.0 -
机器人驱动及控制
¥44.9¥59.8