构建机器学习应用

1星价 ¥54.6 (6.2折)

2星价￥54.6 定价￥88.0

作者：[美]伊曼纽尔·阿米森（Emmanuel

出版社：中国电力出版社

本类榜单：计算机/网络

分类：计算机/网络 > 计算机理论

暂无评论

图文详情

ISBN：9787519876357
装帧：一般胶版纸
册数：暂无
重量：暂无
开本：16开
页数：276
出版时间：2023-04-01
条形码：9787519876357 ; 978-7-5198-7635-7

本书特色

本书介绍了设计、开发和部署机器学习应用的**技能。你可从本书学到设计、开发和部署机器学习应用的**技能。本书将带你从产品构思起步，不断迭代，*终完成一款机器学习应用。无论你是数据科学家、软件工程师，还是产品经理，无论你资历深浅，你都可以从本书学到真实机器学习应用开发各步骤所需工具和*佳实践，掌握常见问题的解决方法。本书作者是一位经验丰富的数据科学家，负责过人工智能教育项目。他在本书用代码块、插图、软件截屏和业界高手的访谈记录，生动诠释了机器学习概念，非常实用。本书**部分教你规划机器学习应用并为其制定成功标准。第二部分介绍机器学习基础模型的开发方法，让模型跑起来。第三部分介绍模型改进方法，实现*初产品构思。第四部分则介绍模型部署和监控策略。 “机器学习*难的内容是：提炼问题、调试模型和将模型部署给用户使用。很多书都选择跳过，而本书则重点讲解它们。掌握本书内容，你就可以尝试将自己项目从*初创意变为一款有影响力的产品。”——Alexander GudeIntuit公司数据科学家本书的独特之处在于，从开发者的实践角度，通过具体的例子、较少的理论和两个产品级的Python框架——-Scikit-learn 和 Tensorflow，使你在动手写代码的过程中，就可以循序渐进地了解机器学习的理论知识和工具的实践技巧，快速上手机器学习项目。

内容简介

本书的主要内容有：定义产品目标，将其转化为机器学习问题。快速搭建**条端到端流水线，创建初始数据集。训练和评估机器学习模型，解决性能瓶颈。将模型部署到生产环境，持续监控使用情况。

目录前言 .1 **部分让机器学习要找对方法第1 章从产品目标到机器学习框架 15 1.1 评估什么可行 16 1.1.1 模型 18 1.1.2 数据 26 1.2 探索机器学习编辑器开发方案 . 29 1.2.1 尝试全用机器学习完成：端到端框架 . 29 1.2.2 *简方法：成为算法 31 1.2.3 中间地带：从自己经验学习 . 32 1.3 Monica Rogati：如何选择机器学习项目并安排其优先级 34 1.4 小结 37 第2 章制定方案 38 2.1 度量成功 38 2.1.1 业务指标. 40 2.1.2 模型性能. 40 2.1.3 新鲜度和分布偏移 . 44 2.1.4 速度 46 2.2 评估范围和挑战 47 2.2.1 利用领域知识 47 2.2.2 站在巨人肩上 49 2.3 机器学习编辑器方案 . 53 2.3.1 编辑器初步方案 . 53 2.3.2 永远从简单模型入手 54 2.4 不断进步：从简单方法入手 55 2.4.1 从简易流水线入手 . 55 2.4.2 机器学习编辑器流水线 57 2.5 小结 59 第二部分建成可用流水线第3 章搭建你的首条端到端流水线 63 3.1 *简框架 63 3.2 机器学习编辑器原型 . 65 3.2.1 解析和清洗数据 . 65 3.2.2 文本分词. 67 3.2.3 生成特征. 67 3.3 测试工作流 . 69 3.3.1 用户体验. 70 3.3.2 建模结果. 70 3.4 机器学习编辑器原型评估 72 3.4.1 模型 73 3.4.2 用户体验. 74 3.5 小结 75 第4 章获取初始数据集 76 4.1 数据集迭代 . 76 4.2 探索你的首个数据集 . 78 4.2.1 高效始于简单 78 4.2.2 洞察力和产品的关系 79 4.2.3 数据质量规则 80 4.3 标注数据，寻找趋势 . 87 4.3.1 总结性统计信息 . 87 4.3.2 高效探索和标注 . 90 4.3.3 成为算法 106 4.3.4 数据趋势 108 4.4 用数据指导特征和模型 . 109 4.4.1 创建特征，捕获模式 . 109 4.4.2 机器学习编辑器特征 . 113 4.5 Robert Munro：你如何寻找、标注和使用数据？ 114 4.6 小结 . 116 第三部分模型迭代第5 章训练和评估模型 . 119 5.1 *简合适模型 . 119 5.1.1 简易模型 120 5.1.2 从模式到模型 122 5.1.3 切分数据集 . 124 5.1.4 机器学习编辑器数据切分 130 5.1.5 判断模型表现 132 5.2 评估模型：超越准确率 . 135 5.2.1 对比数据和预测结果 . 135 5.2.2 混淆矩阵 136 5.2.3 ROC 曲线 137 5.2.4 校准曲线 139 5.2.5 用降维技术分析出错样例 141 5.2.6 Top-K 方法 . 142 5.2.7 其他模型 147 5.3 评估特征重要性 148 5.3.1 直接来自分类器 148 5.3.2 黑盒解释器 . 149 5.4 小结 . 152 第6 章调试机器学习模型 . 153 6.1 软件*佳实践 . 153 6.2 调试连接：可视化和测试 . 156 6.2.1 从一个样例开始 156 6.2.2 测机器学习代码 164 6.3 调试模型训练过程：让模型学习 . 169 6.3.1 任务难度 170 6.3.2 *优化问题 . 172 6.4 调试泛化能力：让模型有用 174 6.4.1 数据泄露 175 6.4.2 过拟合 175 6.4.3 思考手头任务 179 6.5 小结 . 180 第7 章用分类器生成写作建议 181 7.1 从模型抽取建议 182 7.1.1 我们不用模型能实现什么？ 182 7.1.2 抽取全局特征重要性 . 184 7.1.3 利用模型打的分值 185 7.1.4 抽取局部特征重要性 . 186 7.2 模型对比 188 7.2.1 模型v 1：建议就像统计报告 189 7.2.2 模型v 2：模型更强大但建议更模糊. 189 7.2.3 模型v3：建议可理解 191 7.3 生成编辑建议 . 192 7.4 小结 . 197 第四部分部署和监控第8 章部署模型的注意事项 . 201 8.1 数据使用注意事项 202 8.1.1 数据所有权 . 202 8.1.2 数据偏差 203 8.1.3 系统偏差 205 8.2 建模注意事项 . 205 8.2.1 反馈循环 206 8.2.2 模型更包容 . 207 8.2.3 思考预测背景 208 8.2.4 机器学习模型的对手 . 209 8.2.5 思考模型滥用和挪用风险 210 8.3 Chris Harland：交付实验 . 211 8.4 小结 . 214 第9 章选择部署方案 215 9.1 服务端部署 215 9.1.1 流式应用或API 216 9.1.2 批量预测 219 9.2 客户端部署 221 9.2.1 部署到设备 . 222 9.2.2 用浏览器端交付 224 9.3 联邦学习：一种混合方法 . 225 9.4 小结 . 226 第10 章搭建模型防护罩 228 10.1 故障应对举措 228 10.1.1 检查输入和输出 229 10.1.2 模型后盾 234 10.2 模型性能提高举措 . 238 10.2.1 扩展模型，服务多用户 . 238 10.2.2 模型和数据生命周期管理. 241 10.2.3 数据处理和有向无环图 . 244 10.3 寻求用户反馈 245 10.4 Chris Moody：赋予数据科学家部署模型的力量 248 10.5 小结 250 第11 章监控和更新模型 251 11.1 监控可拯救系统 251 11.1.1 监控告知刷新率 . 252 11.1.2 监控模型，检测滥用行为 . 253 11.2 选择监控内容 254 11.2.1 性能指标 254 11.2.2 业务指标 256 11.3 机器学习系统的持续集成和交付 257 11.3.1 A/B 测试和实验 . 259 11.3.2 其他方法 262 11.4 小结 263

展开全部

作者简介

[美]伊曼纽尔·阿米森(Emmanuel Ameisen)，现任Stripe公司机器学习工程师。他曾为Local Motion和Zipcar公司开发、部署预测分析和机器学习解决方案。他此前还曾负责Insight Data Science公司人工智能团队，指导过150多个机器学习项目。他先后就读于法国三所**学府，分获人工智能、计算机工程和管理三个理学硕士学位。

本类五星书