×
揭秘大模型:从原理到实战

包邮揭秘大模型:从原理到实战

1星价 ¥58.5 (7.3折)
2星价¥58.5 定价¥79.8
暂无评论
图文详情
  • ISBN:9787115653352
  • 装帧:平装-胶订
  • 册数:暂无
  • 重量:暂无
  • 开本:16开
  • 页数:256
  • 出版时间:2025-01-01
  • 条形码:9787115653352 ; 978-7-115-65335-2

本书特色

·涵盖AIGC、大模型、扩散模型等热点话题;

·以技术视角透彻解读大模型底层技术;

·系统介绍GPT、LLaMa、GLM等主流大模型的技术原理;

·给出GPT的基本代码实现,帮助读者深入理解技术原理;

·介绍如何构建私有大模型,带领读者动手构建私有大模型。

内容简介

本书从技术角度深度解析大模型的原理,从大模型的基础概念及领域发展现状入手,概述大模型的理论基础,介绍OpenAI GPT、清华大学GLM、Meta Llama等主流大模型的技术原理,并从大模型参数高效微调、大模型指令微调、大模型训练优化和大模型推理优化等多角度解析大模型背后的技术,带领读者全方位掌握大模型的原理和实践方法。本书*后介绍私有大模型的构建,手把手指导读者做技术选型并搭建自己的私有大模型。 本书适合人工智能领域有大模型开发需求或对大模型技术感兴趣的技术人员阅读,也适合普通用户扩展了解大模型的前沿应用。

目录

第 1章 大模型简介 1 11 大模型初探 1 111 OpenAI大模型ChatGPT 1 112 国内大模型—360智脑 8 12 大模型的概念 9 13 百花齐放—大模型发展现状 9 14 压缩即智能—为什么ChatGPT拥有智能 11 第 1章 大模型简介 1 11 大模型初探 1 111 OpenAI大模型ChatGPT 1 112 国内大模型—360智脑 8 12 大模型的概念 9 13 百花齐放—大模型发展现状 9 14 压缩即智能—为什么ChatGPT拥有智能 11 141 直观理解通用人工智能 12 142 如何实现无损压缩 13 143 GPT是对数据的无损压缩 16 15 小结 19 16 参考文献 19 第 2章 大模型理论基础 20 21 什么是语言模型 20 22 传统语言模型 21 221 循环神经网络(RNN) 21 222 长短期记忆(LSTM)网络 22 223 门控循环单元(GRU) 24 23 大模型基础结构—Transformer 25 231 Transformer的模型结构 25 232 Transformer输入表示 29 233 多头注意力 30 234 编码器结构 36 235 解码器结构 40 236 Softmax输出 44 24 Transformer应用实践—机器 翻译 46 241 葡萄牙文翻译为英文 46 242 英文翻译为中文 51 25 小结 52 26 参考文献 53 第3章 OpenAI GPT系列大模型 54 31 GPT发展历史— 从GPT-1到GPT-4 54 32 GPT-1技术原理 55 321 GPT-1的模型结构 56 322 GPT-1应用实践—中文文本 分类 58 33 GPT-2技术原理 63 331 GPT-2的模型结构 64 332 GPT-2应用实践—文本分类和 文本生成 66 34 GPT-3技术原理 69 341 GPT-3的模型结构 70 342 GPT-3多项任务评估 71 35 横空出世—ChatGPT 74 351 真正的通用人工智能— ChatGPT 74 352 有监督微调 75 353 训练奖励模型 77 354 使用强化学习微调预训练 模型 78 355 ChatGPT应用 79 36 GPT-4 80 361 GPT-4的涌现能力 80 362 大模型预测扩展 81 363 GPT-4性能分析 82 364 GPT-4应用 84 37 小结 84 38 参考文献 84 第4章 清华大学通用预训练 模型—GLM 86 41 GLM简介 87 42 GLM技术原理 89 421 预训练目标 91 422 GLM的模型结构 92 423 微调GLM 93 424 效果评估 94 43 ChatGLM-6B全参数微调实践 94 431 环境搭建 95 432 全参数微调 96 433 效果评估 101 44 GLM-10B全参数微调实践 101 441 代码结构 102 442 全参数微调 103 443 效果评估 108 45 小结 109 46 参考文献 109 第5章 Meta开源大模型 —Llama 110 51 Llama简介 110 52 Llama技术原理 111 521 Llama预训练数据 111 522 Llama的模型结构 113 523 Llama优化器 114 53 Llama改进版—Llama 2 114 531 Llama 2简介 115 532 Llama 2预训练 116 533 Llama 2有监督微调 118 534 基于人类反馈的强化学习 119 54 Llama 2应用实践 121 541 Hugging Face玩转Llama 2 122 542 微调Llama 2 122 55 小结 124 56 参考文献 124 第6章 大模型参数高效 微调 125 61 LoRA—低秩矩阵分解 125 611 LoRA基本原理 125 612 LoRA低秩矩阵初始化 127 613 LoRA开源实现 127 62 谷歌参数高效微调— Adapter Tuning 128 63 斯坦福轻量级微调— Prefix-Tuning 129 64 谷歌微调方法— Prompt Tuning 130 65 清华大学参数微调— P-Tuning 131 66 P-Tuning改进版— P-Tuning v2 132 67 大模型参数高效微调实践 134 671 安装ChatGLM2-6B环境依赖 134 672 安装P-Tuning v2环境依赖 135 68 小结 136 69 参考文献 137 第7章 大模型指令微调 138 71 指令微调 138 72 指令微调和提示的异同 139 73 大模型思维链—优化模型 推理能力 139 731 思维链的开山之作— 思维链提示 140 732 零样本提示思维链 142 733 多数投票—自洽性 144 734 *少到*多提示过程 144 735 大模型微调 146 736 微调思维链 148 737 思维链的局限 149 74 谷歌指令微调数据集—Flan 2022 150 75 小结 152 76 参考文献 152 第8章 大模型训练优化 153 81 稀疏Transformer 153 811 稀疏Transformer提出背景 154 812 稀疏Transformer实现原理 155 82 旋转位置编码 159 821 传统位置编码—绝对位置 编码 160 822 二维旋转位置编码 160 823 多维旋转位置编码 161 824 旋转位置编码的高效计算 161 825 旋转位置编码的远程衰减 162 826 Llama和ChatGLM中的旋转位置编码实现 164 827 旋转位置编码的外推性 167 83 大模型混合精度训练 168 831 浮点数据类型 168 832 使用FP16训练神经网络的 问题 169 833 混合精度训练相关技术 170 84 样本拼接 173 85 大模型并行训练 175 86 小结 175 87 参考文献 176 第9章 大模型推理优化 177 91 大模型量化 177 911 量化的优势 178 912 对称量化和非对称量化 178 92 大模型文本生成的解码策略 180 921 束搜索 182 922 top-k采样 183 923 top-p采样 184 924 温度采样 186 925 联合采样 187 93 小结 188 第 10章 AIGC和大模型 结合 189 101 AIGC引来新一轮投资热 189 102 生成对抗网络 191 1021 生成对抗网络的模型结构 191 1022 生成对抗网络的训练过程 193 1023 生成对抗网络实战—生成 手写体数字图像 194 103 AIGC主流模型—去噪扩散 概率模型 198 1031 去噪扩散概率模型的原理 198 1032 去噪扩散概率模型的训练 过程 200 1033 去噪扩散概率模型实战—生成 手写体数字图像 201 104 引入文字的去噪扩散概率模型 214 1041 去噪扩散概率模型的文字生成 图像过程 215 1042 利用CLIP模型生成文本 向量 216 1043 在U-Net模型中使用文本 向量 217 1044 引入文字的去噪扩散概率模型的 训练过程 218 105 去噪扩散概率模型改进版— Stable Diffusion 220 1051 Stable Diffusion的文字生成图像过程 221 1052 Stable Diffusion前向扩散过程优化 221 1053 Stable Diffusion反向去噪过程优化 222 1054 Stable Diffusion的完整流程 224 1055 Stable Diffusion应用场景 224 106 小结 226 107 参考文献 226 第 11章 大模型和推荐系统结合 228 111 大模型和推荐系统的异同 228 112 大模型和推荐系统的3种不同结合方法 229 1121 基于大模型构建特征 229 1122 基于大模型建模行为序列 230 1123 基于行为序列微调大模型 231 113 大模型和推荐系统的结合效果 232 1131 两阶段模式 232 1132 端到端模式 233 1133 预训练 两阶段/端到端模式 233 1134 预训练 两阶段/端到端 ID特征模式 234 114 小结 235 115 参考文献 235 第 12章 构建私有大模型 236 121 大模型百花齐放 236 122 选择基座模型 238 123 环境安装 238 124 模型加载 239 1241 代码调用 239 1242 网页版示例 240 1243 命令行示例 241 125 低成本部署 242 1251 模型量化 242 1252 CPU部署 242 1253 Mac部署 242 1254 多卡部署 242 126 构建自己的私有大模型 243 1261 数据准备 244 1262 有监督微调 244 1263 部署私有大模型 248 1264 灾难性遗忘问题 249 1265 程序思维提示—解决复杂数值推理 252 127 小结 258 128 参考文献 258
展开全部

作者简介

文亮 硕士毕业于电子科技大学,奇虎360智脑团队资深算法专家,参与过千亿参数级别大模型的训练与优化,拥有超过8年的人工智能模型优化经验,目前主要负责大模型后训练、COT优化以及通用技能优化等工作,著有《推荐系统技术原理与实践》一书。 江维 电子科技大学教授、博士生导师,主要研究可信人工智能、安全关键嵌入式系统、移动智能、大数据加速等领域,发表相关高水平论文100余篇。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航