包邮大语言模型原理、训练及应用基于GPT

1星价 ¥69.3 (7.0折)

2星价￥69.3 定价￥99.0

作者：魏新宇,白雪冰,周博洋编

出版社：机械工业出版社

本类榜单：计算机/网络

分类：计算机/网络 > 计算机理论

暂无评论

图文详情

ISBN：9787111762355
装帧：一般胶版纸
册数：暂无
重量：暂无
开本：16开
页数：280
出版时间：2024-09-01
条形码：9787111762355 ; 978-7-111-76235-5

本书特色

微软中国区总裁原欣红帽全球副总裁兼大中华区总裁曹衡康微软中国区首席技术官韦青NVIDIA电信行业总监贾楠联袂推荐系统总结LLM/SLM和Copilot端到端的开发经验，全面归纳GPU训练推理实战方法，面向AI架构师及开发者的实用技术指南

内容简介

本书是一本系统介绍大语言模型原理、训练及应用的书，共7章，主要内容包括：认识大语言模型、大语言模型训练、GPU池化——构建大语言模型算力基础、GPT的优化与编排、GPT应用开发实践、Copilot应用开发实践、语言模型小型化及在边缘端的部署。本书详尽阐述了大语言模型的起源、定义及其与传统深度学习方法间的关键差异，深入探讨了主流训练框架如何为大语言模型提供动力，并介绍了优化策略以及高效建立算力基础设施所要考虑的因素。内容涵盖从基础概念介绍到复杂系统编排，再到具体行业应用与开发等多个层面。

本书适合从事大语言模型开发及应用的读者参考，无论初学者还是经验丰富的实践者，都能从本书中学到实用的知识和技能。

目录推荐序前言第1章认识大语言模型 1.1大语言模型概述 1.1.1AI技术的发展 1.1.2生成式AI、NLP、GPT的关系 1.1.3大语言模型的发展 1.2大语言模型的训练 1.2.1预训练 1.2.2微调 1.2.3人类反馈强化学习 1.3大语言模型的核心应用场景 1.3.1内容创作 1.3.2摘要生成 1.3.3语义检索 1.3.4代码生成 1.4大语言模型的多模态场景 1.4.1文生图 1.4.2图片与视频理解 1.4.3语音转文字 1.4.4大语言模型与数字人/虚拟人的集成 1.4.5视频生成 1.5大语言模型的现状和未来 1.6本章小结第2章大语言模型训练 2.1Transformer网络架构 2.1.1传统Transformer架构 2.1.2Casual-decoder架构 2.1.3Transformer Embedding和位置编码 2.1.4Attention层和Attention机制 2.1.5FFN/MLP网络 2.2模型参数量与计算量评估 2.2.1算力资源计算方法 2.2.2显存资源计算方法 2.3分布式训练介绍 2.3.1通信原语 2.3.2数据并行 2.3.3模型并行 2.3.4DeepSpeed Zero优化 2.4如何训练大语言模型 2.4.1预训练 2.4.2微调 2.4.3RLHF/RLAIF 2.5Casual-decoder 大语言模型训练案例 2.5.1预训练 2.5.2DPO 2.6本章小结第3章GPU池化——构建大语言模型算力基础 3.1GPU池化建设目标 3.2GPU与网卡的选择 3.2.1GPU的选择 3.2.2RDMA网络 3.3基础架构环境的验证 3.3.1Perftest测试网卡 3.3.2NCCL测试性能 3.4分布式训练与推理 3.4.1训练环境选择 3.4.2Azure GPU VM的创建 3.4.3训练框架的选择 3.4.4在Azure GPU VM中安装驱动 3.4.5使用NeMo训练文本分类模型 3.4.6使用DeepSpeed-Chat训练OPT 3.4.7使用DeepSpeed-Training训练Stable Diffusion 3.4.8深度学习推理环境搭建 3.5本章小结第4章GPT的优化与编排 4.1GPT的优化 4.1.1提示工程 4.1.2GPT微调 4.1.3

展开全部

作者简介

魏新宇，微软全球黑带AI技术专家。曾任英伟达资深解决方案架构师、红帽首席解决方案架构师( RHCA Level5)。畅销书作者，著有《OpenShift 在企业中的实战: PaaS DevOps微服务》《云原生应用构建:基于OpenShift》《金融级IT架构与运维》等书。白雪冰，微软(中国)有限公司高级架构师。曾任IBM中国软件开发中心(CSDL)架构师。目前主要从事基于语音识别、计算机视觉、自然语言处理、智能搜索以及OpenAI和其他大语言模型等技术,构建.企业级解决方案的工作。周博洋，微软(中国)有限公司高级架构师。曾任Juniper、Cisco系统架构师;主要研究生成式AI算法及训练和推理方法的优化。负责Azure OpenAI业务的推广，同时负责Azure Machine Learning和GPU业务在国内的解决方案整合工作，拥有扎实的全栈技术能力，对Al Infrastructure和AI算法优化有独到的见解。

本类五星书