- ISBN:9787111778301
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:308
- 出版时间:2025-04-01
- 条形码:9787111778301 ; 978-7-111-77830-1
本书特色
《AI处理器硬件架构设计》融合了一线自研高性能处理器资深工程师多年工作经验,从人工智能处理器的架构设计出发,对比各种不同架构的人工智能处理器的优缺点,详细介绍各个组件的架构和微架构设计,循序渐进、由浅入深,图文结合。用户可根据本书的介绍,从0到1完成人工智能处理器的设计、验证工作。
内容简介
本书基于当前工业界主流的设计规格,详细介绍了AI处理器硬件架构及微架构的设计原理,并配有对应的工程经验总结与产品实例分析。本书主要内容包括:业界主流AI处理器架构及基础背景知识(第1章);AI处理器指令集设计与硬件架构总体设计(第2、3章);核心计算单元,即向量处理单元、矩阵处理单元、标量处理单元的微架构设计实现(第4~6章);数据搬运单元与存储系统设计(第7、8章);AI处理器设计实例剖析(第9章)。
本书为读者提供全部案例源代码(下载方式见封底勒口)、高清学习视频,读者可以直接扫描二维码观看。
本书可作为从事AI处理器相关研发工作的专业人员的参考书,也可用作高等院校计算机、集成电路相关专业研究生、高年级本科生的教材和参考书,还可供对AI处理器设计感兴趣的读者自学。
前言
人工智能技术正在深刻改变着我们的学习、工作和生活。从计算机视觉到自然语言处理,从自动驾驶到智能机器人,AI应用的蓬勃发展对计算平台提出了新的挑战。这些挑战主要表现在以下两个方面:1)计算需求的爆炸性增长,深度学习模型规模持续扩大,训练数据量急剧增加,实时推理应用对延迟提出更高要求,边缘计算场景对能效比的要求提升;2)新兴应用带来的特殊需求,包括大规模矩阵运算加速、灵活的数据精度支持、复杂的数据重用模式,以及特定算子的硬件映射优化。
随着人工智能技术的快速发展和广泛应用,传统通用处理器架构在处理AI工作负载时的局限性日益凸显,其瓶颈主要表现在:存储墙问题日益严重、对AI特征计算支持不足、控制逻辑开销过大,以及数据搬运效率低下。为了更好地支持大规模参数和复杂计算结构的机器学习模型的高效执行,专门面向人工智能领域的处理器架构设计成为近几年计算机体系结构领域*活跃的研究方向之一。面对传统处理器在AI领域应用的瓶颈,设计专用的AI处理器架构已是大势所趋。由此,作者团队撰写了本书,对AI处理器硬件架构设计进行了全方位的系统阐述。
目录
推荐语
前言
第1章 AI处理器概述
1.1神经网络基础
1.1.1卷积神经网络简介
1.1.2残差神经网络简介
1.1.3Transformer网络简介
1.2应用场景及其硬件需求介绍
1.2.1图像识别场景简介
1.2.2自动驾驶场景简介
1.2.3自然语言生成场景简介
1.3硬件加速平台介绍
1.3.1GPU简介
1.3.2DSA简介
第2章 AI处理器指令集设计
2.1标量指令集设计
2.2向量指令集设计
2.2.1寄存器设计
2.2.2算术逻辑类指令设计
2.2.3规约类指令设计
2.2.4重排列类指令设计
2.2.5数制转换类指令设计
2.2.6访存类指令设计
2.3矩阵运算指令设计
2.4DMA描述符设计
第3章AI处理器架构设计
3.1AI处理器架构概述
3.1.1VLIW SIMD架构设计
3.1.2超标量 SIMD架构设计
3.1.3SIMT架构设计
3.2向量运算和矩阵运算的融合层级
3.2.1寄存器级融合
3.2.2存储器级融合
3.3向量处理单元架构选型
3.3.1Memory直连型向量处理单元设计
3.3.2基于VRF的向量处理单元设计
3.4标量流水线和向量矩阵流水线的位置关系
3.4.1并行流水线结构设计
3.4.2串行流水线结构设计
3.5AI处理器整体架构设计
第4章 向量处理单元设计
4.1向量处理单元整体架构设计
4.2向量指令发射设计
4.2.1顺序发射设计
4.2.2乱序发射设计
4.3浮点运算单元设计
4.3.1IEEE 754协议介绍
4.3.2浮点加法器设计
4.3.3浮点乘法器设计
4.3.4浮点除法器设计
4.3.5浮点运算的融合
4.4跨通道跨切片处理单元设计
4.4.1规约类指令的硬件实现
4.4.2压缩类指令的硬件实现
4.4.3排序类指令的硬件实现
4.5超越函数类指令的硬件实现
4.5.1CORDIC算法介绍
4.5.2分段线性逼近实现
4.5.3分段查表结合多项式运算实现
第5章 矩阵处理单元设计
5.1矩阵乘法的硬件映射
5.2数据流设计
5.2.1输出固定数据流设计
5.2.2权重固定数据流设计
5.2.3输入固定数据流设计
5.3脉动阵列的结构及计算流程
5.4脉动阵列的优化
5.4.1列间广播设计
5.4.2行间累加融合设计
5.5定点MAC单元设计
5.5.1定点乘法器设计
5.5.2定点MAC单元微架构设计
5.6浮点MAC单元设计
第6章 标量处理单元设计
6.1前端设计
6.1.1指令提取单元设计
6.1.2分支预测单元设计
6.1.3指令译码单元与指令发射单元设计
6.2执行单元设计
6.2.1执行单元流水线设计
6.2.2典型功能单元的微架构实现
6.3访存单元设计
6.3.1数据缓存子系统概述
6.3.2访存单元微架构设计
第7章 数据搬运单元设计
7.1数据搬运单元整体架构设计
7.2多维传输任务的解析
7.2.1多维传输介绍
7.2.2不同维度传输的归一化设计
7.3A线接口设计
7.4在线填充引擎设计
7.5在线排序引擎设计
7.6在线转置引擎设计
第8章 存储系统设计
8.1AI处理器中的存储器设计
8.2存储器中Bank的划分方式
8.2.1Bank间地址交织方式
8.2.2Bank划分粒度介绍
8.3向量存储器设计
8.4GatherScatter引擎设计
8.5存储系统的物理实现
第9章 AI处理器设计实例
9.1HiPU硬件架构和指令集综述
9.1.1核心组件设计
9.1.2存储层次结构设计
9.1.3指令集设计
9.2HiPU微架构与流水线设计
9.3HiPU数据平面与计算阵列设计
参考文献
作者简介
任子木
处理器架构高级工程师
主导多款高性能推理/训练处理器和数字信号处理器架构与核心模块设计。谙熟业界主流高性能处理器指令集架构,带领团队设计的芯片广泛应用于相机、无人机和服务器中。在计算机体系结构、图像处理等方向有丰富的实践经验。申请国内外发明专利五十余项。
李东声
处理器架构师
专注于ARM/RISC-V架构高性能处理器设计、性能分析优化、架构演进探索与关键技术研究。参与和主导多项高性能CPU与AI处理器IP架构/微架构以及SoC设计,商用产品涉及服务器、移动终端、边缘计算等多个领域。授权国内外发明专利十余项。
-
2025读书月阅读盲盒——我独钟意命运角落的人
¥42.3¥168.0 -
阅读是一座随身携带的避难所
¥15.8¥39.0 -
2025读书月阅读盲盒——经常作案的朋友都知道
¥42.3¥168.0 -
生死场
¥8.6¥36.0 -
2025读书月阅读盲盒——你以为你以为的就是你以为的吗?
¥42.3¥168.0 -
给青年的十二封信
¥6.3¥15.0 -
大宋宰相王安石
¥18.6¥55.0 -
东京梦华录
¥17.6¥46.0 -
我的哲学之师叔本华
¥13.5¥39.0 -
我从未如此眷恋人间
¥16.9¥49.8 -
树会记住很多事
¥9.9¥29.8 -
见字如面
¥15.9¥49.8 -
1984-插图珍藏版
¥11.3¥29.8 -
人类酷刑简史
¥21.1¥59.0 -
一个人生活
¥14.5¥45.0 -
梅子熟时栀子香
¥16.9¥49.8 -
悉达多
¥14.3¥28.0 -
我与地坛-纪念版
¥20.7¥29.0 -
我的心曾悲伤七次
¥9.0¥25.0 -
南方周末记者文集-大地孤独闪光
¥13.4¥28.8