图像识别——深度学习模型理论与实战

1星价 ¥55.3 (7.0折)

2星价￥55.3 定价￥79.0

作者：于浩文

出版社：清华大学出版社

本类榜单：计算机/网络

分类：计算机/网络 > 计算机理论

暂无评论

图文详情

ISBN：9787302652656
装帧：平装-胶订
册数：暂无
重量：暂无
开本：其他
页数：312
出版时间：2024-02-01
条形码：9787302652656 ; 978-7-302-65265-6

本书特色

本书系统讲解深度学习在图像识别领域的应用，既包含了基础知识，为初学者铺设坚实的基础，也涵盖了高级主题，供有经验的研究者或从业者探索。本书从图像识别的历史和发展趋势开始，然后逐步深入每个主题，确保读者可以从中得到真正的价值。

内容简介

本书专注于深度学习在图像识别领域的应用。不仅详细讲解了各种模型的理论知识，还为读者提供了丰富的实践操作指南。旨在为读者提供一个从基础到高级的全方位指导，涵盖2012至2023间的经典和前沿模型。本书在第1章介绍人工智能在计算机视觉领域的现状，第2章和第3章是编程基础章节，有基础的同学可以跳过阅读。第4章和第5章详细讲解卷积算法和基于卷积算法具有里程碑意义的模型。第6章介绍工业中常用的轻量级卷积模型。第7章和第8章对现阶段前沿的图像识别模型进行讲解。本书适合对图像识别领域感兴趣的本科生、研究生及图像识别从业者。对于新入门的同学，本书提供了丰富的预备知识，而对于有经验的读者，可以直接跳入高级章节。

本书源码
附赠资源第1章人工智能介绍 1．1什么是人工智能 1．2人工智能的3次浪潮 1．2．1人工智能的第1次浪潮 1．2．2人工智能的第2次浪潮 1．2．3人工智能的第3次浪潮 1．3人工智能发展的三要素 1．3．1人工智能发展的基石：数据 1．3．2人工智能发展的动力：算法 1．3．3人工智能发展的手段：算力 1．4人工智能的美好愿景 1．4．1乌鸦与鹦鹉的启示 1．4．2人工智能到底有多智能第2章深度学习环境配置 2．1专业名称和配置方案介绍 2．1．1专业名称介绍 2．1．2Windows配置PyTorch深度学习环境初级方案 2．1．3Windows配置PyTorch深度学习环境进阶方案 2．2Anaconda配置Python和PyTorch 2．2．1Anaconda简介 2．2．2Windows系统安装Anaconda 2．2．3Linux系统安装Anaconda 2．2．4Anaconda的快速入门 2．2．5Anaconda配置PyTorch深度学习环境 2．3配置VS Code和Jupyter的Python环境 2．3．1VS Code下载与安装 2．3．2VS Code配置Python环境 2．3．3Jupyter Notebook中配置Python环境 2．4配置Windows 11和Linux双系统 2．4．1Windows 11配置WSL 2的详细步骤 2．4．2Windows 11配置WSL 2的常见错误 2．4．3VS Code远程连接WSL 2 2．5配置Docker深度学习开发环境 2．5．1Docker安装的先决条件 2．5．2安装Docker Desktop 2．5．3拉取Docker镜像 2．5．4快速入门Docker终端的使用 2．5．5VS Code使用Docker的快速入门第3章编程语言快速入门 3．1Python的起源、历史和应用场景 3．1．1Python的起源 3．1．2Python的历史 3．1．3Python的应用场景 3．2Python的基础知识 3．2．1注释 3．2．2六大数据类型 3．3Python的判断与循环语句 3．3．1比较运算符和关系运算符 3．3．2判断语句 3．3．3循环语句 3．4Python中的函数 3．4．1函数的定义 3．4．2函数中的变量 3．4．3高级函数用法 3．4．4Python中的文件操作函数 3．5Python中的面向对象编程 3．5．1面向对象编程 VS 面向过程编程 3．5．2类与对象 3．5．3魔法方法 3．5．4类属性和类方法 3．5．5继承 3．5．6多态 3．5．7模块的介绍和制作 3．5．8Python中的包和库 3．5．9Python的pip命令 3．6PyTorch的基础知识 3．6．1PyTorch的基本数据类型 3．6．2张量的索引、切片与维度变换 3．6．3张量的拼接、拆分与统计第4章卷积神经网络理论基础 4．1全连接神经网络 4．1．1线性模型 4．1．2回归与分类 4．1．3感知机模型 4．1．4激活函数 4．1．5维度诅咒 4．1．6过拟合与欠拟合 4．1．7正则 4．1．8数据增强 4．1．9数值不稳定性 4．2基于梯度下降的优化算法 4．2．1优化算法的数学基础 4．2．2优化器 4．3卷积神经网络 4．3．1卷积神经网络的计算 4．3．2卷积的设计思想 4．3．3卷积对图像的特征提取过程 4．3．4卷积模型实现图像识别 4．3．5卷积神经网络的层级结构和感受野 4．3．6第1个卷积神经网络模型： LeNet 第5章那些年我们追过的ImageNet图像识别大赛 5．1ImageNet 5．1．1什么是ImageNet 5．1．2ImageNet数据集 5．1．3ImageNet图像分类大赛 5．2AlexNet：拉开深度学习序幕 5．2．1AlexNet理论 5．2．2AlexNet代码 5．2．3AlexNet模型小结 5．3ZFNet：开创卷积模型的可解释性 5．3．1ZFNet简介 5．3．2对卷积计算结果的可视化 5．3．3网络中对不同特征的学习速度 5．3．4图片平移、缩放、旋转对CNN的影响 5．3．5ZFNet的改进点 5．3．6遮挡对卷积模型的影响 5．3．7ZFNet的调参实验 5．3．8ZFNet的模型代码实现 5．3．9ZFNet模型小结 5．4VGGNet: 探索深度的力量 5．4．1VGGNet模型总览 5．4．2网络贡献总结 5．4．3VGGNet的模型代码实现 5．4．4VGGNet模型小结 5．5GoogLeNet：探索宽度的力量 5．5．1GoogLeNet V1 5．5．2GoogLeNet V2 5．5．3GoogLeNet V3 5．5．4GoogLeNet V4 5．5．5GoogLeNet V5 5．6ResNet：神来之“路” 5．6．1深度学习网络退化问题 5．6．2残差连接 5．6．3ResNet模型的网络结构 5．6．4残差的调参 5．6．5残差连接的渊源 5．6．6残差连接有效性的解释 5．6．7ResNet的变体 5．6．8ResNeXt 5．7DenseNet：特征复用 5．7．1模型设计动机 5．7．2DenseNet模型结构 5．7．3DenseNet模型比较 5．8SENet：通道维度的注意力机制 5．8．1SENet模型总览 5．8．2SE模块 5．8．3SENet效果 5．8．4SENet模型小结第6章易于应用部署的轻量卷积模型 6．1MobileNet V1：为移动端量身打造的轻量级模型 6．1．1模型设计动机 6．1．2深度可分离卷积 6．1．3MBConv模块 6．1．4MobileNet V1模型结构 6．1．5MobileNet V1模型小结 6．2MobileNet V2：翻转残差与线性瓶颈的效率变革 6．2．1逆残差结构 6．2．2线性瓶颈结构 6．2．3MobileNet V2模型结构 6．2．4MobileNet V2模型小结 6．3MobileNet V3：结合自动搜索的移动端网络标杆 6．3．1优化网络深层结构 6．3．2hswish激活函数 6．3．3SENet 6．3．4MobileNet V3模型结构 6．3．5MobileNet V3模型小结 6．4ShuffleNet V1：重新洗牌的高效卷积网络 6．4．1组卷积 6．4．2通道打散操作 6．4．3ShuffleNet模块 6．4．4ShuffleNet V1模型结构 6．4．5ShuffleNet V1模型小结 6．5ShuffleNet V2：轻量级设计的网络优化版 6．5．1ShuffleNet V2模型设计动机 6．5．2轻量级网络设计的5个经验总结 6．5．3ShuffleNet V2模型结构 6．5．4ShuffleNet V2模型小结 6．6EfficientNet V1：缩放模型的全新视角 6．6．1EfficientNet V1模型设计动机 6．6．2深度学习模型的3种缩放方法 6．6．3EfficientNet V1模型的缩放比率 6．6．4EfficientNet V1模型结构 6．6．5EfficientNet V1模型小结 6．7EfficientNet V2：融合速度与精度的高效网络 6．7．1EfficientNet V2模型设计动机 6．7．2EfficientNet模型的问题 6．7．3EfficientNet V2模型的改进 6．7．4EfficientNet V2模型小结 6．8RepVGG：以简化网络结构为核心的下一代模型 6．8．1RepVGG模型设计动机 6．8．2RepVGG模型结构 6．8．3RepVGG重参数化 6．8．4RepVGG模型小结第7章Transformer的强势入侵 7．1Transformer模型 7．1．1Transformer算法解读 7．1．2自注意力层 7．1．3多头自注意力层 7．1．4编码器结构 7．1．5解码器结构 7．1．6线性顶层和Softmax层 7．1．7输入数据的向量化 7．1．8Transformer模型小结 7．2Vision Transformer模型：从NLP到CU的Transformer算法变革 7．2．1ViT框架 7．2．2图片数据的向量化 7．2．3ViT的Transformer编码器 7．2．4MLP Head模块 7．2．5ViT模型缩放 7．2．6混合ViT模型 7．2．7ViT模型小结 7．3Swin Transformer模型：窗口化的Transformer 7．3．1Swin Transformer网络整体框架 7．3．2Patch Merging详解 7．3．3WMSA详解 7．3．4SWMSA详解 7．3．5相对位置偏置详解 7．3．6Swin Transformer模型详细配置参数 7．3．7Swin Transformer模型讨论与总结 7．4VAN视觉注意力网络：基于卷积实现的注意力机制 7．4．1相关工作 7．4．2大核注意力机制 7．4．3视觉注意力网络 7．4．4VAN模型小结 7．5ConvNeXt模型：披着“Transformer”的“CNN” 7．5．1模型和训练策略选择 7．5．2Macro Design 7．5．3模仿ResNeXt模型 7．5．4Inverted Bottleneck反向瓶颈结构 7．5．5Large Kernel Sizes 7．5．6Micro Design 7．5．7ConvNeXt模型缩放 7．5．8ConvNeXt模型小结第8章多层感知机的重新思考 8．1MLPMixer模型：多层感知机的神奇魔法 8．1．1Perpatch全连接层 8．1．2MixerLayer代替自注意力机制 8．1．3MLPMixer模型结构 8．1．4MLPMixer代码实现 8．1．5MLPMixer模型小结
8．2ASMLP模型：注意力驱动下的多层感知机升级 8．2．1ASMLP模型 8．2．2ASMLP模型结构 8．2．3ASMLP代码实现 8．2．4ASMLP模型小结 8．3ConvMixer模型：卷积与多层感知机的相互借鉴 8．3．1图像编码成向量 8．3．2ConvMixer模型 8．3．3ConvMixer网络结构 8．3．4ConvMixer代码实现 8．3．5ConvMixer模型小结 8．4MetaFormer模型：万法归一，构建Transformer模板 8．4．1MetaFormer模型 8．4．2MetaFormer模型结构 8．4．3MetaFormer代码实现 8．4．4MetaFormer模型小结

展开全部