包邮深度学习高手笔记卷2:经典应用

1星价 ¥90.9 (7.0折)

2星价￥90.9 定价￥129.8

作者：刘岩（@大师兄）

出版社：人民邮电出版社

本类榜单：计算机/网络

分类：计算机/网络 > 计算机理论

买过本商品的人还买了

暂无评论

图文详情

ISBN：9787115608956
装帧：一般胶版纸
册数：暂无
重量：暂无
开本：16开
页数：330
出版时间：2024-06-01
条形码：9787115608956 ; 978-7-115-60895-6

本书特色

紧跟AI发展热点，深入探讨了深度学习在目标检测与分割、场景文字检测与识别、图像翻译等多个前沿领域的应用，为你揭开了深度学习算法的神秘面纱；本书不仅涵盖深度学习的经典应用场景，更从算法原理、公式推导、源码分析到实验结果，全方位解析深度学习算法的精髓，清晰演示算法的演进脉络；书中还特别强调了算法中的数学原理，如双线性插值、匈牙利算法等，帮助读者从根本上理解算法的内在逻辑；本书不仅能够扩展你的算法知识面，更能让你深入理解主流算法，构建起自己的知识体系，掌握模型优化的关键方法；现在，让我们一起翻开本书，探索深度学习的奥秘，把握AI时代的脉搏，开启一段知识与技术的深度之旅！

内容简介

本书通过扎实、详细的内容，从理论知识、算法源码、实验结果等方面对深度学习中涉及的算法进行分析和介绍。本书共三篇，**篇主要介绍深度学习在目标检测与分割方向的前沿算法，包括双阶段检测、单阶段检测、无锚点检测、特征融合、损失函数、语义分割这 6 个方向；第二篇主要介绍深度学习在场景文字检测与识别方向的重要突破，主要介绍场景文字检测、场景文字识别这两个阶段的算法；第三篇主要介绍深度学习的其他算法与应用，包括图像翻译、图神经网络、二维结构识别、人像抠图、图像预训练、多模态预训练这6个方向的算法。附录部分介绍双线性插值、匈牙利算法、Shift-and-Stitch、德劳内三角化、图像梯度、仿射变换矩阵等内容。本书结构清晰，内容广度与深度齐备。通过阅读本书，读者可以了解前沿的深度学习算法，扩展自己的算法知识面。无论是从事深度学习科研的教师及学生，还是从事算法落地实践的工作人员，都能从本书中获益。

第一篇目标检测与分割第 1 章双阶段检测 3 11 R-CNN 4 111 R-CNN 检测流程 5 112 候选区域提取 6 113 预训练及微调 7 114 训练数据准备 7 115 NMS 8 116 小结 9 12 SPP-Net 9 121 空间金字塔池化 10 122 SPP-Net 的推理流程 11 123 小结 13 13 Fast R-CNN 13 131 Fast R-CNN 算法介绍 13 132 数据准备 14 133 Fast R-CNN 网络结构 15 134 多任务损失函数 16 135 Fast R-CNN 的训练细节17 136 Fast R-CNN 的推理流程18 137 小结 18 14 Faster R-CNN 18 141 区域候选网络 18 142 Faster R-CNN 的训练 22 143 小结 22 15 R-FCN 23 151 提出动机 23 152 R-FCN 的网络 24 153 R-FCN 结果可视化 26 154 小结 27 16 Mask R-CNN 27 161 Mask R-CNN 的动机 28 162 Mask R-CNN 详解 28 163 小结 31 17 MaskX R-CNN 31 171 权值迁移函数 32 172 MaskX R-CNN 的训练 32 173 小结 33 18 DCNv1 和 DCNv2 33 181 DCNv1 33 182 DCNv2 36 183 小结 39 第 2 章单阶段检测 40 21 YOLOv1 41 211 YOLOv1 的网络结构 42 212 损失函数 44 213 小结 46 22 SSD 和 DSSD 47 221 SSD 48 222 DSSD 51 223 小结 53 23 YOLOv2 54 231 YOLOv2：更快，更高 54 232 YOLO9000：更强 59 233 小结 61 24 YOLOv3 61 241 多标签任务 62 242 骨干网络 62 243 多尺度特征 63 244 锚点聚类 63 245 YOLOv3 一些失败的尝试 64 246 小结 64 25 YOLOv4 65 251 背景介绍 65 252 数据 65 253 模型 69 254 后处理 78 255 YOLOv4 改进介绍 79 256 小结 82 第 3 章无锚点检测 83 31 DenseBox 84 311 DenseBox 的网络结构 84 312 多任务模型 85 313 训练数据 86 314 结合关键点检测 87 315 测试 88 316 小结 88 32 CornerNet 89 321 背景 89 322 CornerNet 详解 90 323 小结 95 33 CornerNet-Lite 96 331 CornerNet-Saccade 96 332 CornerNet-Squeeze 99 333 小结 99 34 CenterNet 99 341 网络结构 100 342 数据准备 102 343 损失函数 103 344 推理过程 104 345 小结 104 35 FCOS 104 351 算法背景 105 352 FCOS 的网络结构 105 353 多尺度预测 107 354 测试 107 355 小结 107 36 DETR 107 361 网络结构 108 362 损失函数 109 363 小结 111 第 4 章特征融合 112 41 FPN 113 411 CNN 中的常见骨干网络 113 412 FPN 的网络结构 114 413 FPN 的应用 116 414 小结 116 42 PANet 117 421 PANet 117 422 小结 120 43 NAS-FPN 121 431 NAS-FPN 算法详解 121 432 NAS-FPN Lite 125 433 小结 125 44 Effi cientDet 125 441 BiFPN 126 442 EfficientDet 详解 127 443 小结 128 第 5 章损失函数 129 51 Focal Loss 129 511 Focal Loss 介绍 130 512 RetinaNet132 513 小结132 52 IoU 损失 133 521 背景知识 133 522 IoU 损失133 523 UnitBox 网络结构135 524 小结136 53 GIoU 损失 136 531 算法背景 136 532 GIoU 损失详解137 533 小结139 54 DIoU 损失和 CIoU 损失 140 541 背景140 542 DIoU 损失141 543 CIoU 损失142 544 小结142 55 Focal-EIoU 损失 143 551 EIoU 损失143 552 Focal L1 损失144 553 Focal-EIoU 损失146 554 小结146 第 6 章语义分割 147 61 FCN 和 SegNet 148 611 背景知识 148 612 FCN 详解149 613 SegNet 详解150 614 分割指标 151 615 小结152 62 U-Net 152 621 U-Net 详解153 622 数据扩充 155 623 小结155 63 V-Net 156 631 网络结构 156 632 Dice 损失 160 633 小结161 64 DeepLab 系列 161 641 DeepLab v1161 642 DeepLab v2164 643 DeepLab v3165 644 DeepLab v3+167 645 小结170 第二篇场景文字检测与识别第 7 章场景文字检测 173 71 DeepText 173 711 RPN 回顾174 712 DeepText 详解175 713 小结175 72 CTPN 176 721 算法流程 176 722 数据准备 177 723 CTPN 的锚点机制 177 724 CTPN 中的 RNN178 725 边界微调 178 726 CTPN 的损失函数 179 727 小结179 73 RRPN 179 731 RRPN 详解180 732 位置精校 183 733 小结184 74 HED 185 741 HED 的骨干网络 186 742 整体嵌套网络 186 743 HED 的损失函数 187 744 小结 188 75 HMCP 188 751 HMCP 的标签值 189 752 HMCP 的骨干网络 190 753 训练 190 754 检测 191 755 小结 193 76 EAST 193 761 网络结构 193 762 EAST 的标签生成 194 763 EAST 的损失函数 196 764 局部感知 NMS 196 765 Advanced-EAST 197 766 小结 198 77 PixelLink 198 771 骨干网络 199 772 PixelLink 的标签 199 773 PixelLink 的损失函数 200 774 后处理 201 775 小结 201 第 8 章场景文字识别 202 81 STN 202 811 空间变形模块 203 812 STN 205 813 STN 的应用场景 205 814 小结 207 82 RARE 207 821 基于 TPS 的 STN 208 822 序列识别网络 210 823 训练 212 824 基于字典的测试 212 825 小结 212 83 Bi-STET 212 831 残差网络 213 832 编码层 213 833 解码层 214 834 小结 214 84 CTC 214 841 算法详解 215 842 小结 219 第三篇其他算法与应用第 9 章图像翻译 223 91 GAN 223 911 逻辑基础 224 912 GAN 的训练 224 913 GAN 的损失函数 225 914 理论证明 226 915 小结 230 92 Pix2Pix 230 921 背景知识 231 922 Pix2Pix 解析 232 923 小结 234 93 Pix2PixHD 235 931 网络结构 235 932 输入数据 240 933 损失函数 241 934 图像生成 241 935 小结 242 94 图像风格迁移 242 941 算法概览 243 942 内容表示 244 943 风格表示 245 944 风格迁移 246 945 小结247 第 10 章图神经网络248 101 GraphSAGE 249 1011 背景知识 249 1012 算法详解 249 1013 小结254 102 GAT 254 1021 GAT 详解 254 1022 GAT 的推理257 1023 GAT 的属性257 1024 小结258 103 HAN 258 1031 基本概念 258 1032 HAN 详解259 1033 小结261 第 11 章二维结构识别 262 111 Show and Tell 262 1111 网络结构 263 1112 解码264 1113 小结264 112 Show Attend and Tell 264 1121 整体框架 265 1122 小结268 113 数学公式识别268 1131 基础介绍 269 1132 公式识别模型详解272 1133 小结277 第 12 章人像抠图278 121 Background Matting 278 1211 输入279 1212 生成模型 280 1213 判别模型 280 1214 模型训练 281 1215 模型推理 282 1216 小结282 122 Background Matting v2 283 1221 问题定义 283 1222 网络结构 284 1223 训练286 1224 小结286 第 13 章图像预训练287 131 MAE 287 1311 算法动机 287 1312 掩码机制 288 1313 模型介绍 289 1314 小结291 132 BEiT v1 291 1321 背景介绍 292 1322 BEiT v1 全览292 1323 BEiT v1 的模型结构293 1324 掩码图像模型 294 1325 BEiT v1 的损失函数294 1326 小结295 133 BEiT v2 295 1331 背景介绍 295 1332 BEiT v2 概述296 1333 矢量量化 - 知识蒸馏296 1334 BEiT v2 预训练297 1335 小结298 第 14 章多模态预训练 299 141 ViLBERT 299 1411 模型结构 300 1412 预训练任务 301 1413 模型微调 302 1414 小结 303 142 CLIP 304 1421 数据收集 304 1422 学习目标：对比学习(Contrastive Learning)预训练 304 1423 图像编码器 305 1424 文本编码器 306 1425 CLIP 用于图像识别 306 1426 模型效果 306 1427 小结 307 143 DALL-E 307 1431 背景知识：变分自编码器 308 1432 阶段一：离散变分自编码器309 1433 阶段二：先验分布学习 310 1434 图像生成 312 1435 混合精度训练 312 1436 分布式运算 313 1437 小结 313 144 VLMo 314 1441 算法动机 314 1442 MoME Transformer 314 1443 VLMo 预训练 315 1444 小结 318 145 BEiT v3 318 1451 背景：大融合 319 1452 BEiT v3 详解320 1453 小结 322 附录 A 双线性插值 323 附录 B 匈牙利算法 324 附录 C Shift-and-Stitch 325 附录 D 德劳内三角化 328 附录 E 图像梯度 329 附录 F 仿射变换矩阵 330

展开全部

作者简介

刘岩，曾先后就读于重庆大学软件工程专业和澳门大学计算机科学专业，分别获得学士和硕士学位，期间发表多篇论文。目前就职于京东零售技术研发与数据中心，主要负责电商场景下的基础算法研究以及内容风控业务，包括风险舆情监控和挖掘、风险电商内容的发现和治理等。擅长前沿人工智能算法的原理分析和落地，先后参与并负责了深度学习多个算法在业务上的落地，例如 OCR、公式识别、手势识别、视频抠像、文本分类，预训练词向量模型、语言识别、图神经网络等。知乎账号:大师兄。

本类五星书