- ISBN:9787121407499
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:228
- 出版时间:2021-03-01
- 条形码:9787121407499 ; 978-7-121-40749-9
本书特色
适读人群 :相关领域从业人员拍立淘是阿里巴巴推出的以图搜图产品,率先改变了消费者购物的方式,影响深远。 本书围绕该产品的技术、工程实践,多角度、立体化地揭示了背后的技术机理: 1、首度剖析基于深度学习的亿级图像检索技术平台,揭示精准推荐的技术奥秘 2、深度分析计算机视觉重要算法原理与应用场景,配以详尽的PyTorch代码 3、阐述构建大规划图像搜索平台思路、技巧与落地经验 作者潘攀是阿里巴巴集团资深算法专家,达摩院视觉理解&互动视觉负责人,负责电商领域的视觉技术研发;拍立淘以图搜图的负责人和创始人之一,为拍立淘、淘宝直播&短视频、虚拟主播、闲鱼等业务提供核心技术。《深度学习图像搜索与识别》总结了计算机视觉领域重大的落地产品实践,获得业界的一致好评与推崇,达摩院金榕院长、贾扬清等大咖纷纷力荐! 干货满满,诚意十足,先入为快!
内容简介
图像搜索和识别是计算机视觉领域一个非常重要且基础的题目。本书对构成图像搜索和识别系统的各个算法基础模块一一做了介绍,并在*后一章以拍立淘为例说明了各个模块是怎样一起工作的。针对每个算法模块,本书不仅深入浅出地解释了算法的工作原理,还对算法背后的演进机理和不同方法的特点进行了说明,在第2章至第8章*后均提供了经典算法的PyTorch 代码和相关参考资料。 本书既适合图像搜索和识别领域的初学者,也适合在某个单一任务方面有经验但是想扩充知识面的读者。
目录
1 概述 1
1.1 图像搜索与识别概述 1
1.2 图像搜索与识别技术的发展和应用 3
1.3 深度学习与图像搜索和识别 4
1.4 本书结构 6
2 深度卷积神经网络 8
2.1 概述 8
2.1.1 深度学习背景 8
2.1.2 深度卷积神经网络 9
2.2 CNN基础操作 11
2.2.1 卷积操作 11
2.2.2 池化操作 12
2.2.3 全连接层 13
2.2.4 激活层 14
2.2.5 批归一化层 14
2.2.6 小结 16
2.3 常见的CNN模型结构 16
2.3.1 网络结构超参数 17
2.3.2 单分支网络结构 19
2.3.3 多分支网络结构 24
2.3.4 小结 38
2.4 常见目标损失函数 38
2.5 本章总结 40
2.6 参考资料 40
3 图像分类 43
3.1 概述 43
3.2 单标记分类 44
3.2.1 常用数据集及评价指标 44
3.2.2 损失函数 45
3.2.3 提升分类精度的实用技巧 47
3.2.4 基于搜索的图像分类 50
3.3 细粒度图像分类 51
3.3.1 概述 51
3.3.2 基于部件对齐的细粒度分类方法 52
3.3.3 基于高阶特征池化的细粒度分类方法 55
3.3.4 小结 56
3.4 多标记图像分类 56
3.4.1 概述 56
3.4.2 baseline:一阶方法 58
3.4.3 标记关系建模 59
3.4.4 小结 60
3.5 代码实践 61
3.6 本章总结 63
3.7 参考资料 63
4 目标检测 66
4.1 概述 66
4.2 两阶段目标检测算法 68
4.2.1 候选框生成 69
4.2.2 特征抽取 71
4.2.3 训练策略 73
4.2.4 小结 76
4.3 单阶段目标检测算法 76
4.3.1 YOLO算法 76
4.3.2 SSD算法 78
4.3.3 RetinaNet算法 81
4.3.4 无锚点框检测算法 83
4.3.5 小结 87
4.4 代码实践 88
4.5 本章总结 91
4.6 参考资料 92
5 图像分割 95
5.1 概述 95
5.2 语义分割 96
5.2.1 概述 96
5.2.2 全卷积神经网络 97
5.2.3 空洞卷积 99
5.2.4 U-Net结构 100
5.2.5 条件随机场关系建模 101
5.2.6 Look Wider to See Better 103
5.2.7 Atrous Spatial Pyramid Pooling算法 104
5.2.8 Context Encoding for Semantic Segmentation 104
5.2.9 多卡同步批归一化 107
5.2.10 小结 107
5.3 实例分割 108
5.3.1 概述 108
5.3.2 FCIS 109
5.3.3 Mask R-CNN 111
5.3.4 Hybrid Task Cascade框架 113
5.3.5 小结 115
5.4 代码实践 115
5.5 本章总结 120
5.6 参考资料 120
6 特征学习 124
6.1 概述 124
6.2 基于分类识别的特征训练 126
6.2.1 Sigmoid函数 127
6.2.2 Softmax函数 128
6.2.3 Weighted Softmax函数 129
6.2.4 Large-Margin Softmax函数 130
6.2.5 ArcFace函数 132
6.2.6 小结 133
6.3 基于度量学习的特征训练 134
6.3.1 Contrastive损失函数 135
6.3.2 Triplet损失函数 137
6.3.3 三元组损失函数在行人再识别中的应用 139
6.3.4 Quadruplet损失函数 140
6.3.5 Listwise Learning 141
6.3.6 组合损失函数 142
6.3.7 小结 142
6.4 代码实践 143
6.5 本章总结 143
6.6 参考资料 144
7 向量检索 147
7.1 概述 147
7.2 局部敏感哈希算法 149
7.2.1 预处理 150
7.2.2 搜索 151
7.2.3 小结 152
7.3 乘积量化系列算法 152
7.3.1 PQ算法 153
7.3.2 IVFPQ算法 155
7.3.3 OPQ算法 156
7.3.4 小结 157
7.4 图搜索算法 157
7.4.1 NSW算法 158
7.4.2 Kgraph算法 161
7.4.3 HNSW算法 163
7.4.4 图搜索算法实验对比 165
7.4.5 小结 165
7.5 代码实践 166
7.6 本章总结 167
7.7 参考资料 168
8 图文理解 171
8.1 概述 171
8.2 图文识别 172
8.2.1 概述 172
8.2.2 数据集和评测标准 174
8.2.3 特征融合方法 176
8.2.4 小结 182
8.3 图文搜索 182
8.3.1 概述 182
8.3.2 数据集和评测标准 184
8.3.3 Dual Attention Networks 185
8.3.4 Bottom-Up Attention 187
8.3.5 图文搜索的损失函数 189
8.3.6 小结 190
8.4 代码实践 191
8.5 本章总结 194
8.6 参考资料 194
9 阿里巴巴图像搜索识别系统 197
9.1 概述 197
9.2 背景介绍 198
9.3 图像搜索架构 200
9.3.1 类目预测模块 200
9.3.2 目标检测和特征联合学习 201
9.3.3 图像索引和检索 205
9.4 实验和结果分析 207
9.5 本章总结 210
9.6 参考资料 211
作者简介
潘攀,花名启磐。 阿里巴巴集团资深算法专家,达摩院视觉理解&互动视觉负责人,负责电商领域的视觉技术研发。 拍立淘以图搜图的负责人和创始人之一,为拍立淘、淘宝直播&短视频、虚拟主播、闲鱼等业务提供核心技术。 博士毕业于美国伊利诺伊大学芝加哥分校,研究领域包括深度学习和计算机视觉等。 曾先后在美国三菱研究院和北京富士通研发中心从事视觉技术研发工作。 已发表20余篇论文,拥有10余授权专利,并获得WebVision分类,COCO检测,DAVIS分割等国际计算机视觉竞赛冠军。
-
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
全图解零基础word excel ppt 应用教程
¥12.0¥48.0 -
机器学习
¥59.4¥108.0 -
深度学习的数学
¥43.5¥69.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥37.7¥65.0 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥77.4¥109.0 -
UG NX 12.0数控编程
¥24.8¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
UN NX 12.0多轴数控编程案例教程
¥25.8¥38.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
Go 语言运维开发 : Kubernetes 项目实战
¥48.2¥79.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥84.5¥119.0