《深度学习图像搜索与识别》[77M]百度网盘pdf下载

深度学习图像搜索与识别百度网盘pdf下载

作者:

简介:本篇主要提供深度学习图像搜索与识别pdf下载

出版社：电子工业出版社

出版时间：2021-03

pdf下载价格：0.00￥

免费下载

前去下载

书籍下载

下载地址

内容介绍

产品特色

编辑推荐

适读人群：相关领域从业人员

拍立淘是阿里巴巴推出的以图搜图产品，率先改变了消费者购物的方式，影响深远。

本书围绕该产品的技术、工程实践，多角度、立体化地揭示了背后的技术机理：

1、首度剖析基于深度学习的亿级图像检索技术平台，揭示精准推荐的技术奥秘

2、深度分析计算机视觉重要算法原理与应用场景，配以详尽的PyTorch代码

3、阐述构建大规划图像搜索平台思路、技巧与落地经验

作者潘攀是阿里巴巴集团资深算法专家，达摩院视觉理解&互动视觉负责人，负责电商领域的视觉技术研发；拍立淘以图搜图的负责人和创始人之一，为拍立淘、淘宝直播&短视频、虚拟主播、闲鱼等业务提供核心技术。

《深度学习图像搜索与识别》总结了计算机视觉领域重大的落地产品实践，获得业界的一致好评与推崇，达摩院金榕院长、贾扬清等大咖纷纷力荐！

干货满满，诚意十足，先入为快！

内容简介

图像搜索和识别是计算机视觉领域一个非常重要且基础的题目。本书对构成图像搜索和识别系统的各个算法基础模块一一做了介绍，并在最后一章以拍立淘为例说明了各个模块是怎样一起工作的。针对每个算法模块，本书不仅深入浅出地解释了算法的工作原理，还对算法背后的演进机理和不同方法的特点进行了说明，在第2章至第8章最后均提供了经典算法的PyTorch 代码和相关参考资料。

本书既适合图像搜索和识别领域的初学者，也适合在某个单一任务方面有经验但是想扩充知识面的读者。

作者简介

潘攀，花名启磐。

阿里巴巴集团资深算法专家，达摩院视觉理解&互动视觉负责人，负责电商领域的视觉技术研发。

拍立淘以图搜图的负责人和创始人之一，为拍立淘、淘宝直播&短视频、虚拟主播、闲鱼等业务提供核心技术。

博士毕业于美国伊利诺伊大学芝加哥分校，研究领域包括深度学习和计算机视觉等。

曾先后在美国三菱研究院和北京富士通研发中心从事视觉技术研发工作。

已发表20余篇论文，拥有10余授权专利，并获得WebVision分类，COCO检测，DAVIS分割等国际计算机视觉竞赛冠军。

精彩书评

推荐序

自20世纪90年代末以来，图像搜索，即基于图像内容的图像检索，在计算机视觉领域吸引了广泛的关注，研究人员展开了大量的研究。图像搜索的研究工作中一个核心问题就是如何有效地表征图像的视觉内容，使得在给定检索图像的情况下，具有相似物体或视觉表现的图像在表征空间的距离较近，反之，视觉内容不相似的图像则距离较远。

在深度学习技术被广泛应用之前，业界尝试了很多基于传统视觉技术的方法。传统的方法一般依赖人工设计的视觉特征，但此种特征通常无法有效地表征自然界中多样的视觉内容，导致在图像搜索时通常效果不佳。与此不同的是，深度学习，准确而言是深度特征学习，能自动从数据中挖掘并学习到图像的紧致视觉表征，这种表征可以同时描述图像的低层结构和高层语义信息，从而能更加有效地处理多样的视觉内容。

在几十年的艰难求索之后，深度学习的成功应用终于给图像搜索领域带来了新的生机。如今，图像搜索已经渗透到人们的日常生活中。比如阿里巴巴的拍立淘产品，能够让用户通过对商品拍照就轻松地找到相同或者相似的商品，这极大地方便了人们的日常购物。

虽然深度学习是图像搜索在多种场景的实际应用中取得较好效果的关键技术，但是要搭建一个成功有效的图像搜索系统还需要很多方法和技巧，这正是本书所要阐述的。本书详细介绍了图像处理和计算机视觉的核心算法模块，如目标检测、图像分类和图像分割等。图像搜索系统在实际场景中能稳定可靠地运行，离不开本书列出的每一个技术模块。本书也包含了一些深度学习的基础学习材料，尤其是卷积神经网络在大规模图像搜索和识别中的应用。

虽然市面上有很多关于深度学习的资料，但无论是入门介绍还是深入讲解的，大部分很少谈及大规模图像搜索和识别的重要技巧。和很多的研究论文不一样，本书深入阐述了大规模图像搜索工程系统的核心模块——向量检索。如果没有一个稳定的、大规模的向量检索系统，大规模的图像搜索就很难在实际中应用。因为一个用户查询可能会花费几分钟甚至几小时的时间，这通常取决于查询库的大小。在本书的最后，作者以阿里巴巴图像搜索和识别系统拍立淘为应用示例，介绍了这些算法在实际产品中是如何实现、配合和部署的。

作者不仅在书中介绍了大规模图像搜索和识别的相关基础技术知识，作为拍立淘的创始人和负责人，他还分享了成功构建图像搜索和识别系统的经验，这就是本书独一无二的地方。

金榕，阿里巴巴集团副总裁，达摩院副院长

好评袭来

最近几年，深度学习方法在计算机视觉领域大放异彩。从2012年AlexNet提出，到2014年GoogLeNet首次打破人类在ImageNet上的正确率，以卷积神经网络为基础的深度学习算法在计算机视觉的各个子领域都实现了远远超过传统算法的效果。同时，“AI Engineering”变成了这些算法落地和体现业务价值当中的重要一环，无论是AI创业公司还是传统企业，都关注如何通过大量开源软件和算法迅速实现业务价值。

即使对于专业的工程师而言，详细了解近年CV领域的每一个细节都是一个巨大的挑战。本书将近年来的算法进展和核心场景用体系化、代码化的方式做了一一呈现，让大家能够按图索骥，迅速理清计算机视觉领域的技术脉络，学以致用。

贾扬清

阿里巴巴集团副总裁、高级研究员

图像搜索识别系统开发需要解决哪些问题？深度学习在图像识别领域的前沿技术是什么？数十亿级图像搜索是如何实现的？阿里巴巴拍立淘是如何构建的？这本书给出了答案，是相关领域从业人员不可多得的参考书。

王井东

微软亚洲研究院首席研究员

“拍立淘，用镜头淘世界。”拍一张服装照片，上淘宝用拍立淘功能搜相似款，然后轻松获得优选的心仪服装。我相信很多女生用过拍立淘。拍立淘的负责人、来自达摩院的阿里巴巴集团资深算法专家潘攀（启磐）博士，在本书中与您分享拍立淘这一黑科技背后的图像搜索与识别方法，揭秘精准推荐和高品质搜索背后的技术奥秘。在我看来，由落地产品的一线技术大拿来写这类书，是再合适不过的，因为书中蕴含的是作者对技术和应用场景的深刻理解。读完本书，你能领悟深度学习、机器视觉和“以图搜图”的魅力，强大而有趣。

金小刚

浙江大学二级教授，“十三五”国家重点研发计划首席科学家

深度学习是近几年发展起来的机器学习方法，它的出现使人工智能技术取得了突破性的进展，大幅度提升了许多智能信息处理应用领域的性能。与学术研究关注单一技术不同，深度学习技术在工业界的落地涉及一整套“工程体系”的建立。作者潘攀于2014年在阿里巴巴研制并成功上线了基于深度学习的大规模图像检索技术平台，也就是为人熟知的拍立淘。他从阿里巴巴广阔的商业和数据生态发展中打造基于深度学习的计算机视觉技术的研发演进路线值得每一位研究人员思考。

本书系统地阐述了基于深度学习的计算机视觉技术在工业界的发展历程，相信读者在仔细阅读后一定会有所收获。

胡卫明

中国科学院自动化研究所研究员，国家杰出青年基金获得者，
国家万人计划科技创新领军人才入选者

近年来，高性能并行算力的发展、海量数据的获取和深度学习技术的突破，给人工智能技术走向应用带来了前所未有的机遇。如何体系化地解决实际问题、满足用户真正的需求，实现从算法、工程到产品的有效落地，仍然是当今人工智能创业人员面临的一个重要挑战。拍立淘作为阿里巴巴集团一项成功落地的人工智能产品，其算法实现和系统设计对业界具有良好的借鉴意义。

在本书中，潘攀博士详实介绍了从算法模块到产品的有机整合应用，相信会对人工智能从业人员有所帮助。

黄凯奇

中国科学院自动化研究所研究员，智能系统与工程研究中心主任

潘攀博士是阿里巴巴集团资深算法专家、拍立淘等图像搜索和识别产品的算法和项目负责人，有丰富的研究经验，是计算机视觉技术落地方面的资深专家。

本书以深度学习为主线，涵盖了图像搜索和识别涉及的各种基础技术及实践经验，同时提供了相应的代码；最后一章概要介绍了拍立淘的系统框架，以此说明书中各模块如何互相配合、协调工作。本书特别适合对计算机视觉技术、深度学习技术的应用感兴趣的初学者和相关从业人员。

吴建鑫

南京大学教授

本书针对基于深度神经网络的图像理解研究进行了归纳整理，并且提供了较为详细的代码实现，适合希望了解计算机视觉研究的读者。

俞扬

南京大学教授

1 概述 1
1．1 图像搜索与识别概述 1
1．2 图像搜索与识别技术的发展和应用 3
1．3 深度学习与图像搜索和识别 4
1．4 本书结构 6
2 深度卷积神经网络 8
2．1 概述 8
2．1．1 深度学习背景 8
2．1．2 深度卷积神经网络 9
2．2 CNN基础操作 11
2．2．1 卷积操作 11
2．2．2 池化操作 12
2．2．3 全连接层 13
2．2．4 激活层 14
2．2．5 批归一化层 14
2．2．6 小结 16
2．3 常见的CNN模型结构 16
2．3．1 网络结构超参数 17
2．3．2 单分支网络结构 19
2．3．3 多分支网络结构 24
2．3．4 小结 38
2．4 常见目标损失函数 38
2．5 本章总结 40
2．6 参考资料 40
3 图像分类 43
3．1 概述 43
3．2 单标记分类 44
3．2．1 常用数据集及评价指标 44
3．2．2 损失函数 45
3．2．3 提升分类精度的实用技巧 47
3．2．4 基于搜索的图像分类 50
3．3 细粒度图像分类 51
3．3．1 概述 51
3．3．2 基于部件对齐的细粒度分类方法 52
3．3．3 基于高阶特征池化的细粒度分类方法 55
3．3．4 小结 56
3．4 多标记图像分类 56
3．4．1 概述 56
3．4．2 baseline：一阶方法 58
3．4．3 标记关系建模 59
3．4．4 小结 60
3．5 代码实践 61
3．6 本章总结 63
3．7 参考资料 63
4 目标检测 66
4．1 概述 66
4．2 两阶段目标检测算法 68
4．2．1 候选框生成 69
4．2．2 特征抽取 71
4．2．3 训练策略 73
4．2．4 小结 76
4．3 单阶段目标检测算法 76
4．3．1 YOLO算法 76
4．3．2 SSD算法 78
4．3．3 RetinaNet算法 81
4．3．4 无锚点框检测算法 83
4．3．5 小结 87
4．4 代码实践 88
4．5 本章总结 91
4．6 参考资料 92
5 图像分割 95
5．1 概述 95
5．2 语义分割 96
5．2．1 概述 96
5．2．2 全卷积神经网络 97
5．2．3 空洞卷积 99
5．2．4 U-Net结构 100
5．2．5 条件随机场关系建模 101
5．2．6 Look Wider to See Better 103
5．2．7 Atrous Spatial Pyramid Pooling算法 104
5．2．8 Context Encoding for Semantic Segmentation 104
5．2．9 多卡同步批归一化 107
5．2．10 小结 107
5．3 实例分割 108
5．3．1 概述 108
5．3．2 FCIS 109
5．3．3 Mask R-CNN 111
5．3．4 Hybrid Task Cascade框架 113
5．3．5 小结 115
5．4 代码实践 115
5．5 本章总结 120
5．6 参考资料 120
6 特征学习 124
6．1 概述 124
6．2 基于分类识别的特征训练 126
6．2．1 Sigmoid函数 127
6．2．2 Softmax函数 128
6．2．3 Weighted Softmax函数 129
6．2．4 Large-Margin Softmax函数 130
6．2．5 ArcFace函数 132
6．2．6 小结 133
6．3 基于度量学习的特征训练 134
6．3．1 Contrastive损失函数 135
6．3．2 Triplet损失函数 137
6．3．3 三元组损失函数在行人再识别中的应用 139
6．3．4 Quadruplet损失函数 140
6．3．5 Listwise Learning 141
6．3．6 组合损失函数 142
6．3．7 小结 142
6．4 代码实践 143
6．5 本章总结 143
6．6 参考资料 144
7 向量检索 147
7．1 概述 147
7．2 局部敏感哈希算法 149
7．2．1 预处理 150
7．2．2 搜索 151
7．2．3 小结 152
7．3 乘积量化系列算法 152
7．3．1 PQ算法 153
7．3．2 IVFPQ算法 155
7．3．3 OPQ算法 156
7．3．4 小结 157
7．4 图搜索算法 157
7．4．1 NSW算法 158
7．4．2 Kgraph算法 161
7．4．3 HNSW算法 163
7．4．4 图搜索算法实验对比 165
7．4．5 小结 165
7．5 代码实践 166
7．6 本章总结 167
7．7 参考资料 168
8 图文理解 171
8．1 概述 171
8．2 图文识别 172
8．2．1 概述 172
8．2．2 数据集和评测标准 174
8．2．3 特征融合方法 176
8．2．4 小结 182
8．3 图文搜索 182
8．3．1 概述 182
8．3．2 数据集和评测标准 184
8．3．3 Dual Attention Networks 185
8．3．4 Bottom-Up Attention 187
8．3．5 图文搜索的损失函数 189
8．3．6 小结 190
8．4 代码实践 191
8．5 本章总结 194
8．6 参考资料 194
9 阿里巴巴图像搜索识别系统 197
9．1 概述 197
9．2 背景介绍 198
9．3 图像搜索架构 200
9．3．1 类目预测模块 200
9．3．2 目标检测和特征联合学习 201
9．3．3 图像索引和检索 205
9．4 实验和结果分析 207
9．5 本章总结 210
9．6 参考资料 211

查看全部↓

前言/序言

推荐序2

基于图像内容的搜索，也就是Content Based Image Retrieval（CBIR）是一个有着悠久研究历史，需要跨越图像理解、机器学习和搜索引擎等技术的交叉研究方向。

首先很高兴看到这本围绕最新深度学习技术的图像搜索应用实践之作问世。经过6年之久的持续打磨，阿里巴巴的视觉算法团队在超大规模图像搜索方向取得了引人注目的成绩。

回顾阿里巴巴以图搜图技术的演进过程，在超大规模分类（Extreme Classification）、领域自适应的表征学习、端侧高效的检测和分割、高维向量空间索引，以及多模态表征融合等一系列课题上都取得了实质性的突破，并在实际的业务系统中发挥了重要作用。整本书围绕图像搜索技术，从底层的视觉感知、向量表征到高维向量空间索引都进行了体系性的介绍，相信本书无论对于初学图像搜索的学生，还是对于希望在图像搜索领域深耕的研发人员都将大有裨益，也期待更多优秀的成果应运而生。

本书基本按照构建一个图像搜索系统所必备的技术能力逐一展开系统性的介绍，详尽地介绍近年来具有代表性的工作并给出清晰的指引，其中涉及的核心模块有：

第一，原始图像集合的结构化理解，从单标签/多标签分类，到针对图像细粒度分类模型的建立，兼顾图像全局信息和局部细节的表征模型构建，书中对近年来具有代表性的工作做了详细的介绍。

第二，针对查询图与数据库图的有效距离度量的表征学习，系统性地介绍了基于分类识别和度量学习的特征学习方法，基本涵盖了目前业界有代表性的工作。

第三，高维向量空间索引是图像搜索引擎所必备的核心模块，本书围绕近邻和近似近邻方法，对近几年具有代表性的工作做了细致的阐述，并且给出了不同索引方法在系统建设层面的优缺点，供研发人员参考。

第四，构建一个高价值图像搜索系统所要解决的一个问题是，如何能够从图中捕捉和匹配用户兴趣点，这背后需要进一步深化对图像内容细节的理解。毋庸置疑，图像检测和分割技术是不可或缺的能力，是促进图像搜索系统实现交互智能的关键组成部分。本书系统介绍了近年来检测和分割技术方向的最新进展。

第五，在图文理解章节，介绍了多模态领域中图像搜索系统的一些学术和工业界有代表性的工作，起到抛砖引玉的作用。在视频为主流消费内容的时代，多模态领域的研究是一个重要的方向。有理由相信，未来会有大量工作围绕如何突破多模态融合、多模态映射、多模态对齐、多模态表征以及多模态学习这五个关键课题展开。

图像/视频搜索虽然是一个有很长研究历史的技术方向，但仍然有很多值得我们思考和挑战的问题，比如如何构建任意物体的实例搜索能力，如何解决搜索结果的可解释性（Scene Graph Understanding），如何解决多模态交互、多模态匹配和多模态排序，如何在系统层面解决索引表征模型的低成本构建和更新，这些都有待同人持续地研究并在实际应用领域开花结果。

徐盈辉，阿里巴巴集团研究员，达摩院机器智能技术视觉技术负责人

序

近些年，随着深度学习技术的发展，以及GPU和云计算等运算力的增强，计算机视觉技术逐渐进入实用阶段。无论是在电商、安防、娱乐，还是在医疗、自动驾驶等领域，计算机视觉技术都扮演着重要的角色。计算机视觉技术是一个很广的题目，涵盖图像搜索和识别、视频理解、三维视觉等领域。图像搜索和识别是计算机视觉里一个非常重要且基础的题目。在深度学习的推动下，图像搜索和识别的精度和效率都有了极大提升，使其不仅在学术圈非常火热，在工业界也引人注目。

在阿里巴巴广阔的商业和数据生态的发展中，图像搜索和识别的技术研发与商业化落地一直密不可分。比如拍立淘利用图像搜索和识别技术，帮助淘宝、天猫、AliExpress、Lazada等电商App的用户在移动端通过拍照就能找到相同或相似的商品，从而方便购物；比如在线下新零售领域，阿里巴巴研发了人的追踪和空间定位、货架商品SKU识别等技术，以推动商场、超市、酒店的人—货—场数字化，并在此基础上做进一步的商业分析。在安防领域，阿里巴巴研发了人和车辆的搜索和识别等技术，帮助识别城市交通事故、判断人流轨迹以及汇总交通数据样本等。

2014年初我加入阿里巴巴。两个月之后，阿里巴巴图像搜索和识别产品拍立淘启动，我非常有幸成为算法和项目负责人，见证了拍立淘从诞生到发展的过程。从拍立淘2014年首次上线开始，我们不断打磨产品/工程/算法，以给用户提供更精准和更高品质的搜索结果，至今，它已经成为每天的独立访客数超过两千万的应用。对于拍立淘，我们从第一天就使用深度学习技术来进行算法研发和系统设计。这些年，随着拍立淘业务的发展，自己和团队也在基于深度学习的图像搜索和识别领域不断学习、积累和创新。

相比2014年初，现在学习技术的条件好了很多。arxiv.org和各个学术会议上层出不穷的论文、深度学习的多种开源框架，以及开源社区上的各种代码，都极大地降低了技术学习和研发的成本。但也因为现在是一个知识大爆炸的时代，初学者会感觉无从下手。仅CVPR2019就收录了1294篇论文，如果每天看3篇，全部看完也需要大概一年多的时间。丰富的信息在提供便利的同时，给信息的筛选和迅速掌握带来了一些困难。

当电子工业出版社的刘皎编辑联系我写一本图像搜索和识别的书时，“回归基础”四个字首先浮现在我的脑海。本书对构成图像搜索和识别系统的各个算法基础模块做了介绍，并在最后一章以拍立淘为例说明了各个模块是怎样一起工作的。对于每个算法模块，本书不仅深入浅出地解释算法的工作原理，还对算法背后的演进机理和不同方法的特点进行了说明，在第2至第8章最后均提供了经典算法的PyTorch代码和相关参考资料。因此，本书既适合图像搜索和识别领域的初学者，也适合在某个单一任务方面有经验但是想扩充知识面的读者。

本书的写作过程耗时一年，在这期间拍立淘的技术和业务都取得了不错的增长。感谢公司对我写书的支持，感谢拍立淘算法团队在技术讨论中不断帮助我提升技术水平。感谢谢晨伟、赵黎明、赵康、张严浩、张迎亚、王彬、郑赟在本书写作和修改过程中的帮助。感谢我的父母、爱人和女儿一直以来的支持。

当下的计算机视觉技术无疑是AI浪潮中火热的题目，广受关注。视觉技术的渗透，既可能改造传统商业、带来新的商业机会，也可能创造全新的商业需求和市场。好的视觉技术不仅需要有好的方法指引，还需要在实际场景中形成数据闭环，并不断打磨。未来的计算机视觉技术一定是理论探索和数据实践的共同推进。希望本书能抛砖引玉，给学术界和工业界提供一些输入，从而共同推进计算机视觉技术的发展。学海无涯，个人的知识有限，书中如有疏漏，还请各位读者见谅和指正。

潘攀（启磐）

阿里巴巴集团资深算法专家

2020年6月于北京