深度学习和目标检测系列教程 1-凯发k8官方网
@author:runsen
由于毕业入了cv的坑,在内卷的条件下,我只好把别人卷走。
对象检测是一种计算机视觉技术,用于定位图像或视频中的对象实例。对象检测算法通常利用机器学习或深度学习来产生有意义的结果。当人类查看图像或视频时,我们可以在瞬间识别和定位感兴趣的对象。对象检测的目标是使用计算机复制这种智能。
比如,物体检测是高级驾驶辅助系统 (adas) 背后的一项关键技术,它使汽车能够检测行驶车道或执行行人检测以提高道路安全。对象检测在视频监控或图像检索系统等应用中也很有用。
在本文教程中,列出了必须知道的 8 种最佳目标检测算法。
fast r-cnn
用 python 和 c (caffe) 编写的 fast region-based convolutional network 方法或 fast r-cnn 是一种用于对象检测的训练算法。该算法主要修复了 r-cnn 和 sppnet 的缺点,同时提高了它们的速度和准确性。
fast r-cnn 的优点:
- 比 r-cnn、sppnet 更高的检测质量(map)
- 训练是单阶段的,使用多任务损失
- 训练可以更新所有网络层
- 特征缓存不需要磁盘存储
论文网址:http://openaccess.thecvf.com/content_iccv_2015/papers/girshick_fast_r-cnn_iccv_2015_paper.pdf
region-based convolutional neural networks (r-cnn)
基于区域的卷积网络方法 (rcnn) 是区域提议与卷积神经网络 (cnn) 的组合。r-cnn 有助于使用深度网络定位对象,并仅使用少量带注释的检测数据来训练高容量模型。它通过使用深度 convnet 对目标提议进行分类,从而实现了出色的目标检测精度。r-cnn 能够扩展到数千个对象类别,而无需求助于近似技术,包括散列。
rcnn论文:https://openaccess.thecvf.com/content_cvpr_2014/papers/girshick_rich_feature_hierarchies_2014_cvpr_paper.pdf
faster r-cnn
faster r-cnn 是一种类似于 r-cnn 的对象检测算法。该算法利用区域提议网络 (rpn),该网络以比 r-cnn 和 fast r-cnn 更具成本效益的方式与检测网络共享全图像卷积特征。region proposal network 基本上是一个全卷积网络,它同时预测对象边界以及对象每个位置的 objectness 分数,并经过端到端训练以生成高质量的区域提议,然后由 fast r 使用-cnn 用于检测物体
论文地址:http://papers.nips.cc/paper/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks.pdf
histogram of oriented gradients (hog)
定向梯度直方图 (hog) 基本上是一种特征描述符,用于检测图像处理和其他计算机视觉技术中的对象。定向梯度直方图描述符技术包括在图像的局部部分(例如检测窗口、感兴趣区域 (roi) 等)中出现的梯度定向。类似 hog 的特征的一个优点是它们的简单性,并且更容易理解它们携带的信息。
详情:https://software.intel.com/content/www/us/en/develop/documentation/ipp-dev-reference/top/volume-2-image-processing/computer-vision/feature-detection-functions/histogram-of-oriented-gradients-hog-descriptor.html
region-based fully convolutional network (r-fcn)
基于区域的全卷积网络或 r-fcn 是一种用于对象检测的基于区域的检测器。与其他应用昂贵的按区域子网络(例如 fast r-cnn 或 faster r-cnn)的基于区域的检测器不同,这种基于区域的检测器是完全卷积的,几乎所有计算都在整个图像上共享。
r-fcn 由共享的、完全卷积的架构组成,就像 fcn 的情况一样,已知它比 faster r-cnn 产生更好的结果。在该算法中,所有可学习的权重层都是卷积层,旨在将 roi 分类为对象类别和背景。
论文地址:https://arxiv.org/pdf/1605.06409.pdf
single shot detector (ssd)
single shot detector (ssd) 是一种使用单个深度神经网络检测图像中对象的方法。ssd 方法将边界框的输出空间离散为一组不同纵横比的默认框。离散化后,该方法按特征图位置进行缩放。single shot detector 网络结合了来自具有不同分辨率的多个特征图的预测,以自然地处理各种大小的对象。
ssd的优点:
- ssd 完全消除了提议生成和后续像素或特征重采样阶段,并将所有计算封装在单个网络中。
- 易于训练并直接集成到需要检测组件的系统中。
- ssd 与使用额外对象提议步骤的方法相比具有竞争性的准确性,并且在为训练和推理提供统一框架的同时速度要快得多。
论文地址:https://arxiv.org/pdf/1512.02325.pdf)
spatial pyramid pooling (spp-net)
空间金字塔池(spp-net)是一种网络结构,无论图像大小/比例如何,都可以生成固定长度的表示。据说金字塔池化对对象变形具有鲁棒性,spp-net 改进了所有基于 cnn 的图像分类方法。使用 spp-net,研究人员只需从整个图像计算一次特征图,然后将任意区域(子图像)中的特征池化以生成用于训练检测器的固定长度表示。这种方法避免了重复计算卷积特征。
论文地址:https://arxiv.org/pdf/1406.4729.pdf)ì ˜
yolo
you only look once 或 yolo 是全球研究人员使用的对象检测中的流行算法之一。据 facebook ai research 的研究人员称,yolo 的统一架构在方式上非常快。基础 yolo 模型以每秒 45 帧的速度实时处理图像,而较小版本的网络 fast yolo 每秒处理惊人的 155 帧,同时仍实现了其他实时检测器的两倍 map。当从自然图像推广到其他领域(如艺术品)时,该算法优于其他检测方法,包括 dpm 和 r-cnn。’
论文地址:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/redmon_you_only_look_cvpr_2016_paper.pdf
在完成目标检测任务,一般有两种方法:
-
创建和训练自定义对象检测器。要从头开始训练自定义对象检测器,需要设计一个网络架构来学习感兴趣对象的特征。还需要编译一组非常大的标记数据来训练 cnn。自定义对象检测器的结果可能非常显着。也就是说,需要在 cnn 中手动设置层和权重,这需要大量时间和训练数据。
-
使用预训练的对象检测器。许多使用深度学习的对象检测工作流利用迁移学习,这种方法使能够从预训练的网络开始,然后针对应用程序对其进行微调。这种方法可以提供更快的结果,因为对象检测器已经在数千甚至数百万张图像上进行了训练。
总结
以上是凯发k8官方网为你收集整理的深度学习和目标检测系列教程 1-300:什么是对象检测和常见的8 种基础目标检测算法的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇:
- 下一篇: 深度学习和目标检测系列教程 2-300: