当前位置：凯发k8官方网 > 人工智能 > 目标检测 >内容正文

目标检测

深度学习和目标检测系列教程 1-凯发k8官方网

发布时间：2024/10/8 目标检测 0 豆豆

凯发k8官方网收集整理的这篇文章主要介绍了深度学习和目标检测系列教程 1-300：什么是对象检测和常见的8 种基础目标检测算法小编觉得挺不错的,现在分享给大家,帮大家做个参考.

@author：runsen

由于毕业入了cv的坑，在内卷的条件下，我只好把别人卷走。

对象检测是一种计算机视觉技术，用于定位图像或视频中的对象实例。对象检测算法通常利用机器学习或深度学习来产生有意义的结果。当人类查看图像或视频时，我们可以在瞬间识别和定位感兴趣的对象。对象检测的目标是使用计算机复制这种智能。

比如，物体检测是高级驾驶辅助系统 (adas) 背后的一项关键技术，它使汽车能够检测行驶车道或执行行人检测以提高道路安全。对象检测在视频监控或图像检索系统等应用中也很有用。

在本文教程中，列出了必须知道的 8 种最佳目标检测算法。

fast r-cnn

用 python 和 c (caffe) 编写的 fast region-based convolutional network 方法或 fast r-cnn 是一种用于对象检测的训练算法。该算法主要修复了 r-cnn 和 sppnet 的缺点，同时提高了它们的速度和准确性。

fast r-cnn 的优点：

比 r-cnn、sppnet 更高的检测质量（map）
训练是单阶段的，使用多任务损失
训练可以更新所有网络层
特征缓存不需要磁盘存储

论文网址：http://openaccess.thecvf.com/content_iccv_2015/papers/girshick_fast_r-cnn_iccv_2015_paper.pdf

region-based convolutional neural networks (r-cnn)

基于区域的卷积网络方法 (rcnn) 是区域提议与卷积神经网络 (cnn) 的组合。r-cnn 有助于使用深度网络定位对象，并仅使用少量带注释的检测数据来训练高容量模型。它通过使用深度 convnet 对目标提议进行分类，从而实现了出色的目标检测精度。r-cnn 能够扩展到数千个对象类别，而无需求助于近似技术，包括散列。

rcnn论文：https://openaccess.thecvf.com/content_cvpr_2014/papers/girshick_rich_feature_hierarchies_2014_cvpr_paper.pdf

faster r-cnn

faster r-cnn 是一种类似于 r-cnn 的对象检测算法。该算法利用区域提议网络 (rpn)，该网络以比 r-cnn 和 fast r-cnn 更具成本效益的方式与检测网络共享全图像卷积特征。region proposal network 基本上是一个全卷积网络，它同时预测对象边界以及对象每个位置的 objectness 分数，并经过端到端训练以生成高质量的区域提议，然后由 fast r 使用-cnn 用于检测物体

论文地址：http://papers.nips.cc/paper/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks.pdf

histogram of oriented gradients (hog)

定向梯度直方图 (hog) 基本上是一种特征描述符，用于检测图像处理和其他计算机视觉技术中的对象。定向梯度直方图描述符技术包括在图像的局部部分（例如检测窗口、感兴趣区域 (roi) 等）中出现的梯度定向。类似 hog 的特征的一个优点是它们的简单性，并且更容易理解它们携带的信息。

详情：https://software.intel.com/content/www/us/en/develop/documentation/ipp-dev-reference/top/volume-2-image-processing/computer-vision/feature-detection-functions/histogram-of-oriented-gradients-hog-descriptor.html

region-based fully convolutional network (r-fcn)

基于区域的全卷积网络或 r-fcn 是一种用于对象检测的基于区域的检测器。与其他应用昂贵的按区域子网络（例如 fast r-cnn 或 faster r-cnn）的基于区域的检测器不同，这种基于区域的检测器是完全卷积的，几乎所有计算都在整个图像上共享。

r-fcn 由共享的、完全卷积的架构组成，就像 fcn 的情况一样，已知它比 faster r-cnn 产生更好的结果。在该算法中，所有可学习的权重层都是卷积层，旨在将 roi 分类为对象类别和背景。

论文地址：https://arxiv.org/pdf/1605.06409.pdf

single shot detector (ssd)

single shot detector (ssd) 是一种使用单个深度神经网络检测图像中对象的方法。ssd 方法将边界框的输出空间离散为一组不同纵横比的默认框。离散化后，该方法按特征图位置进行缩放。single shot detector 网络结合了来自具有不同分辨率的多个特征图的预测，以自然地处理各种大小的对象。

ssd的优点：

ssd 完全消除了提议生成和后续像素或特征重采样阶段，并将所有计算封装在单个网络中。
易于训练并直接集成到需要检测组件的系统中。
ssd 与使用额外对象提议步骤的方法相比具有竞争性的准确性，并且在为训练和推理提供统一框架的同时速度要快得多。

论文地址：https://arxiv.org/pdf/1512.02325.pdf）

spatial pyramid pooling (spp-net)

空间金字塔池（spp-net）是一种网络结构，无论图像大小/比例如何，都可以生成固定长度的表示。据说金字塔池化对对象变形具有鲁棒性，spp-net 改进了所有基于 cnn 的图像分类方法。使用 spp-net，研究人员只需从整个图像计算一次特征图，然后将任意区域（子图像）中的特征池化以生成用于训练检测器的固定长度表示。这种方法避免了重复计算卷积特征。

论文地址：https://arxiv.org/pdf/1406.4729.pdf)ì ˜

yolo

you only look once 或 yolo 是全球研究人员使用的对象检测中的流行算法之一。据 facebook ai research 的研究人员称，yolo 的统一架构在方式上非常快。基础 yolo 模型以每秒 45 帧的速度实时处理图像，而较小版本的网络 fast yolo 每秒处理惊人的 155 帧，同时仍实现了其他实时检测器的两倍 map。当从自然图像推广到其他领域（如艺术品）时，该算法优于其他检测方法，包括 dpm 和 r-cnn。’

论文地址：https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/redmon_you_only_look_cvpr_2016_paper.pdf

在完成目标检测任务，一般有两种方法：

创建和训练自定义对象检测器。要从头开始训练自定义对象检测器，需要设计一个网络架构来学习感兴趣对象的特征。还需要编译一组非常大的标记数据来训练 cnn。自定义对象检测器的结果可能非常显着。也就是说，需要在 cnn 中手动设置层和权重，这需要大量时间和训练数据。
使用预训练的对象检测器。许多使用深度学习的对象检测工作流利用迁移学习，这种方法使能够从预训练的网络开始，然后针对应用程序对其进行微调。这种方法可以提供更快的结果，因为对象检测器已经在数千甚至数百万张图像上进行了训练。

总结

以上是凯发k8官方网为你收集整理的深度学习和目标检测系列教程 1-300：什么是对象检测和常见的8 种基础目标检测算法的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得凯发k8官方网网站内容还不错，欢迎将凯发k8官方网推荐给好友。

上一篇：
下一篇：深度学习和目标检测系列教程 2-300：