数据扩充

垂直镜像对称(mirroring on the vertical axis)

在这里插入图片描述

随机裁剪(Random Cropping)

在这里插入图片描述

色彩转换在这里插入图片描述

目标定位(Object Localization)

图片分类:算法遍历判断其中的对象是不是汽车。
定位分类:不仅需要判断出物体,还需要在图片中标记出它的位置。
在这里插入图片描述
图片分类问题:输入一张图片到多层卷积神经网络后输出一个特征向量,并反馈给softmaxsoftmaxsoftmax单元来预测图片类型(例如:汽车、人、背景等)。
定位分类问题:则要在此基础上输出一个边界框,其信息为bxb_xbxbyb_yby(边框中心点坐标)、bhb_hbh(边框高度)、bwb_wbw(边框宽度)。

特征点检测

批量添加输出单元,用以输出要识别的各个特征点的(X,Y)坐标值

目标检测

基于滑动窗口的目标检测算法在这里插入图片描述
首先创建一个标签训练集(X,Y),然后将其输入到卷积神经网络中,输出0(无汽车)或1(有汽车),训练完这个卷积网络后,利用滑动窗口来目标检测,思路如下:以固定步幅度滑动窗口,遍历图像的每个区域,把这些剪切后的小图像输入卷积网络,对每个位置按0或1进行分类。
在这里插入图片描述
卷积的滑动窗口实现
将全连接层转换为卷积层,转换的卷积层=滑动窗口 + 全连接的作用,一次性所有滑动窗口进行计算得出输出结果。
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

Bounding Box预测

YOLO(you only look once):你只看一次。
对于训练集图像中的每个对象,根据对象中点位置来分配到对应的格子中。
IoU衡量两个边界框重叠的相对大小。

非极大抑制

在对物体检查时,一个物体对应很多方格时,会对物体输出许多预测框。此时选取那个有效的框就显得很关键了。首先选择概率预测最大的框,非极大抑制就会审视剩下的矩形框,最大的边界框分别于周围的框有高度重叠的就舍去。只输出概率最大的框。
在这里插入图片描述

Anchor Boxes

锚框是为了处理两个对象出现在同一个格子的情况,选取与锚框交并比高的边界框,能够较好的输出预测框。

候选区域

R-CNN算法:带区域的卷积网络。
Fast R-CNN算法:采用滑动窗口进行卷积计算。
在少数窗口上运行卷积网络分类器,选出候选区域的方法是运行图像分割算法,分割算法中得到相应的色块,并在其色块上放置边界框后跑分类器。
在这里插入图片描述

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐