前言

作为一名人工智能训练师,您的核心任务是将业务需求转化为高性能、可落地的AI模型。YOLO (You Only Look Once) 作为当前最流行和高效的实时目标检测算法之一,是您的核心工具。


一、YOLO检测的AI训练师,需要具备以下技能?

硬技能:

数据处理能力:数据采集、清洗、管理、标注工具使用。

深度学习基础:理解CNN、目标检测原理、损失函数、评估指标。

编程能力:熟练使用Python,熟悉PyTorch/TensorFlow框架,熟悉YOLO等开源项目。

模型调优能力:超参数调整、错误分析、模型迭代。

部署知识:了解ONNX、TensorRT等一种或多种部署技术。

软技能:

meticulous 细心与耐心:尤其是在数据标注和质检阶段。

分析问题与解决问题能力:从模型失败案例中追溯到数据或训练环节的根因。

沟通协作能力:与业务方、标注员、软件开发工程师有效沟通。。

二、具体操作如下

1.图像处理

1.1

数字图像是指以数字方式存储的图像。将图像在空间上离散,量化存储每一个离散位置的信息,这样就可以得到最简单的数字图像。像素是构成数字图像的基本单位,如今张600x300像素,即横向有600个像素,纵向有300个像素。
左上角为原点(0,0)
向右为x正方向
向下为y正方向
在这里插入图片描述

1.2

根据每个像素所代表的信息可将图像分为彩色图像、灰度图像、二值图像:
彩色图像:每个像素由R、G、B三分量表示,每个通道默认取值范围0~255。
在这里插入图片描述
灰度图像:每个像素只有一个采样颜色的图像,通常显示为从最暗黑色到最亮白色的灰度,通道默认取值为0~255。
在这里插入图片描述
二值图像:每个像素点只有两种可能0代表黑色,1代表白色。
在这里插入图片描述

1.3

一幅数字图像有三个基本属性:分辨率、清晰度以及平面数量。分辨率:指每英寸图像内有多少个像素点,图像的分辨率越高,所包含的像素就越多,图像就越清晰,但同时也会增加文件占用的存储空间。
清晰度:指图像可看色度的数量,对于给定位深度为n的图像,则图像清晰度为2”,这意味着一个像素可以有个2"不同的值。平面数量:相当于组成图像的像素数组数量,例如灰度或二值图是由一个平面组成,彩色图像是由三个平面组成的。

1.4 图像二值化

图像的二值化,就是将图像上的像素点的灰度值设置为0或255,把大于某个临界灰度值的像素灰度设为灰度极大值,把小于这个值的像素灰度设为灰度极小值,从而实现二值化,也就是将整个图像呈现出明显的只有黑和白的视觉效果。
一幅图像包括目标物体、背景还有噪声,要想从多值的数字图像中直接提取出目标物体,常用的方法就是设定一个闽值T,用T将图像的数据分成两部分:大于T的像素群和小于T的像素群。

1.5 二值形态学

形态学操作就是基于形状的一系列图像处理操作,用于分析和处理离散图像。形态学一般应用于二值图像。
最基本的形态学操作:膨胀和腐蚀。注:针对图像的白色部分(高亮部分)①膨胀:原图像中的高亮部分进标膨胀,类似于领域扩张,效果图拥有比原图更大的高亮区域。
②腐蚀:原图像中的高亮部分被腐蚀,类似于领域被蚕食,效果图拥有比原图更小的高亮区域。
在这里插入图片描述

1.5.1 二值形态学

图像开运算:先腐蚀再膨胀,用来消除小的物体,平滑形状边界并且不改变其面积。可以去除小颗粒噪声,断开物体之间的粘连,用来填充物体内的小空洞,连接邻近图像闭运算:先膨胀再腐蚀的物体,连接断开的轮廓线,平滑其边界的同时不改变面积。
在这里插入图片描述

1.6 图像曝光

正确的曝光值对图像有着重要影响,曝光过度照片看起来会过亮曝光不足图片看起来会太暗。在摄像机中自动曝光模块用于调整照射到传感器上的入射光量,从而充分利用其动态范围。
曝光过程其实就是在给定的灵敏度下通过控制光圈和快门速度达到控制照射到传感器上的光量的过程。
在这里插入图片描述

1.7 图像噪声

图像噪声:存在于图像数据中的不必要的或多余的干扰信息。现实中的数字图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响,称为含噪图像或噪声图像,即图像中各种妨碍人们对其信息接受的因素都可称为图像噪声,
图像去噪:减少数字图像中噪声的过程。
去噪方法:中值滤波、高斯滤波、均值滤波、傅里叶滤波等。
在这里插入图片描述

2.图像采集

2.1 摄像头

摄像头分为二维摄像头和深度(三维)摄像头。
二维摄像头就是日常使用的摄像头,一般输出RGB图像,可以进行物品识别、人脸识别等应用。
深度摄像头(例如Kinect)可以拍摄出场景的三维点云信息,可以使用三维点云信息对环境进行三维建模。
在这里插入图片描述

2.2 云台相机采集图片(操作步骤)

①通过云台相机,拍摄所需要数量和状态的图片素材,云台相机采集图片保存的路径为

:/home/hgrobot/catkin_ws/src/pan tilt _camera/img

②在上述路径下右键压缩img文件夹,然后通过NoMachine远程桌面软件控制巡检服务机器人后,将img压缩后的压缩文件拖动到主机的桌面文件夹下。
在这里插入图片描述

2.3 云台相机采集图片(操作步骤)

③将拷贝过来的img压缩文件进行解压,解压出来的文件图片就是后续进行模型训练的原图片

2.4 图像重命名(操作步骤)

④进入下述路径:/home/hg/Desktop/yolov8/data set,打开rename.py文件,修改重命名图像文件夹路径、命名方式及起始值等参数。
在这里插入图片描述

⑤完成修改并保存,在该路径下打开终端,输入并运行以下指令$ python3 rename.py,对images文件夹下的图片进行重命名,如以0000开头按照顺序重命名全部图像
在这里插入图片描述


Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐