人工智能通识与实践 - 计算机视觉技术
计算机视觉(Computer Vision, CV)是使用计算机及相关设备对生物视觉的一种模拟,属于人工智能中的感知智能范畴,核心是研究如何让机器具备“看”的能力——即理解图像或视频中的信息。从信息获取维度来看,人类80%的信息来自视觉,这也决定了计算机视觉在AI感知层的核心地位。
1 计算机视觉的概念
1.1 计算机视觉定义
计算机视觉(Computer Vision, CV)是使用计算机及相关设备对生物视觉的一种模拟,属于人工智能中的感知智能范畴,核心是研究如何让机器具备“看”的能力——即理解图像或视频中的信息。从信息获取维度来看,人类80%的信息来自视觉,这也决定了计算机视觉在AI感知层的核心地位。
1.2 技术与应用框架
计算机视觉的技术体系分为“基础研究-应用技术-行业场景”三层,形成完整的技术落地链路:
- 基础研究:支撑技术能力的核心任务,包括图像分类、语义分割、实例分割、目标检测、目标跟踪,是后续应用的技术基石;
- 应用技术:基于基础研究的落地能力,涵盖OCR文字识别、人脸识别、人体分析、动植物分类、3D重建、图像检索、图像生成等;
- 行业场景:技术落地的具体领域,已在交通、安防、医疗、金融、教育、制造、零售等多个行业广泛应用。
1.3 典型案例:车牌识别
车牌识别是计算机视觉在交通领域的经典落地场景,完整流程包含6个核心环节,实现从“视频信号”到“结构化结果”的全链路处理:
- 图像采集:获取含车牌的视频信号,转化为连续图像流;
- 图像预处理:优化图像质量(如降噪、增强对比度),为后续识别做准备;
- 车牌定位:从图像中精准提取车牌区域(如区分“京L·PR268”这类带分隔符的车牌);
- 字符分割:将车牌上的字符逐个分离,拆解为独立识别单元;
- 字符识别(OCR):通过字符识别技术,确定每个分割单元的具体字符;
- 结果输出:压缩图像、打包信息,最终输出“牌照号码(如京LPR268)、牌照底色(如蓝色)、识别时间、地点”等结构化数据。
2 计算机视觉的基本任务
计算机视觉的核心目标是“理解图像内容”,围绕该目标衍生出五大基本任务,分别解决“是什么”“在哪里”“如何跟踪”等关键问题。
2.1 图像分类
图像分类是计算机视觉最基础的任务,核心是让计算机判断图像中对象的类别,解决“图像中的对象是什么”的问题。其流程为:计算机观察单张图片后,预测图片所属类别并输出类别概率。
2.2 语义分割
语义分割是“像素级别的分类”,核心是将图像中具有相同语义的像素分组(如“道路”“行人”“车辆”“天空”),明确每个像素的含义。与图像分类不同,语义分割不区分同一类别的不同个体——例如同一图像中的多个行人,会被统一标注为“行人”类别,而非“行人1”“行人2”。
2.3 实例分割
实例分割是目标检测与语义分割的结合,核心是“既识别对象类别,又区分同一类别的不同个体”。其流程为:先检测图像中所有感兴趣的对象(确定对象的类别与位置),再对每个对象的像素进行单独标注——例如同一图像中的两个苹果,会被分别标注为“苹果1(像素组A)”“苹果2(像素组B)”,实现个体级别的像素区分。
2.4 目标检测
目标检测同时解决“有没有”和“在哪里”两个问题:利用图像分类技术,找出图像中所有感兴趣的对象,不仅确定对象类别,还通过矩形框标记对象在图像中的具体位置。例如在交通场景中,目标检测可同时识别“车辆(位置:图像左下区域)、行人(位置:图像中间区域)、交通灯(位置:图像右上区域)”。
2.5 目标定位与跟踪
- 目标定位:仅解决“对象在哪里”的问题,无需识别对象类别,核心是确定特定对象在图像中的位置;
- 目标跟踪:针对图像序列(视频),对运动目标进行“检测→提取→识别→跟踪”,获取目标的运动参数(如速度、轨迹)并理解其行为。目标跟踪可按“跟踪数量”(单目标跟踪、多目标跟踪)或“背景状态”(静态背景跟踪、动态背景跟踪)分类。
3 计算机视觉的技术应用
基于五大基本任务,计算机视觉衍生出四类核心应用,覆盖生活、金融、安防、医疗等多领域,实现技术落地。
3.1 人脸识别及其应用
3.1.1 技术定义与核心流程
人脸识别(又称人像识别、面部识别)是基于人脸特征信息的生物识别技术,核心流程为“采集含人脸的图像/视频流→自动检测跟踪人脸→提取人脸特征→特征匹配识别”,配套技术包括关键点检测、活体检测等。
3.1.2 核心能力
- 1:1确认:验证“你是你”,用于身份核验(如人脸登录、密码找回、人证对比);
- 1:N识别:确认“你是谁”,用于身份检索(如安防监控、VIP识别、逃犯抓捕);
- 人脸属性分析:识别性别、年龄、种族、微笑状态、美丑评分等;
- 人脸编辑:包括人脸美化(美白、唇彩调整)、贴纸添加、人脸融合等创意功能。
3.1.3 性能与应用场景
- 性能指标:在权威数据集LFW(6000对1:1验证)中,均优于人类(0.80%);
- 典型场景:
- 身份验证:高铁站/景区人脸闸机、刷脸支付、考试验证;
- 安防监控:旷视“天眼系统”(匹配在逃人员数据库,实现逃犯抓捕)、行人闯红灯抓拍(红灯时自动抓拍4张照片+15秒视频,截取违法人头像);
- 生活服务:美图修图(人脸美化)、明星脸识别。
3.1.4 关键技术:活体检测
活体检测的核心目标是“验证是活人且是本人”,防止照片、视频等虚假攻击,流程为:调起活体验证→引导用户完成指定动作(如眨眼、转头)→实时检测距离/亮度/角度→异步请求验证→输出结果。优化手段包括“文字/语音引导提升认知、位置引导提升成功率、惯性动作降低交互成本”。
3.2 人体分析及其应用
人体分析是识别图像中人体相关信息的技术,核心能力包括人体检测与追踪、关键点定位、人流量统计、属性分析、人像分割、手势识别等。其典型应用场景如下:
- 安防监控:检测打架行为、识别遗失物品;
- 智慧零售:分析顾客属性(如年龄、穿着),辅助商品推荐;
- 驾驶监测:识别驾驶员姿态(如是否疲劳驾驶);
- 体育娱乐:分析运动员动作(如通过关键点定位矫正姿势);
- 人流量统计:以俯拍视角统计人数与流动趋势,适应商场、展会等密集场景。
3.3 通用图像处理及应用
通用图像处理覆盖“识别-创意-交互”多维度,核心能力与场景包括:
- 图像识别分类:识别图像内容并输出类别概率;
- 专项识别:动物识别、植物识别、车辆检测;
- 创意功能:风格迁移(转换图像艺术风格);
- 图像问答:回答与图像内容相关的问题,例如“桌子上面有什么?”→“有一个披萨”;
- 技术支撑:百度拥有“1亿+图片、10w+标签”的训练集,支持4w类别的识别,规模10倍于公开数据集ImageNet。
3.4 光学字符识别(OCR)及其应用
3.4.1 技术定义
OCR(Optical Character Recognition)是用扫描仪等电子设备检查纸上打印的字符,通过检测暗、亮模式确定字符形状,再将形状翻译成计算机文字的技术,核心目标是让计算机“看图识字”。
3.4.2 应用场景
- 金融领域:识别身份证、驾驶证、行驶证,识别结果可直接导入Excel;
- 财务医疗领域:识别票据、化验单;
- 交通领域:识别道路标识牌,应用于百度地图等导航工具;
- 生活领域:作业帮(题目识别与解题)、百度翻译(拍照翻译、涂抹翻译、取词翻译);
- 历史应用:早在上世纪八十年代,OCR已用于美国邮政编码识别。
4 机器视觉技术与应用
4.1 机器视觉的概念
机器视觉是“用机器代替人眼做测量和判断”的技术,典型应用系统包括图像捕捉、光源系统、图像数字化模块、数字图像处理模块、智能判断决策模块、机械控制执行模块。其核心特点是“侧重工程应用”,强调实时性、高精度、高速度,对相机、镜头、光源及图像质量有极高要求——图像采集时需在“指定相机、镜头、光源”下,以固定距离拍摄产品。
4.2 计算机视觉与机器视觉的对比
对比维度 | 计算机视觉 | 机器视觉 |
---|---|---|
应用领域 | 生活领域 | 工业/产品领域 |
典型任务 | 分类、检测、分割、追踪 | 识别、检测、测量、定位 |
成像设备 | 普通相机或摄像头 | 专用相机及专用镜头 |
光源要求 | 普通光源 | 高(需调试选定专用光源) |
成像质量 | 普通 | 高(产品拍摄距离固定) |
处理速度 | 普通 | 实时、高速 |
处理精度 | 期望较高精度 | 极高精度 |
4.3 机器视觉的应用场景
- 识别:自动识别不同种类的产品(如电子元器件、机械零件、食品包装);
- 瑕疵检测:分析产品表面、形状、颜色等特征,检测瑕疵、缺陷、划痕、裂纹等问题;
- 定位:识别产品/物体的位置、方向、姿态,实现自动化定位与对位(如自动对位焊接、装配);
- 测量:测量产品/物体的尺寸、形状、角度(如通过定位零件的两个中心孔测量孔距);
- 行业分布:半导体及电子行业应用占比40%-50%,同时覆盖医药、汽车等行业。
更多推荐
所有评论(0)