目录

一、引言

二、什么是计算机视觉

三、发展现状

四、计算机视觉用途

五、相关学科

六、计算机视觉的经典问题

七、总结


一、引言

计算机视觉(Computer Vision,CV)主要研究如何用图像采集设备和计算机软件代替人眼对物体进行分类识别、目标跟踪和视觉分析等应用。深度学习则源自经典的神经网络构架,属于机器学习领域,它通过不同形式的神经网络,结合视觉大数据的大规模存量与不断产生的增量进行训练,自动提取细粒度的特征并组合粗粒度的特征,形成抽象化的视觉描述,目前在视觉分析方面取得了很大的进步,是当前人工智能爆发性发展的内核驱动。

二、什么是计算机视觉

计算机视觉是一门研究如何使机器 “看” 的科学,明白地说,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量的机器视觉,并进一步做图形处理,用计算机处理成为更适合人眼观察或传送给仪器检测的图像。

作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取 “信息” 的人工智能系统。这里所指的信息是指可以用来帮助做 “决定” 的信息。因为感知可以看作是从感官信号中提取信息,所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中 “感知” 的科学。

计算机视觉同样可以被看作是生物视觉的一个补充。一方面,在生物视觉领域中,人类和各种动物的视觉都得到了研究,从而建立了这些视觉系统。另一方面,在计算机视觉中,靠软件和硬件实现的人工智能系统得到了研究与描述。生物视觉与计算机视觉进行的学科间交流为彼此都带来了巨大价值。

计算机视觉包含如下一些分支:画面重建,事件监测,目标跟踪,目标识别,机器学习,索引建立,图像恢复等。

视觉是各个应用领域,如制造业、检验、文档分析、医疗诊断和军事等领域中各种智能自主系统中不可分割的一部分。计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。作为一门学科,计算机视觉开始于 20 世纪 60 年代初,但在计算机视觉的基本研究中的许多重要进展是在 20 世纪 80 年代取得的。现在计算机视觉已成为一门不同于人工智能、图像处理、模式识别等相关领域的成熟学科。计算机视觉与人类视觉密切相关,对人类视觉有一个正确的认识将对计算机视觉的研究非常有益。

三、发展现状

20 世纪 70 年代后期,人们已开始掌握部分解决具体计算机视觉任务的方法,可惜这些方法通常都仅适用于一群狭隘的目标(面孔、指纹、文字等),因而无法被广泛地应用于不同场合。

对这些方法的应用通常作为某些解决复杂问题的大规模系统的一个组成部分(例如,医学图像的处理,工业制造中的质量控制与测量)。在计算机视觉的大多数实际应用中,计算机被预设为解决特定的任务,然而基于机器学习的方法日渐普及,一旦机器学习的研究进一步发展,未来 “泛用型” 的计算机视觉应用或许可以成真。

人工智能所研究的一个主要问题是:如何让系统具备 “计划” 和 “决策能力”,从而使之完成特定的技术动作(例如,移动一个机器人通过某种特定环境)。这一问题便与计算机视觉问题息息相关。在这里,计算机视觉系统作为一个感知器,为决策提供信息。另外一些研究方向包括模式识别和机器学习(这也隶属于人工智能领域,但与计算机视觉有着重要联系),也由此,计算机视觉时常被看作人工智能与计算机科学的一个分支。

物理是与计算机视觉有着重要联系的另一领域。

计算机视觉关注的目标在于充分理解电磁波 —— 主要是可见光与红外线部分,遇到物体表面被反射所形成的图像,而这一过程便是基于光学物理和固态物理,一些尖端的图像感知系统甚至会应用到量子力学理论来解析影像所表示的真实世界。同时,物理学中的很多测量难题也可以通过计算机视觉得到解决。由此,计算机视觉同样可以被看作是物理学的拓展。

另一个具有重要意义的领域是神经生物学,尤其是其中的生物视觉系统的部分。

在 20 世纪中,人类对各种动物的眼睛、神经元以及与视觉刺激相关的脑部组织都进行了广泛研究,这些研究得出了一些有关 “天然的” 视觉系统如何运作的描述,这也形成了计算机视觉中的一个子领域 —— 人们试图建立人工系统,使之在不同的复杂程度上模拟生物的视觉运作。同时在计算机视觉领域中,一些基于机器学习的方法也参考了部分生物机制。

计算机视觉的另一个相关领域是信号处理。很多有关单元变量信号的处理方法,尤其对是时变信号的处理,都可以很自然地被扩展为计算机视觉中对二元变量信号或者多元变量信号的处理方法。这类方法的一个主要特征,便是其非线性以及图像信息的多维性,在信号处理学中形成了一个特殊的研究方向。

除了上面提到的领域,很多研究课题同样可被当作纯粹的数学问题。例如,计算机视觉中的很多问题,其理论基础便是统计学、最优化理论以及几何学。

四、计算机视觉用途

人类正在进入信息时代,计算机将越来越广泛地进入几乎所有领域。一方面是更多未经计算机专业训练的人也需要应用计算机;另一方面是计算机的功能越来越强,使用方法越来越复杂。人可通过视觉、听觉和语言与外界交换信息,并且可用不同的方式表示相同的含义,而目前的计算机却要求严格按照各种程序语言来编写程序,只有这样计算机才能运行。

智能计算机不但使计算机更便于为人们所使用,同时如果用这样的计算机来控制各种自动化装置特别是智能机器人,就可以使这些自动化系统和智能机器人具有适应环境和自主做出决策的能力。

计算机视觉就是用各种成像系统代替视觉器官作为输入敏感手段,计算机视觉的最终研究目标就是使计算机能像人那样通过视觉观察和理解世界,具有自主适应环境的能力,但要经过长期的努力才能达到的目标。因此,在实现最终目标以前,人们努力的中期目标是建立一种视觉系统,这个系统能依据视觉敏感和反馈的某种程度的智能完成一定的任务。计算机视觉可以而且应该根据计算机系统的特点来进行视觉信息的处理。但是,人类视觉系统是迄今为止人们所知道的功能最强大和完善的视觉系统。

五、相关学科

为了清晰起见,我们对一些与计算机视觉有关的学科研究目标和方法加以归纳。

  1. 图像处理:图像处理可通过处理使输出图像有较高的信噪比,或通过增强处理突出图像的细节,以便于操作员的检验。在计算机视觉研究中经常利用图像处理技术进行预处理和特征抽取。
  2. 模式识别(图像识别):模式识别技术根据从图像抽取的统计特性或结构信息,把图像分成预定的类别。例如,文字识别或指纹识别。在计算机视觉中模式识别技术经常用于对图像中的某些部分,例如,分割区域的识别和分类。
  3. 图像理解(景物分析):在人工智能视觉研究的初期经常使用景物分析这个术语,以强调二维图像与三维景物之间的区别。图像理解除了需要复杂的图像处理以外,还需要具有关于景物成像的物理规律的知识以及与景物内容有关的知识。在建立计算机视觉系统时需要用到上述学科中的有关技术,但计算机视觉研究的内容要比这些学科更为广泛。计算机视觉的研究与人类视觉的研究密切相关。为实现建立与人的视觉系统相类似的通用计算机视觉系统的目标需要建立人类视觉的计算机理论。

六、计算机视觉的经典问题

几乎在每个计算机视觉技术的具体应用都要解决一系列相同的问题。

  1. 识别:计算机视觉、图像处理和机器视觉所共有的经典问题便是判定一组图像数据中是否包含某个特定的物体、图像特征或运动状态。这一问题通常可以通过机器自动解决,但是到目前为止,还没有某种单一的方法能够广泛地对各种情况进行判定:在任意环境中识别任意物体。现有技术能够只能够很好地解决特定目标的识别,比如简单几何图形识别、人脸识别、印刷或手写文件识别或者车辆识别。而且这些识别需要在特定的环境中,具有指定的光照、背景和目标姿态要求。

  2. 运动:基于序列图像的对物体运动的监测包含多种类型,如自体运动、图像跟踪。

  3. 场景重建:给定一个场景的两幅或多幅图像或者一段录像,场景重建寻求为该场景建立一个计算机模型 / 三维模型。最简单的情况便是生成一组三维空间中的点。更复杂的情况下会建立起完整的三维表面模型。

  4. 图像恢复:图像恢复的目标在于移除图像中的噪声,例如仪器噪声、模糊等。

七、总结

计算机视觉(Computer Vision,CV)作为人工智能领域的核心分支,其本质目标是构建一套 “机器视觉系统”,让计算机能够像人类视觉系统一样,从图像或视频数据中感知、理解并解读视觉信息—— 而非仅仅 “捕捉” 像素。它通过图像采集设备(如工业高清相机、消费级摄像头、无人机航拍模组、医疗影像设备(CT、MRI、超声仪)、自动驾驶激光雷达(LiDAR)与摄像头融合设备等)获取视觉数据,再借助计算机软件的算法逻辑,完成对物体的分类识别、目标跟踪、场景分割、视觉分析等复杂任务,最终实现 “用机器替代人眼” 在重复性、高精度或危险场景下的视觉判断。

从技术应用维度看,计算机视觉的落地场景已渗透到生产生活的方方面面:在工业制造中,它可通过高速工业相机拍摄流水线上的零部件,自动检测表面划痕、尺寸偏差等缺陷,精度可达 0.1 毫米级别,替代传统人工质检的低效与主观误差;在智能交通领域,它能实时识别道路中的车辆、行人、交通信号灯与车道线,结合目标跟踪算法锁定特定车辆的行驶轨迹,为交通管控、违章识别与自动驾驶的环境感知提供核心数据;在医疗健康领域,它可对 CT 影像中的肺部结节、MRI 影像中的脑部肿瘤进行自动定位与良恶性初步判断,辅助医生提升诊断效率与准确性;在安防监控中,它通过人脸识别、行为分析算法,快速匹配人员身份信息,或识别 “翻越围墙”“徘徊异常” 等危险行为,构建智能安防体系。这些应用的核心逻辑,均围绕 “将视觉数据转化为可解读的语义信息” 展开,而这一过程的技术突破,离不开深度学习的赋能。

深度学习作为机器学习领域的革命性技术,其思想源自 20 世纪中期的经典神经网络构架,但与传统浅层神经网络(如仅含 1-2 个隐藏层的感知机)相比,它通过多层级的神经网络结构(通常含数十甚至上百层),突破了传统模型处理复杂数据的局限。从技术归属来看,深度学习是机器学习的一个子集,但它摒弃了传统机器学习 “人工设计特征” 的核心痛点 —— 在传统计算机视觉中,研究者需手动设计 SIFT(尺度不变特征变换)、HOG(方向梯度直方图)等特征提取算子,才能让模型识别图像中的边缘、纹理或形状;而深度学习则能通过 “数据驱动” 的方式,自动从大规模视觉数据中学习特征,实现从 “细粒度低阶特征” 到 “粗粒度高阶特征” 的层级化组合,最终形成抽象的视觉语义描述。

具体而言,深度学习在视觉任务中的特征学习逻辑具有鲜明的 “层级性”:以计算机视觉中最常用的卷积神经网络(CNN)为例,其底层网络(如第 1-3 层)会自动提取图像的细粒度低阶特征,包括像素级的边缘(如直线、曲线)、颜色通道差异、局部纹理(如织物的条纹、金属的反光);中间层网络(如第 4-8 层)会将这些低阶特征组合为中阶特征,例如物体的局部部件(如汽车的车轮、动物的耳朵、人脸的眼睛);高层网络(如第 9 层以上)则进一步将中阶特征整合为粗粒度高阶特征,对应物体的整体轮廓(如 “这是一辆轿车”“这是一只猫”)或场景语义(如 “这是城市道路”“这是医院病房”)。这种 “自动特征提取” 的能力,让深度学习能够处理传统方法难以应对的复杂视觉场景 —— 例如在杂乱背景中识别小目标(如遥感影像中的建筑物)、在遮挡场景下跟踪目标(如人群中的特定行人),其核心原因在于:大规模视觉数据(如 ImageNet 数据集含 1400 万张标注图像、COCO 数据集含 33 万张含目标框标注的图像)为网络提供了充足的 “学习样本”,而多层网络结构则确保了特征的抽象能力。

如今,深度学习已成为计算机视觉技术突破的 “内核驱动”,推动视觉分析能力实现跨越式提升:2012 年,AlexNet(深度卷积神经网络)在 ImageNet 图像分类竞赛中,将 top-5 错误率从传统方法的 26% 降至 15%,标志着深度学习正式开启视觉智能的新时代;此后,目标检测领域从 “两阶段” 的 R-CNN 系列(如 Fast R-CNN、Faster R-CNN)发展到 “单阶段” 的 YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector),实现了 “精度与速度” 的平衡,让实时目标检测(如每秒 30 帧以上)在嵌入式设备上落地;图像分割领域,FCN(全卷积网络)首次实现像素级的语义分割,Mask R-CNN 则进一步结合目标检测与分割,能精准分割出图像中每个目标的像素区域(如区分人群中的每一个人);近年来,视觉 Transformer(ViT)的出现,通过 “注意力机制” 捕捉图像的全局上下文信息,在图像分类、目标检测等任务中超越传统 CNN,成为新一代视觉模型的核心架构。

这些技术进步不仅让计算机视觉的 “理解能力” 逼近甚至超越人类,更成为人工智能爆发性发展的关键支撑:自动驾驶的 L2/L3 级别功能,依赖深度学习驱动的视觉系统实时识别障碍物、规划行驶路径;智能机器人的 “视觉导航”,通过深度学习实现对环境的三维重建与障碍物规避;元宇宙中的 “数字人形象生成”,借助深度学习的图像生成模型(如 StyleGAN)构建高逼真度的虚拟视觉资产。可以说,计算机视觉是 “机器感知世界的眼睛”,而深度学习则是 “让这只眼睛具备理解能力的大脑”—— 二者的深度融合,正持续推动人工智能从 “感知智能” 向 “认知智能” 演进,为更多领域的智能化升级提供核心动力。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐