什么是计算机视觉?
如果突然有人问你,计算机视觉是什么?肯定会脑袋一片空白。或者你是外行,想了解一下这几个字到底什么意思。我们可以先转化一个思路,计算机视觉能干什么。简单的条形码识别人脸拍照更清晰美艳和人脸特效图像风格化物理三维空间重建物体识别自动驾驶中行人识别跟踪,车道线检测,交通标志识别充当机器人的眼睛进行抓取 等等。计算机视觉是计算机科学的一个...
如果突然有人问你,计算机视觉是什么?肯定会脑袋一片空白。或者你是外行,想了解一下这几个字到底什么意思。我们可以先转化一个思路,计算机视觉能干什么。
- 简单的条形码识别
- 人脸拍照更清晰
- 美艳和人脸特效
- 图像风格化
- 物理三维空间重建
- 物体识别
- 自动驾驶中行人识别跟踪,车道线检测,交通标志识别
- 充当机器人的眼睛进行抓取 等等。
计算机视觉是计算机科学的一个领域。我们努力指导计算机如何“看东西”,这种“看”可以是理解场景,重构3D对象,识别物体,避开障碍,帮盲人指路,这其中利用了机器学习技术,同时还利用了几何学和应用数学。
人类视觉系统和计算机视觉系统,有何区别。在计算机看来,图像其实只是一列数字,如果是颜色的,则是三列数字。这些像素本身对计算机而言,毫无意义。计算机需要进行解读,确定他们到底是什么,一般而言,解读的方式分为四种,对象识别方面的工作量非常大,比如一张照片,所有的对象都在什么位置,他们是什么,在宽泛的层面上,这个问题已经快要解决了,比方说,现在可以识别出这是一棵树,但不能判读出具体是哪种树,要实现这种程度的识别还是有些棘手的,另一个方向是物理重构,比如拍摄了一张照片某些东西的,所有对象的二位形状是什么,就算拍了全景图,他的数据仍然是二维的,但如果使用算法对这些数据进行处理,将图像之间的特征点进行匹配,就获得三维图像。配准有点像,模型跟踪或者对齐,如果你有一辆自动驾驶汽车,希望跟踪行人和车道标线,就可以采用这种方法。一个更贴近日常生活的例子,就是自拍镜头。最后是重组,非监督式学习,孩子在没人讲解的地方,他们是怎么在没人讲解的一切情况下,学着去认识这个世界呢,一直以来计算机视觉模型的训练方式,都是大量添加了标签的数据,非监督式学习的目标是。只将数据提供给计算机,然后由计算机以某种有意义的方式,对数据进行重组,,为了体验,计算机可以捡东西,背后是研究人员给他设定的规则,让他能捡起来某个特定的东西,但是计算机后来可以捡东西,用的一种隐晦的方式,计算机视觉技术,当机器人看到东西,也不会尝试识别出这是苹果,她只会使用图像来抓取东西,我们不会确切的告诉他如何处理该图像。
其实计算机研究人员也不知道计算机是如何看东西的,就像点金术和化学,先有了点金术然后有了化学,目前,我们就处于计算机视觉领域的点金术阶段,虽然有些地方在用,但我们还不太明白 。
更多推荐
所有评论(0)