知乎盐选 | 3.1 计算机视觉基本概念 - 程序猿·D·安宇雨 DeepMind

知乎盐选 | 3.1 计算机视觉基本概念

安宇雨 - 随手采集
2024-02-29 15:52:41
随手采集
0000-未整理-等待研究

3.1 计算机视觉基本概念

3.1.1 计算机视觉任务简介

计算机视觉（Computer Vision，CV）是一门研究如何从视觉信号（如图片、视频等）获得信息的学科。从理论角度说，计算机视觉是一门研究如何从图像来重建出图像描述的物体性质，比如，形状、光照和颜色分布的学科。从工程角度说，计算机视觉主要研究如何使用算法模拟人类的视觉系统，从而自动完成人类通过视觉完成的一些工作。由于人类生理构造的复杂性，如何构造出计算机算法来模拟人类的视觉，并从视觉图像中提取信息一直是一个非常具有挑战性的课题。而视觉环境的复杂性也加剧了这个课题研究的难度，因为视觉信号中表现的内容往往是从不同的角度、不同的光照环境，以及不同的相对位置上呈现的，如何在这样复杂的条件下提取目标的信息往往是一件非常困难的工作。

计算机视觉可以被广泛应用于多个现实世界领域24，包括光学字符识别（Optical Character Recognition，OCR），即从图片中提取文本和数字的信息；机器检测（Machine Inspection），即通过图像信息来检测机器零件是否有问题，比如裂纹和变形等；零售（Retail），通过机器自动识别零售商品；3D 建模（3D Model Building），通过多张图片来重建三维物体的形状，比如通过航空图片建立地面上建筑物的形状；医学影像（Medical Imaging），通过一系列不同角度的图像来建立三维的医学结构；自动驾驶安全（Automotive Safety），通过图像检测行人和障碍物等，从而辅助自动驾驶汽车绕过障碍物；匹配移动（Match Move），匹配目标图像，然后让摄像头根据目标的移动随之移动；动作捕捉（Motion Capture），使用一些特殊的标记来捕捉演员的运动过程，从而方便动画的制作；安保监视（Surveillance），对于特定安全区域的监视，检查建筑物的入侵者和交通繁忙区域等；指纹和生物识别（Fingerprint recognition and biometric），通过指纹的图片来比对用户的身份。

以上任务或多或少涉及了计算机视觉的一些基础任务，包括物体分类（Object Classification），即给定一张图片，粗略地给出这张图片主要是描述什么物体的；物体识别（Object Identification），即给定一张图片，识别出图片中所有物体的类型；物体检测（Object Detection），即给定一张图片，识别出图片中物体在图片中的位置，并给出物体的具体类型；关键点检测（Keypoints Detection），给定一张图片，检测出图片中关键点的位置；物体分割（Object Segmentation），给定一张图片，识别出图片中的每一个像素归属于什么物体。

3.1.2 基础图像变换操作

人们对于计算机视觉最开始的研究是从图像处理的研究开始的。为了能够在图像中提取信息，人们从图像的变换出发，对图像使用一系列的变换函数，从而生成新的一幅图像，而新的图像和原来的图像相比，更明显地呈现了某些（可能隐含）信息。从这个角度来说，这些图像变换的过程其实是一个特征提取的过程。通过对图像做一定的变换，得到了一个新的图像，这个图像能够反映出原始图像的某方面信息。最简单的图像变换是基于单个像素的变换，即通过对图像的每个像素值都做一个函数变换，得到新的图像。比较常用的像素变换是伽马校正（Gamma Correction），如式（3.1）所示，其中α和γ是常数，v和v′分别为变换前和变换后的像素值。

加载中...

在α=1 的情况下，加载中...、1、2、3 的图像如图 3.1 所示。这里像素的值已经被归一化到 0～1 之间。在前面章节已经看到，像素值的大小意味着图像的亮度（Brightness），而从图 3.1 的对比可以得到，当γ＞1 的时候，γ越大，意味着图像在高亮度区域的变化会被放大，低亮度区域的变化将会被缩小，从而增加了高亮度区域细节，减少了低亮度区域的细节；反之，当γ＜1 的时候，γ越小，则低亮度区域的细节增加，高亮度区域的细节减少。具体的图像处理结果可以参考图 3.2。可以看到，不同的伽马校正最后能产生不同亮度对比的图片。除了最简单的伽马校正，其他像素变换的例子包括直方图的均衡（Histogram Equalization）等，有兴趣的读者可以参考相关资料。