opencv（3）-图像基本操作-算法运算、性能衡量、技术提升

大神之路@CV

369人浏览 · 2022-09-09 10:00:18

大神之路@CV · 2022-09-09 10:00:18 发布

1. 图像基本操作

目标
学会： - 访问像素值并修改它们 - 访问图像属性 - 设置感兴趣区域(ROI) - 分割和合并图像

本节中的几乎所有操作都主要与Numpy相关，而不是与OpenCV相关。要使用OpenCV编写更好的优化代码，需要Numpy的丰富知识。

（由于大多数示例都是单行代码，因此示例将在Python终端中显示）

访问和修改像素值
让我们先加载彩色图像：

>>> import numpy as np
>>> import cv2 as cv
>>> img = cv.imread('messi5.jpg')

你可以通过行和列坐标来访问像素值。对于 BGR 图像，它返回一个由蓝色、绿色和红色值组成的数组。对于灰度图像，只返回相应的灰度。

>>> px = img[100,100]
>>> print( px )
[157 166 200]

仅访问蓝色像素

>>> blue = img[100,100,0]
>>> print( blue )
157

你可以用相同的方式修改像素值。

>>> img[100,100] = [255,255,255]
>>> print( img[100,100] )
[255 255 255]

警告

Numpy是用于快速数组计算的优化库。因此，简单地访问每个像素值并对其进行修改将非常缓慢，因此不建议使用。

注意上面的方法通常用于选择数组的区域，例如前5行和后3列。对于单个像素访问，Numpy数组方法array.item()和array.itemset())被认为更好，但是它们始终返回标量。如果要访问所有B，G，R值，则需要分别调用所有的array.item()。

更好的像素访问和编辑方法：

访问 RED 值

>>> img.item(10,10,2)
59

修改 RED 值

>>> img.itemset((10,10,2),100)
>>> img.item(10,10,2)
100

访问图像属性
图像属性包括行数，列数和通道数，图像数据类型，像素数等。

图像的形状可通过img.shape访问。它返回行，列和通道数的元组（如果图像是彩色的）：

>>> print( img.shape )
(342, 548, 3)

注意如果图像是灰度的，则返回的元组仅包含行数和列数，因此这是检查加载的图像是灰度还是彩色的好方法。

像素总数可通过访问img.size：

>>> print( img.size )
562248

图像数据类型通过img.dtype获得：

>>> print( img.dtype )
uint8

注意 img.dtype在调试时非常重要，因为OpenCV-Python代码中的大量错误是由无效的数据类型引起的。

图像感兴趣区域ROI
有时候，你不得不处理一些特定区域的图像。对于图像中的眼睛检测，首先对整个图像进行人脸检测。在获取人脸图像时，我们只选择人脸区域，搜索其中的眼睛，而不是搜索整个图像。它提高了准确性(因为眼睛总是在面部上:D )和性能(因为我们搜索的区域很小)。

使用Numpy索引再次获得ROI。在这里，我要选择球并将其复制到图像中的另一个区域：

>>> ball = img[280:340, 330:390]
>>> img[273:333, 100:160] = ball

检查以下结果：

拆分和合并图像通道
有时你需要分别处理图像的B，G，R通道。在这种情况下，你需要将BGR图像拆分为单个通道。在其他情况下，你可能需要将这些单独的频道加入BGR图片。你可以通过以下方式简单地做到这一点：

>>> b,g,r = cv.split(img) >>> img = cv.merge((b,g,r))

要么

>>> b = img [:, :, 0]

假设你要将所有红色像素都设置为零，则无需先拆分通道。numpy索引更快：

>>> img [:, :, 2] = 0

警告

cv.split()是一项耗时的操作（就时间而言）。因此，仅在必要时才这样做。否则请进行Numpy索引。

为图像设置边框（填充）
如果要在图像周围创建边框（如相框），则可以使用cv.copyMakeBorder()。但是它在卷积运算，零填充等方面有更多应用。此函数采用以下参数：

src - 输入图像

top，bottom，left，right 边界宽度（以相应方向上的像素数为单位）

borderType - 定义要添加哪种边框的标志。它可以是以下类型：

cv.BORDER_CONSTANT - 添加恒定的彩色边框。该值应作为下一个参数给出。
cv.BORDER_REFLECT - 边框将是边框元素的镜像，如下所示： fedcba | abcdefgh | hgfedcb
cv.BORDER_REFLECT_101或 cv.BORDER_DEFAULT与上述相同，但略有变化，例如：

 gfedcb | abcdefgh | gfedcba

cv.BORDER_REPLICATE最后一个元素被复制，像这样：

 aaaaaa | abcdefgh | hhhhhhh

cv.BORDER_WRAP难以解释，它看起来像这样：

 cdefgh | abcdefgh | abcdefg

value -边框的颜色，如果边框类型为cv.BORDER_CONSTANT

下面是一个示例代码，演示了所有这些边框类型，以便更好地理解：

import cv2 as cv
import numpy as np
from matplotlib import pyplot as plt
BLUE = [255,0,0]
img1 = cv.imread('opencv-logo.png')
replicate = cv.copyMakeBorder(img1,10,10,10,10,cv.BORDER_REPLICATE)
reflect = cv.copyMakeBorder(img1,10,10,10,10,cv.BORDER_REFLECT)
reflect101 = cv.copyMakeBorder(img1,10,10,10,10,cv.BORDER_REFLECT_101)
wrap = cv.copyMakeBorder(img1,10,10,10,10,cv.BORDER_WRAP)
constant= cv.copyMakeBorder(img1,10,10,10,10,cv.BORDER_CONSTANT,value=BLUE)
plt.subplot(231),plt.imshow(img1,'gray'),plt.title('ORIGINAL')
plt.subplot(232),plt.imshow(replicate,'gray'),plt.title('REPLICATE')
plt.subplot(233),plt.imshow(reflect,'gray'),plt.title('REFLECT')
plt.subplot(234),plt.imshow(reflect101,'gray'),plt.title('REFLECT_101')
plt.subplot(235),plt.imshow(wrap,'gray'),plt.title('WRAP')
plt.subplot(236),plt.imshow(constant,'gray'),plt.title('CONSTANT')
plt.show()

请参阅下面的结果。（图像与**matplotlib**一起显示。因此红色和蓝色通道将互换）：

在这里插入图片描述

2. 图像上的算术运算

目标
学习图像的几种算术运算，例如加法，减法，按位运算等。
您将学习以下功能：cv.add，cv.addWeighted等。
图像加法
您可以通过OpenCV函数cv.add()或仅通过numpy操作res = img1 + img2添加两个图像。两个图像应具有相同的深度和类型，或者第二个图像可以只是一个标量值。

注意 OpenCV加法和Numpy加法之间有区别。OpenCV加法是饱和运算，而Numpy加法是模运算。

例如，考虑以下示例：

>>> x = np.uint8([250])
>>> y = np.uint8([10])
>>> print( cv.add(x,y) ) # 250+10 = 260 => 255
[[255]]
>>> print( x+y )          # 250+10 = 260 % 256 = 4
[4]

当添加两个图像时，它将更加可见。OpenCV功能将提供更好的结果。因此，始终最好坚持使用OpenCV功能。

图像融合

这也是图像加法，但是对图像赋予不同的权重，以使其具有融合或透明的感觉。根据以下等式添加图像：
在这里插入图片描述
通过从 α，0到1更改，您可以在一个图像到另一个图像之间执行很酷的过渡。

在这里，我拍摄了两个图像，将它们融合在一起。第一幅图像的权重为0.7，第二幅图像的权重为0.3。cv.addWeighted()在图像上应用以下公式。

在这里插入图片描述

在这里，γ被视为零。

img1 = cv.imread('ml.png')
img2 = cv.imread('opencv-logo.png')
dst = cv.addWeighted(img1,0.7,img2,0.3,0)
cv.imshow('dst',dst)
cv.waitKey(0)
cv.destroyAllWindows()

检查以下结果：
在这里插入图片描述

按位运算
这包括按位 AND、 OR、NOT 和 XOR 操作。它们在提取图像的任何部分(我们将在后面的章节中看到)、定义和处理非矩形 ROI 等方面非常有用。下面我们将看到一个例子，如何改变一个图像的特定区域。我想把 OpenCV 的标志放在一个图像上面。如果我添加两个图像，它会改变颜色。如果我混合它，我得到一个透明的效果。但我希望它是不透明的。如果是一个矩形区域，我可以使用 ROI，就像我们在上一章中所做的那样。但是 OpenCV 的 logo 不是长方形的。所以你可以使用如下的按位操作来实现:

我想在图像上方放置OpenCV徽标。如果添加两个图像，它将改变颜色。如果混合它，我将获得透明效果。但我希望它不透明。如果是矩形区域，则可以像上一章一样使用ROI。但是OpenCV徽标不是矩形。因此，您可以按如下所示进行按位操作：

加载两张图片

img1 = cv.imread('messi5.jpg')
img2 = cv.imread('opencv-logo-white.png')

我想把logo放在左上角，所以我创建了ROI

rows,cols,channels = img2.shape
roi = img1[0:rows, 0:cols ]

现在创建logo的掩码，并同时创建其相反掩码

img2gray = cv.cvtColor(img2,cv.COLOR_BGR2GRAY)
ret, mask = cv.threshold(img2gray, 10, 255, cv.THRESH_BINARY)
mask_inv = cv.bitwise_not(mask)

现在将ROI中logo的区域涂黑

img1_bg = cv.bitwise_and(roi,roi,mask = mask_inv)

仅从logo图像中提取logo区域

img2_fg = cv.bitwise_and(img2,img2,mask = mask)

将logo放入ROI并修改主图像

dst = cv.add(img1_bg,img2_fg)
img1[0:rows, 0:cols ] = dst
cv.imshow('res',img1)
cv.waitKey(0)
cv.destroyAllWindows()

请看下面的结果。
左图显示了我们创建的mask。右图显示最终结果。为了更好地理解，显示上面代码中的所有中间映像，特别是 img1_bg 和 img2_fg。

在这里插入图片描述

练习题
使用cv.addWeighted函数在文件夹中创建图像的幻灯片放映，并在图像之间进行平滑过渡

3.性能衡量和提升技术

目标
在图像处理中，由于每秒要处理大量操作，因此必须使代码不仅提供正确的解决方案，而且还必须以最快的方式提供。因此，在本章中，你将学习

衡量代码的性能。

一些提高代码性能的技巧。

你将看到以下功能：cv.getTickCount，cv.getTickFrequency等。
除了OpenCV，Python还提供了一个模块time，这有助于衡量执行时间。另一个模块profile有助于获取有关代码的详细报告，例如代码中每个函数花费了多少时间，调用了函数的次数等。但是，如果你使用的是IPython，则所有这些功能都集成在用户友好的界面中方式。我们将看到一些重要的信息，有关更多详细信息，请查看“ **其他资源”**部分中的链接。

使用OpenCV衡量性能
cv.getTickCount函数返回从参考事件（如打开机器的那一刻）到调用此函数那一刻之间的时钟周期数。因此，如果在函数执行之前和之后调用它，则会获得用于执行函数的时钟周期数。

cv.getTickFrequency函数返回时钟周期的频率或每秒的时钟周期数。因此，要找到执行时间（以秒为单位），你可以执行以下操作：

e1 = cv.getTickCount()

你的执行代码

e2 = cv.getTickCount()
time = (e2 - e1)/ cv.getTickFrequency()

我们将通过以下示例进行演示。下面的示例应用中位数过滤，其内核的奇数范围为5到49。（不必担心结果会是什么样，这不是我们的目标）：

img1 = cv.imread('messi5.jpg')
e1 = cv.getTickCount()
for i in range(5,49,2):
    img1 = cv.medianBlur(img1,i)
e2 = cv.getTickCount()
t = (e2 - e1)/cv.getTickFrequency()
print( t )

我得到的结果是0.521107655秒

注意你可以使用时间模块执行相同的操作。代替cv.getTickCount，使用time.time()函数。然后取两次相差。

OpenCV中的默认优化
许多 OpenCV 函数都是使用 SSE2、 AVX 等进行优化的。它还包含未优化的代码。因此，如果我们的系统支持这些特性，我们就应该利用它们(几乎所有现代的处理器都支持它们)。在编译时默认启用它。因此，如果启用了 OpenCV，它将运行优化的代码，否则它将运行未优化的代码。你可以使用 cvUseoptimized 检查是否启用 / 禁用和 cvSetuseoptimized 以启用 / 禁用它。让我们看一个简单的例子。

＃检查是否启用了优化

检查是否启用了优化

In [5]: cv.useOptimized()
Out[5]: True
In [6]: %timeit res = cv.medianBlur(img,49)
10 loops, best of 3: 34.9 ms per loop

关闭它

In [7]: cv.setUseOptimized(False)
In [8]: cv.useOptimized()
Out[8]: False
In [9]: %timeit res = cv.medianBlur(img,49)
10 loops, best of 3: 64.1 ms per loop

看，优化的中值滤波比未优化的版本快2倍。如果你检查其来源，你可以看到中值滤波是 SIMD 优化。因此，你可以使用它在代码顶部启用优化(请记住，它是默认启用的)

在IPython中衡量性能
有时你可能需要比较两个类似操作的性能。IPython为你提供了一个神奇的命令计时器来执行此操作。它会多次运行代码以获得更准确的结果。同样，它们适用于测量单行代码。

例如，你知道以下哪个加法运算更好，

x = 5; y = x**2, x = 5; y = x*x, x = np.uint8([5]); y = x*x或y = np.square(x)?

我们将在IPython shell中使用timeit得到答案。

In [10]: x = 5

In [11]: %测时 y=x**2
10000000 loops, best of 3: 73 ns per loop

In [12]: %测时 y=x*x
10000000 loops, best of 3: 58.3 ns per loop

In [15]: z = np.uint8([5])

In [17]: %测时 y=z*z
1000000 loops, best of 3: 1.25 us per loop

In [19]: %测时 y=np.square(z)
1000000 loops, best of 3: 1.16 us per loop

你可以看到x = 5; y = x * x最快，比Numpy快20倍左右。如果你还考虑阵列的创建，它可能会快100倍。酷吧？（大量开发人员正在研究此问题）

注意 Python标量操作比Numpy标量操作快。因此，对于包含一两个元素的运算，Python标量比Numpy数组好。当数组大小稍大时，Numpy会占优势。

我们将再尝试一个示例。这次，我们将比较cv.countNonZero和np.count_nonzero对于同一张图片的性能。

In [35]: %测时 z = cv.countNonZero(img) 
100000 loops, best of 3: 15.8 us per loop
In [36]: %测时 z = np.count_nonzero(img) 
1000 loops, best of 3: 370 us per loop

看，OpenCV 函数比 Numpy 函数快近25倍。

注意通常，OpenCV函数比Numpy函数要快。因此，对于相同的操作，首选OpenCV功能。但是，可能会有例外，尤其是当Numpy处理视图而不是副本时。

更多IPython魔术命令
还有其他一些魔术命令可以用来测量性能，性能分析，行性能分析，内存测量等。它们都有很好的文档记录。因此，此处仅提供指向这些文档的链接。建议有兴趣的读者尝试一下。

性能优化技术
有几种技术和编码方法可以充分利用 Python 和 Numpy 的最大性能。这里只注明相关信息，并提供重要信息来源的链接。这里要注意的主要事情是，首先尝试以一种简单的方式实现算法。一旦它运行起来，分析它，找到瓶颈并优化它们。

尽量避免在Python中使用循环，尤其是双/三重循环等。它们本来就很慢。
由于Numpy和OpenCV已针对向量运算进行了优化，因此将算法/代码向量化到最大程度。
利用缓存一致性。
除非需要，否则切勿创建数组的副本。尝试改用视图。数组复制是一项昂贵的操作。
即使执行了所有这些操作后，如果你的代码仍然很慢，或者不可避免地需要使用大循环，请使用Cython等其他库来使其更快。

其他资源
Python优化技术：http://wiki.python.org/moin/PythonSpeed/PerformanceTips
Scipy讲义- 高级Numpy：http://scipy-lectures.github.io/advanced/advanced_numpy/index.html#advanced-numpy
IPython中的时序和性能分析：http://pynash.org/2013/03/06/timing-and-profiling/