【鱼眼镜头10】等距Equidistant模型的Kannala-Brandt模型【opencv的鱼眼标定使用的模型、kalibr中的 pinhole + equidistant 】

在之前的博客，说明了：为了从全向相机捕获的图像中提取有用的信息，我们需要知道光线如何从三维空间映射到二维图像平面。这就是投影模型的作用。一个准确的投影模型可以帮助我们更准确地估计场景中物体的位置、姿态和其他属性。常见的鱼眼相机基本成像模型主要有四种，它们分别是等距投影（最广泛）、等立体角投影、体视投影、正交投影。镜头的设计基本是按照上述四种投影模型而制作的，可看出鱼眼相机成像模型通用性较差。为了解

Hali_Botebie

3301人浏览 · 2024-05-27 21:59:21

Hali_Botebie · 2024-05-27 21:59:21 发布

一、源头论文

论文：A Generic Camera Model and Calibration Method for Conventional, Wide-Angle, and Fish-Eye Lenses
在这里插入图片描述

二、工程化

Kannala Brandt 模型、 opencv中的fisheye::calibrate、kalibr中的 pinhole + equidistant 都是指该模型。

opencv
- https://docs.opencv.org/4.x/db/d58/group__calib3d__fisheye.html
kalibr
- https://github.com/ethz-asl/kalibr/wiki/supported-models

三、介绍

本论文介绍了一种可以建模传统相机和鱼眼相机的通用的内参模型（radially symmetric projection model）
在这里插入图片描述

在这里插入图片描述

由于镜头的制造工艺等，并不是所有的鱼眼相机都是Radially Symmetric，因此作者又额外建模了径向畸变和切向畸变（14个参数），p9 + 14 = p23
但在各大开源工具对该模型的复现中，一般只用p9模型，并不用p23，可能是因为如今的镜头工艺比较成熟了。

四、先说：鱼眼镜头的四种投影模型

在之前的博客【鱼眼镜头1】鱼眼镜头的四种投影模型（指导镜头的设计），中央镜头综述，说明了投影模型的重要性：为了从全向相机捕获的图像中提取有用的信息，我们需要知道光线如何从三维空间映射到二维图像平面。这就是投影模型的作用。一个准确的投影模型可以帮助我们更准确地估计场景中物体的位置、姿态和其他属性。

常见的鱼眼相机基本成像模型主要有四种，它们分别是等距投影（最广泛）、等立体角投影、体视投影、正交投影。镜头的设计基本是按照上述四种投影模型而制作的。

在这里插入图片描述
Equidistant模型（等距投影模型）是一种常用的鱼眼相机投影模型。在这个模型中，图像半径rd与入射角Θ（光线与相机光轴的夹角）之间的关系是线性的，即rd = f * Θ，其中f是相机的焦距。这个模型假设在图像平面上，沿各个方向上的距离都是等比例缩放的。

对于实际的鱼眼镜头来说，由于制造和设计的限制，它们不可能完全精确地按照某个特定的投影模型来设计。因此，为了更准确地描述鱼眼相机的成像过程，需要使用更复杂的模型或近似方法。为了提高提高标定的准确性：Kannala提出了一种鱼眼相机的一般多项式近似模型。这个模型使用多项式来近似描述图像半径rd与入射角Θ之间的关系。这种方法的优点是可以更灵活地适应不同鱼眼相机的成像特性，提高标定的准确性。

总结：使用Equidistant模型可以简化鱼眼相机的成像过程，但实际的鱼眼镜头可能无法完全遵循这个模型。为了更准确地描述鱼眼相机的成像过程，可以使用更复杂的模型或近似方法，如Kannala的多项式近似模型。

五、投影过程：3D到2D投影

Kannala 的多项式近似模型：

Kannala 提出了一种更灵活的模型，用多项式来近似描述 $r d$ 和 $\Theta$ 的关系。
公式可以写成： $\cdot (\Theta + k_1 \Theta^3 + k_2 \Theta^5 + \cdots)$ ，其中 $k_1, k_2$ 是多项式系数。
奇函数和泰勒级数展开：
- $\Theta_d$ 是 $\Theta$ 的奇函数，也就是说 $\Theta_d(-\Theta) = -\Theta_d(\Theta)$ 。这是因为鱼眼相机的成像过程在光轴的两侧是对称的。
- 通过泰勒级数展开， $\Theta_d$ 可以表示成 $\Theta$ 的奇次多项式： $\Theta_d = \Theta + k_1 \Theta^3 + k_2 \Theta^5 + \cdots$ 。奇次多项式在原点附近是对称的，这与鱼眼相机的成像特性相符。

Kannala-Brandt（KB）模型是一种通用的鱼眼相机标定模型，适用于大视场角（FOV）镜头的几何畸变建模。其核心思想是将3D空间点通过非线性的角度-半径映射投影到2D图像平面。以下是一个具体的3D到2D投影过程示例及步骤说明：

1. 3D点定义

假设有一个世界坐标系下的3D点 $\mathbf{P}_w = [X_w, Y_w, Z_w]^T$ ，需通过以下步骤投影到图像平面：

转换到相机坐标系
通过相机外参（旋转矩阵 $\mathbf{R}$ 和平移向量 $\mathbf{t}$ ）将 $\mathbf{P}_w$ 转换到相机坐标系：
$\mathbf{P}_c = \mathbf{R} \mathbf{P}_w + \mathbf{t} = [X_c, Y_c, Z_c]^T$
归一化到单位球面
计算点 $\mathbf{P}_c$ 在单位球面上的投影：
$\mathbf{P}_s = \frac{\mathbf{P}_c}{\|\mathbf{P}_c\|} = [x_s, y_s, z_s]^T, \quad \|\mathbf{P}_c\| = \sqrt{X_c^2 + Y_c^2 + Z_c^2}$

2. 球面到图像平面的映射（KB模型核心）

KB模型的关键是通过角度 $\theta$ （点与光轴的夹角）的非线性函数 $r(\theta)$ 定义投影：

计算角度 $\theta$
$\theta = \arccos(z_s) = \arccos\left(\frac{Z_c}{\|\mathbf{P}_c\|}\right)$
多项式畸变模型
KB模型使用多项式展开描述 $r(\theta)$ ：
$r(\theta) = k_1 \theta + k_2 \theta^3 + k_3 \theta^5 + k_4 \theta^7 + \dots$
其中 $k_1, k_2, \dots$ 为标定参数，通常取前4项。
归一化平面到图像平面
将单位球面上的点 $x_s, y_s]$ 映射到归一化图像平面：
$\mathbf{p}_n = \frac{[x_s, y_s]^T}{\sqrt{x_s^2 + y_s^2}} \cdot r(\theta) = [u_n, v_n]^T$
（注：方向由 $x_s, y_s]$ 决定，距离由 $r(\theta)$ 决定）
添加内参变换
通过相机内参（焦距 $f_x, f_y$ 、主点 $c_x, c_y$ 、倾斜系数 $s$ ）得到最终像素坐标：

在这里插入图片描述

3. 具体数值示例

假设：

相机坐标系点 $\mathbf{P}_c = [0.2, 0.3, 0.8]^T$
KB参数： $k_1 = 1.0, k_2 = -0.1, k_3 = 0.01$
内参： $f_x = f_y = 500$ , $c_x = 320$ , $c_y = 240$ , $s = 0$

步骤计算：

归一化到单位球面：
$\|\mathbf{P}_c\| = \sqrt{0.2^2 + 0.3^2 + 0.8^2} = 0.874$
$\mathbf{P}_s = [0.229, 0.343, 0.915]^T$
计算 $\theta$ ：
$\theta = \arccos(0.915) \approx 0.414 \text{ radians}$
计算 $r(\theta)$ ：
$r(\theta) = 1.0 \cdot 0.414 - 0.1 \cdot (0.414)^3 + 0.01 \cdot (0.414)^5 \approx 0.407$
归一化平面坐标：
$\mathbf{p}_n = \frac{[0.229, 0.343]^T}{\sqrt{0.229^2 + 0.343^2}} \cdot 0.407 \approx [0.183, 0.274]^T$
像素坐标：
$\cdot 0.183 + 320 \approx 411.5 \\ v = 500 \cdot 0.274 + 240 \approx 377.0$

最终投影点： $(411.5, 377.0)$ 。

4. 关键点总结

KB模型通过角度 $\theta$ 的多项式函数建模非线性畸变，适用于鱼眼镜头。
投影过程包含：坐标系转换→单位球面归一化→角度计算→多项式畸变→内参变换。
实际应用中需通过标定获取 $k_i$ 和内参。

class SVCCalibrationSDK:
    def __init__(self, intrinsic_param, width, height):
        self.image_size = np.array([height, width])  # rows, cols
        self.world2cam = np.array(intrinsic_param["world2cam"]).reshape(-1, 1)
        self.world2cam_len = np.array(intrinsic_param["world2cam_len"])
        self.svc_rotation = np.array([[1., intrinsic_param["affine_e"]],
                                     [intrinsic_param["affine_d"], intrinsic_param["affine_c"]]])
        self.svc_translation = np.array(intrinsic_param["center"])
 
    def cam_to_pixel(self, points):
        num_points = len(points)
 
        if num_points == 0:
            return np.empty((0, 3))
        else:
            norm = np.sqrt(np.sum(points[:, 0:2] * points[:, 0:2], axis=1, keepdims=True))
            theta = np.arctan(points[:, 2:3] * (-1 / norm))
 
            poly_theta = np.power(theta, np.arange(self.world2cam_len))
            rho = (poly_theta @ self.world2cam)
 
            pixels = (points[:, 0:2] * (rho / norm)) @ self.svc_rotation + self.svc_translation
 
        return pixels

2D到3D投影

在这里插入图片描述

参考

https://zhuanlan.zhihu.com/p/532501102
https://blog.csdn.net/j879159541/article/details/125400727

技术共进，成长同行——讯飞AI开发者社区

更多推荐

认知语义学对人工智能自然语言处理深层语义分析的影响与启示

讯飞AI开发者社区

AI时代的开发者应该了解哪些技术栈？

在人工智能铺天盖地涌来的时代，在AI将要大规模替代大多数职位的明天，作为IT行业里的技术人，我们有必要了解一下AI相关的基础知识，如果你将要找工作，那么未来大概率会被问到AI相关的面试题，即使你找的工作不是直接从事AI产品开发的工作，也很有可能会被问到一些AI基础知识。下面我们就来说一下，作为非直接AI开发人员应该了解的一些AI外围开发知识，比如AI Agent智能体开发， MCP协议、Funct