相似度/距离是机器学习算法的最核心、最基础的概念,没有之一,几乎所有的算法都是建立在如何衡量相似度或距离的基础之上,因为模型通常是对某个目标函数进行最优化学习,而目标函数是以误差损失为基础,损失的衡量则是以相似度或距离为基础。因此,了解相似度/距离的测算方法是学习机器学习算法的基本门槛。

机器学习中相似度/距离测算方法主要分为向量相似度、集合相似度及样本分布相似度三种类型。

作为机器学习领域中度量样本之间相似度最常用的方法,向量距离(Vector Distance)具有非常重要的地位,应用背景涉及数学、统计学、信息论、计算机等领域.通常,向量距离的度量方法有很多,几乎均是建立在向量空间中的向量长度和向量方向两个维度之上.一个包含多维属性(或特征)的样本实例,通常可以看作为欧式空间中的向量.所以,样本之间的距离可以采用向量距离来测算.常见的向量距离度量方法主要包含欧式距离、马氏距离、曼哈顿距离、余弦距离、范数距离和汉明距离等.

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐