机器学习算法可分为四大类:

一、监督学习

二分类多分类标量回归问题都属于监督学习。即给定一组样本(样本通常需要人工进行标注),通过这组样本的学习,当输入未标注的数据时会自动映射到已知目标(人工标注)。监督学习还包括几种除分类回归外的任务:

1.序列生成:

给定一张图像,预测出描述该图像的文字。

2.语法树预测:

给定一个句子,预测其分解生成的语法树。

3.目标检测:

给定一张图像,在图像中特定的目标(一个或多个)周围画一个边界框,并识别框内目标类别(分类问题),给出边界框的坐标(回归问题)。

4.图像分割:

给定一张图像,在特定物体上画一个像素级的mask。

二、无监督学习

无监督学习就是在没有目标的情况下寻找输入数据的规律,其目的是将数据可视化、压缩、去噪或能更好的理解数据间的相关性。它是解决监督学习前的一个必要步骤。降维聚类都属于无监督学习方法。

三、自监督学习

自监督学习是监督的学习的一个特例。它是没有人工标注的监督学习,但是是有标签的(从输入数据中生成)。

自编码器就是自监督学习的例子,它生成的目标就是未经修改的输入。

四、强化学习

在强化学习中,智能体接受有关其环境的信息,并学会选择使某种奖励最大化的行动。

前文中看到许多分类和回归用到的专业术语,在机器学习中有明确定义:

1.样本/输入:进入模型的数据。

2.预测/输出:从模型出来的结果。

3.目标:真实值,对于外部数据源(非样本数据),我们的模型理应能够预测出目标。

4.预测误差/损失值:模型预测与目标之间的距离。

5.类别:分类问题中供选择的一组标签。

6.标签:分类问题中类别标注的具体例子。如一个图像被标注为某个类别,那么这个类别就是这个图像的标签。

7.真值/标注:数据集的所有目标,通常人工收集。

8.二分类:一种分类任务,每个输入样本都应该被划分到两个互斥的类别中。

9.多分类:一种分类任务,每个输入样本都应该被划分到两个以上的类别中。

10.多标签分类:一种分类任务,每个输入样本都可以分配多个标签。如一副图中有几个类别,那么就有几个类别的标签。

11.标量回归:目标是连续标量值的任务。

12.向量回归:目标是一组连续值(一个连续向量)的任务。如果对多个值(如图像边界框的坐标)进行回归,那就是向量回归。

13.小批量/批量:模型同时处理的一小部分样本(8-128)。样本数通常取2的幂这样便于CPU上内存的分配。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐