机器学习中，特征值通常相差比较巨大，不同维度的特征值相差巨大，导致部分特征影响微乎其微，用来做训练效

即标准差）\n\n3特征标准化方法选择。\n\n5.1 无监督分箱\n\n1)等距分箱\n\n特征的取值范围等间隔分割，从最小值到最大值之间，均分N等份，如果最小值和最大值分别为A、B，则每个区间的长度为W=(B-A)/N，则区间的边界为A+W，A+2W，A+3W，...，A+(N-1)W\n\n该方法对异常值比较敏感，比如远大于正常范围的数值会影响区间的划分。

送涂图

897人浏览 · 2023-03-30 21:11:13

送涂图 · 2023-03-30 21:11:13 发布

机器学习中，特征值通常相差比较巨大，不同维度的特征值相差巨大，导致部分特征影响微乎其微，用来做训练效果不好。\n\n 举个例子，工作年数和工资收入作为特征值，来构建预测模型。\n\n 工作年数一般比较小 1-10 ，工资收入都是3000-100 0000 不等。从数值来看，年份和工资相比数值太小，对整个模型的影响基本上可以忽略。 \n\n 因此，我们需要对特征值进行缩放，已规避数值差异带来的影响。\n\n1 特征缩放：线性归一化（min-max normalization)\n\n Xnew = x - min(x)/ max(x)-min(x)\n\n 也称最大最小值归一化。计算公式如下。\n\n \n\n 2 标准差归一化 ( Z-score normalization)\n\n Xnew = x - mean(x) / std(x) [均值标准差】\n\n\n\n\n\n标准差std(x) = 方差的算术平方根。（方差计算的是数据平方，个体数据相差值会放大，所以开方求平方根可以缩小换算回来。即标准差）\n\n3 特征标准化方法选择。\n\n 具体哪一种标准化方法比较好，依据实际效果来。 \n\n5 特征值离散化\n\n 一般在搭建机器学习分类模型时，需要对连续型的特征进行离散化，也就是分箱。\n\n 5.1 无监督分箱\n\n 1) 等距分箱\n\n 特征的取值范围等间隔分割，从最小值到最大值之间，均分N等份，如果最小值和最大值分别为A、B，则每个区间的长度为W=(B-A)/N，则区间的边界为A+W，A+2W，A+3W，...， A+(N-1)W\n\n 该方法对异常值比较敏感，比如远大于正常范围的数值会影响区间的划分。\n\n 2）等频分箱\n\n 每个区间包含大致相等的实例数量。比如说 N=10 ,每个区间应该包含大约10%的实例。\n\n 5.2 有监督分箱\n\n 卡方分箱、最优分箱等。 \n\n TODO \n\n 举例：年龄特征（21 22 23 21 24 25 22 23 25 24 21 26 28 30）\n\n X\u003C=22 ==> X = 1\n\n 22 \u003C X \u003C=24 ==> X =2\n\n X > 24 ==> X =3\n\n6 类别特征分类编码 one-hot编码\n\n 在机器学习中，我们常用到分类。比如经典的手写 1-9 数值分类识别。如果分类特征按， 1 ，2， 3 ...9来分类的话，会把这些数值明显差异大小有别带入到模型中。实际上只是一个分类，没有大小。