机器学习中, 特征值通常相差比较巨大,  不同维度的特征值相差巨大,导致部分特征影响微乎其微,   用来做训练效果不好。\n\n       举个例子, 工作年数和 工资收入作为特征值,来构建预测模型。\n\n       工作年数 一般比较小 1-10 ,  工资收入 都是3000-100 0000 不等。  从数值来看, 年份和工资相比数值太小, 对整个模型的影响基本上可以忽略。 \n\n      因此,我们需要对特征值进行缩放, 已规避数值差异带来的影响。\n\n1 特征缩放:线性归一化 (min-max normalization)\n\n     Xnew = x - min(x)/ max(x)-min(x)\n\n    也称最大最小值归一化  。  计算公式如下。\n\n     \n\n 2  标准差归一化  ( Z-score normalization)\n\n     Xnew =  x - mean(x)  / std(x)            [均值   标准差】\n\n\n\n\n\n标准差std(x) =  方差的算术平方根 。(方差计算的是数据平方, 个体数据相差值会放大,所以开方求平方根可以缩小换算回来。 即标准差)\n\n3  特征标准化方法选择。\n\n    具体哪一种 标准化方法比较好,依据实际效果来。   \n\n5 特征值离散化\n\n     一般在搭建机器学习分类模型时,需要对连续型的特征进行离散化,也就是分箱。\n\n    5.1 无监督分箱\n\n         1)  等距分箱\n\n           特征的取值范围等间隔分割,从最小值到最大值之间,均分N等份,如果最小值和最大值分             别为A、B,则每个区间的长度为W=(B-A)/N,则区间的边界为A+W,A+2W,A+3W,...,              A+(N-1)W\n\n           该方法对异常值比较敏感,比如远大于正常范围的数值会影响区间的划分。\n\n        2)等频分箱\n\n           每个区间包含大致相等的实例数量。比如说 N=10 ,每个区间应该包含大约10%的实例。\n\n     5.2 有监督分箱\n\n           卡方分箱 、最优分箱等。 \n\n             TODO \n\n    举例:  年龄特征 (21 22  23 21 24 25  22 23  25 24  21  26  28  30)\n\n              X\u003C=22      ==>  X = 1\n\n              22 \u003C X \u003C=24 ==>  X =2\n\n              X > 24     ==>  X =3\n\n6  类别特征分类编码 one-hot编码\n\n     在机器学习中,我们常用到分类。比如 经典的 手写 1-9 数值分类识别。  如果分类特征 按, 1 ,2, 3 ...9来分类的话,   会把这些数值明显差异大小有别带入到模型中。 实际上 只是一个分类,没有大小。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐