【机器学习】【数据无量纲化】6.连续型变量
处理连续型特征:二值化与分段根据阈值将数据二值化(将特征值设置为0或1), 用于处理连续型变量。大于阈值的值映射为1,而小于或等于阈 值的值映射为0。默认阈值为0时,特征中所有的正值都映射到1二值化是对文本计数数据的常见操作,可以决定仅考虑某种现象的存在与否它还可以用作考虑布尔随机变量的估计器的预处理步骤(例如,使用贝叶斯 设置中的伯努利分布建模)from sklearn.preprocessin
·
处理连续型特征:二值化与分段
根据阈值将数据二值化(将特征值设置为0或1), 用于处理连续型变量。
大于阈值的值映射为1,而小于或等于阈 值的值映射为0。默认阈值为0时,特征中所有的正值都映射到1
二值化是对文本计数数据的常见操作,可以决定仅考虑某种现象的存在与否
它还可以用作考虑布尔随机变量的估计器的预处理步骤(例如,使用贝叶斯 设置中的伯努利分布建模)
from sklearn.preprocessing import Binarizer
X = data_2.iloc[:,0].values.reshape(-1,1) #类为特征专用,所以不能使用一维数组
transformer = Binarizer(threshold=30).fit_transform(X)
data_2.iloc[:,0] = transformer
data_2.head()
Age | Sex | Embarked | Survived | |
---|---|---|---|---|
0 | 0.0 | male | S | 0 |
1 | 1.0 | female | C | 2 |
2 | 0.0 | female | S | 2 |
3 | 1.0 | female | S | 2 |
4 | 1.0 | male | S | 0 |
参数
含义&输入
n_bins
- 每个特征中分箱的个数,默认5,一次会被运用到所有导入的特征
encode
- 编码的方式,默认“onehot”
- “onehot”:做哑变量,之后返回一个稀疏矩阵,每一列是一个特征中的一个类别,含有该 类别的样本表示为1,不含的表示为0
- “ordinal”:每个特征的每个箱都被编码为一个整数,返回每一列是一个特征,每个特征下含 有不同整数编码的箱的矩阵 【如:0,1,2,3,4这种编码】
- “onehot-dense”:做哑变量,之后返回一个密集数组。
strategy
- 用来定义箱宽的方式,默认"quantile"
- “uniform”:表示等宽分箱,即每个特征中的每个箱的最大值之间的差为 [(特征.max() - 特征.min()]/(n_bins)
- “quantile”:表示等位分箱,即每个特征中的每个箱内的样本数量都相同
- “kmeans”:表示按聚类分箱,每个箱中的值到最近的一维k均值聚类的簇心得距离都相同
from sklearn.preprocessing import KBinsDiscretizer
X = data.iloc[:,0].values.reshape(-1,1)
est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
#分三箱,以ordinal编码,使得每个箱内的**样本数量**都相同
est.fit_transform(X)
#查看转换后分的箱:变成了一列中的三箱
set(est.fit_transform(X).ravel())
#.ravel()降维函数,用set集合去重
#{0.0, 1.0, 2.0}
est = KBinsDiscretizer(n_bins=3, encode='onehot', strategy='uniform')
#查看转换后分的箱:变成了哑变量
est.fit_transform(X).toarray()
更多推荐
所有评论(0)