【机器学习】【数据无量纲化】6.连续型变量

处理连续型特征:二值化与分段根据阈值将数据二值化(将特征值设置为0或1)，用于处理连续型变量。大于阈值的值映射为1，而小于或等于阈值的值映射为0。默认阈值为0时，特征中所有的正值都映射到1二值化是对文本计数数据的常见操作，可以决定仅考虑某种现象的存在与否它还可以用作考虑布尔随机变量的估计器的预处理步骤（例如，使用贝叶斯设置中的伯努利分布建模）from sklearn.preprocessin

chentao326

1499人浏览 · 2020-09-02 11:20:25

chentao326 · 2020-09-02 11:20:25 发布

处理连续型特征:二值化与分段

根据阈值将数据二值化(将特征值设置为0或1)，用于处理连续型变量。

大于阈值的值映射为1，而小于或等于阈值的值映射为0。默认阈值为0时，特征中所有的正值都映射到1

二值化是对文本计数数据的常见操作，可以决定仅考虑某种现象的存在与否

它还可以用作考虑布尔随机变量的估计器的预处理步骤（例如，使用贝叶斯设置中的伯努利分布建模）

from sklearn.preprocessing import Binarizer
X = data_2.iloc[:,0].values.reshape(-1,1)               #类为特征专用，所以不能使用一维数组
transformer = Binarizer(threshold=30).fit_transform(X)
 
data_2.iloc[:,0] = transformer
data_2.head()

Age	Sex	Embarked	Survived
0	0.0	male	S	0
1	1.0	female	C	2
2	0.0	female	S	2
3	1.0	female	S	2
4	1.0	male	S	0

参数
含义&输入

n_bins

每个特征中分箱的个数，默认5，一次会被运用到所有导入的特征

encode

编码的方式，默认“onehot”
“onehot”：做哑变量，之后返回一个稀疏矩阵，每一列是一个特征中的一个类别，含有该类别的样本表示为1，不含的表示为0
“ordinal”：每个特征的每个箱都被编码为一个整数，返回每一列是一个特征，每个特征下含有不同整数编码的箱的矩阵【如：0，1，2，3，4这种编码】
“onehot-dense”：做哑变量，之后返回一个密集数组。

strategy

用来定义箱宽的方式，默认"quantile"
“uniform”：表示等宽分箱，即每个特征中的每个箱的最大值之间的差为 [(特征.max() - 特征.min()]/(n_bins)
“quantile”：表示等位分箱，即每个特征中的每个箱内的样本数量都相同
“kmeans”：表示按聚类分箱，每个箱中的值到最近的一维k均值聚类的簇心得距离都相同

from sklearn.preprocessing import KBinsDiscretizer
X = data.iloc[:,0].values.reshape(-1,1)
est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
#分三箱，以ordinal编码，使得每个箱内的**样本数量**都相同 
est.fit_transform(X)
#查看转换后分的箱：变成了一列中的三箱
set(est.fit_transform(X).ravel())
#.ravel()降维函数，用set集合去重
#{0.0， 1.0, 2.0}

est = KBinsDiscretizer(n_bins=3, encode='onehot', strategy='uniform')
#查看转换后分的箱：变成了哑变量
est.fit_transform(X).toarray()

技术共进，成长同行——讯飞AI开发者社区

更多推荐

2025年互联网行业高价值专业证书分析与推荐

讯飞AI开发者社区

最近大半年以来，开始逐渐养成了阅读

这就要追溯到1950年，1950年，图灵在那篇名垂青史的论文《计算机械与智力》里面，阿兰·图灵表达了对人工智能发展的信心，在这篇文章里面，图灵提出了一个模仿游戏：“一场正常的模仿游戏有ABC三人参与，A是男性，B是女性，两人坐在房间里；“这里面我认为最大的漏洞就是，在这个Chinese room argument中预先的肯定了一套指令集（能够根据问题查找对照手册的程序）的存在，而且这个实验只是测翻