机器学习——样本不均衡的处理方法

假定样本数目A类比B类多，且严重不均衡：1. A类欠/降采样Undersampling(1) 随机欠采样（通常，有放回的实验结果更好）(2) A类分成若干子类，分别与B类进入ML模型(3) 基于聚类的A类分割2. B类过采样Oversampling(1) 避免欠采样造成的信息丢失3. B类数据合成Synthetic Data Generation(1) 随机插值得到新样本(2) SMOTE(Syn

zhao_crystal

293人浏览 · 2021-08-28 19:57:08

zhao_crystal · 2021-08-28 19:57:08 发布

假定样本数目A类比B类多，且严重不均衡：

1. A类欠/降采样Undersampling

(1) 随机欠采样（通常，有放回的实验结果更好）

(2) A类分成若干子类，分别与B类进入ML模型

(3) 基于聚类的A类分割

2. B类过采样Oversampling

(1) 避免欠采样造成的信息丢失

3. B类数据合成Synthetic Data Generation

(1) 随机插值得到新样本

(2) SMOTE(Synthetic Minority Over-sampling Technique)

4. 代价敏感学习Cost Sensitive Learning

(1) 降低A类权值, 提高B类权值

技术共进，成长同行——讯飞AI开发者社区

技术共进，成长同行——讯飞AI开发者社区

更多推荐

cover

深度学习算法：开启智能时代的钥匙

讯飞AI开发者社区

cover

目标检测数据集第017期-基于yolo标注格式的垃圾分类检测数据集(含免费分享)

讯飞AI开发者社区

cover

【人工智能】提示词进阶：用“思维链（CoT）”让大模型更擅长逻辑推理

讯飞AI开发者社区

所有评论(0)

查看更多评论

zhao_crystal

已为社区贡献4条内容