python评估不平衡数据集_第56集 python机器学习：评估指标与评分

就目前为止，我们使用预测的精准度来评估分类性能，使用R²来评估回归性能，但是，总结监督模型给定数据集上的表现有多种方法，这两个指标只是其中两种。在实践中，这些评估指标可能不适用于某些应用，但是在进行模型选择和调参时，选择正确的指标是很重要的。接下来我们先讨论二分类指标。首先我们来看一下常见的几个定义：二分类指标：二分类可能是实践中最常见的机器学习应用，对于二分类问题，我们通常会说正类(positi

weixin_39706127

314人浏览 · 2020-12-20 19:14:26

weixin_39706127 · 2020-12-20 19:14:26 发布

就目前为止，我们使用预测的精准度来评估分类性能，使用R²来评估回归性能，但是，总结监督模型给定数据集上的表现有多种方法，这两个指标只是其中两种。在实践中，这些评估指标可能不适用于某些应用，但是在进行模型选择和调参时，选择正确的指标是很重要的。接下来我们先讨论二分类指标。

首先我们来看一下常见的几个定义：

二分类指标：二分类可能是实践中最常见的机器学习应用，对于二分类问题，我们通常会说正类(positive class)和反类(negative class)，而正类是我们要寻找的类。

错误类型：我们把本来应该是正类的结果预测为反类结果的样例叫做假正例；本来应该是反例的结果预测为正例成为假反例；假正例也叫第一类错误，假反例也成为了第二类错误(type II error)

不平衡数据集：在机器学习中，我们将一个类别比另一个类别出现的次数多出很多的现象，叫做不平衡数据集(imbalanced dataset)或者具有不平衡类别的数据集(dataset with imbalanced)。在实际应用中，不平衡数据集才是常态，就比如我们浏览某个网页，但是我们关注的知识其中的某个点，而网页中的大部分内容我们是不关心的。

下面我们以digits数据集中的数字9与其他9个类别加以区分，从而创建一个9：1的不平衡数据集：

from sklearn.datasets import load_digits

digits = load_digits()

y = digits.target == 9

x_train, x_test, y_train, y_test = train_test_split(digits.data, y, random_state=0)

#我们可以使用DumyClassifier来始终预测多数类(这里是非9)，以证明精度提供的信息量是很少的

from sklearn.dummy import DummyClassifier

dumy_majority = DummyClassifier(strategy='most_frequent').fit(x_train, y_train)

pred_most_frequent = dumy_majority.predict(x_test)

print("unique predicted labels: {}".format(np.unique(pred_most_frequent)))

print("Test score:{:.2f}".format(dumy_majority.score(x_test, y_test)))

运行后结果为：