释放双眼，带上耳机，听听看~！

本文介绍了机器学习中常用的模型评估指标，包括准确率、混淆矩阵、精准率、召回率、F1-score、均方根误差、平均绝对识差、R平方和GSB指标，并讨论了它们的应用场景和意义。

分类模型

Accuracy – 准确率

$frac{n_{correct}}{n_{total}}$

其中 $n_{correct}$ 为被正确分类的样本个数， $n_{total}$ 为总体样本个数。

准确率是分类问题中最简单也是最直观的评价指标，但存在明显的缺陷。比如，当负样本占99%时，分类器把所有样本都预测为负样本也可以获得99%的准确率。所以，当不同类别的样本比例非常不均衡时，占比大的类别往往成为影响准确率的最主要因素。

做模型或做评估任务时，刚刚开始我们还是会简单的用Accuracy来做评估 —— 因为样本不均衡的情况会比较少。

混淆矩阵

目前机器学习与大模型正在使用的评估指标

混淆矩阵是机器学习中总结分类模型预测结果的情形分析表，以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总。


True Positive（TP）：真正类。正类被预测为正类。 False Negative（FN）：假负类。正类被预测为负类。 False Positive（FP）：假正类。负类被预测为正类。 True Negative（TN）：真负类。负类被预测为负类。

术语：
Reference: 真实值
Prediction: 预测值
T: True
P: Positive
F: False
N: Negative

举例

机器学习模型评估指标及应用

Precision – 精准率

$Precision=TPTP+FPPrecision = frac{TP}{TP+FP}$

精准率，表示预测结果中，预测为正样本的样本中，正确预测的概率。

T、P、F、N 见混淆矩阵

预测为正样本里，有多少判断对的了

Recall – 召回率

$Recall=TPTP+FNRecall = frac{TP}{TP+FN}$

召回率，表示在原始样本的正样本中，被正确预测为正样本的概率。

原始数据的正样本中，有多少被判断对的了

Precision值和Recall值是既矛盾又统一的两个指标，为了提高Precision值，分类器需要尽量在“更有把握”时才把样本预测为正样本，但此时往往会因为过于保守而漏掉很多“没有把握”的正样本，导致Recall值降低。

F1

$F1=f∗Precision∗RecallPrecision∗RecallF1 = frac{f * Precision * Recall}{Precision * Recall}$

F1-score是Precision和Recall两者的综合，是一个综合性的评估指标。

Micro-F1：不区分类别，直接使用总体样本的准召计算f1 score。

Macro-F1：先计算出每一个类别的准召及其f1 score，然后通过求均值得到在整个样本上的f1 score。

数据均衡，两者均可；样本不均衡，相差很大，使用Macro-F1；样本不均衡，相差不大，优先选择Micro-F1。

举例

机器学习模型评估指标及应用

在做分类任务时，一般都要阶段性的输出评估指标
上图是某企业按期向””业务部门”输出的各个指标的列举。

回归模型

MSE

$MSE=1m∑i=1m(yi−yi^)2MSE = frac{1}{m}sum_{i=1}^m(y_i – hat{y_i})^2$

RMSE

$RMSE=1m∑i=1m(yi−yi^)22RMSE = sqrt[2]{frac{1}{m}sum_{i=1}^m(y_i – hat{y_i})^2}$

均方根误差， $yi−yi^y_i – hat{y_i}$ 为真实值-预测值。解决量纲不一致的问题。

MAE

$MAE=1m∑i=1m∣(yi−yi^)∣MAE = frac{1}{m}sum_{i=1}^m|(y_i – hat{y_i})|$

平均绝对识差， $yi−yi^y_i – hat{y^i}$ 为{真实值-预测值}

RMSE 与 MAE 的量纲相同，但求出结果后我们会发现RMSE比MAE的要大一些。

这是因为RMSE是先对误差进行平方的累加后再开方，它其实是放大了较大误差之间的差距。

而MAE反应的是真实误差。因此在衡量中使RMSE的值越小其意义越大，因为它的值能反映其最大误差也是比较小的。

R平方

$R2=1−∑i=1(yi^−yi)2∑i=1(yi‾−yi)2R^2 = 1-frac{sum_{i=1}(hat{y_i}- {y_i})^2}{sum_{i=1}(overline{y_i} – y_i)^2}$

决定系数，分子部分表示真实值与预测值的平方差之和，类似于均方差 MSE；分母部分表示真实值与均值的平方差之和，类似于方差 Var。

根据 R2 的取值，来判断模型的好坏，其取值范围为[0,1]：

$R^2越大，表示模型拟合效果越好。R^2反映的是大概的准确性，因为随着样本量的增加R^2必然增加，无法真正定量说明准确程度，只能大概定量。$

GSB

通常用于两个模型之间的对比, 而非单个模型的评测：

$GSB=good−badgood+same+badGSB = frac{good – bad}{good + same + bad}$

可以用GSB指标评估两个模型在某类数据中的性能差异。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

机器学习模型评估指标及应用

分类模型

Accuracy – 准确率

混淆矩阵

Precision – 精准率

Recall – 召回率

F1

回归模型

MSE

RMSE

MAE

R平方

GSB

LangChain实现ChatGPT实时查询天气功能部署教程

AI时代的网页开发：人工智能如何改变网页开发

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

REECHO 睿声

归档

{{userData.name}}已认证

分类模型

Accuracy – 准确率

混淆矩阵

Precision – 精准率

Recall – 召回率

F1

回归模型

MSE

RMSE

MAE

R平方

GSB

LangChain实现ChatGPT实时查询天气功能部署教程

AI时代的网页开发：人工智能如何改变网页开发

Logistic回归模型及其应用分析

混淆矩阵在机器学习中的重要性与应用

ROC曲线：历史、数学基础、应用和Python实现

混淆矩阵评估指标准确率、精确度、召回率和F1计算方法