Logo
0

简单来说,我们希望模型输出的概率能更好的体现置信度,比如,在模型输出概率为0.8的样本中,有80%确实为positive

像朴素贝叶斯、逻辑回归等本身输出可以代表概率的模型,其直接输出和经过概率校准后的输出差别相对较小,但一些复杂的非线性分类器无法直接进行概率预测,因此,有必要对分类结果进行再学习以得到概率,这就是通常意义上说的概率校准

事实上,概率校准不仅能够将非概率分类模型的输出转化为概率,而且也能够对概率分类模型的结果进行进一步修正。例如,在经过概率校准的逻辑回归模型输出的所有概率为0.8的样本中,大约有80%的样本实际上确实属于正例——在校准之前,可能结果并不是这样。

理论最优分类器

指这么一类分类器:有80%的把握将nn个样本分为正类时,那么当nn够大时,其中真正例的数量就会是0.8n0.8n

基于上述朴素的想法,在样本充足的情况下,对于任何一个概率值pp,我们可以得到足够的、属于正例的可能性为pp的样本,进一步可以知道它们正确的类别标签并算出真正例的占比TpT_{p}​。可以想见,如果收集到足够的(p,Tp)(p,T_{p})数据,那么就可以绘制一条线,这条线就被称为该分类器的校准曲线

Pasted image 20240831195819.png 容易知道,完美分类器的校准曲线应该是k=1k=1的直线,当曲线在该线之上时,说明分类器“不够自信”,因为预测概率在20%时,实际为正类的比例在20%以上,反之道理一样

常用的两种概率校准方法:

Platt Scaling:通过一个基于逻辑回归的模型对未校准的概率进行校准

Isotonic Regression:使用分段线性函数来校准概率,适用于样本较多的情况。

© 2025 All rights reservedBuilt with DataHub Cloud

Built with LogoDataHub Cloud