Logo
0

凸函数角度

分类问题输出端接SoftmaxSigmoid这样的非线性函数,如果使用MSE损失函数,那么损失函数是一个多峰的非凸函数,交叉熵则依然是凸函数

从损失函数的角度

而使用MSE损失函数时,其会考虑到其他非样本类别的预测概率值,而且,假设预测出来的样本类别对应的概率为y,则其他类对应的概率均匀分布为1yK1\frac{1-y}{K-1}时取得最小值,所以以MSE为损失函数时,模型会倾向于将其他类的概率进行均匀预测,即

平均总比有倾向性要好

但这有悖于我们的常识

softmax反向传播

Pasted image 20240709212937.png Pasted image 20240709212946.png

© 2025 All rights reservedBuilt with DataHub Cloud

Built with LogoDataHub Cloud