凸函数角度 分类问题输出端接Softmax或Sigmoid这样的非线性函数,如果使用MSE损失函数,那么损失函数是一个多峰的非凸函数,交叉熵则依然是凸函数 从损失函数的角度 而使用MSE损失函数时,其会考虑到其他非样本类别的预测概率值,而且,假设预测出来的样本类别对应的概率为y,则其他类对应的概率均匀分布为1−yK−1\frac{1-y}{K-1}K−11−y时取得最小值,所以以MSE为损失函数时,模型会倾向于将其他类的概率进行均匀预测,即 平均总比有倾向性要好 但这有悖于我们的常识 softmax反向传播