From One-Hot to Softmax: A Complete Analysis of the Output Layer in Classification Networks

本文是李宏毅机器学习2021系列课程的第四篇。在分类任务中,简单地把类别编号为 1、2、3 会暗含距离和顺序偏差。为避免这一问题,我们首先使用 one-hot 向量对离散标签做无序编码。随后,网络输出层通过 softmax 将 logits 映射为 0-1 之间且和为 1 的概率分布;真正的 one-hot 只是标签而非模型输出。为了衡量输出概率与真实标签的差距,交叉熵损失因其在“错误但自信”的区域梯度更大,相比均方误差(MSE)更易于优化。本文结合公式推导与误差面可视化,说明从编码、输出到损失函数的完整链条如何共同提升分类模型的训练效率与性能。 ...

2025-07-10 · (updated 2025-08-03) · 2 min · 762 words · Zhengbo Wang