【白话理解神经网络中的“损失函数”——最小二乘法和极大似然估计法】_最小二乘损失函数

写在前面的话

“损失函数”是如何设计出来的？直观理解“最小二乘法”和“极大似然估计法”
梯度下降法中的梯度指的是损失函数的梯度，设计损失函数有三种方法：最小二乘法，极大似然估计和交叉熵。

理解损失函数

你有你判断的标准，神经网络也有它的标准，但是二者都无法用一个统一的表达式表述出来。于是乎可以通过比较来判断，两个标准一比就会有偏差，这个偏差越小就说明两者越接近。神经网络通过这个偏差进行调整和学习，就是训练。你已经打好标签的数据，就是训练用的数据。

损失函数：你的标准和神经网络的标准相差量的定量表达。

为什么损失函数可以写成下面这样？这背后的含义是什么？

比较两个模型差距有多少的三种思路：最小二乘法，极大似然估计和交叉熵。

最小二乘法

这里的连加不重要，神经网络里面是一张图片一张图片的判断所以不累加，两者本质上没有差别。二乘表示平方，乘1/2是为了后面求导方便，平方也是为了求导，如果直接写绝对值不利于求导。如果用它作为梯度下降法的损失函数比较麻烦，不建议适用。

最大似然估计法（统计方法）

似然：概率的反向应用。

考虑一个理念世界和一个现实世界。

在理念世界里有一个概率分布，只有两种情况正或反，概率都是0.5。对应现实世界就是抛硬币，抛十次硬币，5次正，5次反。

理念世界会指导现实世界。

如果我们已经确定了硬币的概率分布，即正负概率均是0,5，那么抛硬币的理想结果就是抛十次硬币，5次正，5次反。

从现实世界也能对理想世界进行反推。

如果我们抛十次硬币，5次正，5次反，那么可以推测理想世界的概率分布在理想情况下是正负概率均是0,5。

显然情况不是这么理想。

假设抛硬币本来的概率模型是正0.1，反面0.9，在现实世界抛出这样的概率模型的概率有多大？概率模型确定了，真实情况也确定了，这个可能性是可以算出来的。当 $事件的同时发生的概率。注意，这个结果并不是真实情况。只是假设这样硬币的概率模型，在这个概率模型的情况下可能性是这么大。虽然也叫可能性，但是和我们平常说的概率是有区别的，它是从现实世界反推回来的，这个可能性就是似然值。即真实的情况已经发生，假设我们有很多模型，选择一个模型，在这个模型下发生真实情况的可能性。很明显，虽然我们没有办法百分百确定真实情况是哪个模型，但是从里面选取最大值，就能说明两种最匹配。当我们知道事情发生的结果，去反推这个结果的概率模型的时候，往往就会用到最大似然估计。在我们训练神经网络的时候，给出一个个图片是不是就很像抛出的一个个硬币，极大似然估计本质上就是在计算神经网络里面概率模型的似然值，找到哪个最大的似然值，这个就是最接近现实情况的哪个概率模型。$

现实：硬币落在地面。

现实：人的判断。

“猫神”：猫的标准概率模型

“人脑”：知道猫的标准概率模型，假如是一个高斯分布。

神经网络：训练出来识别猫的模型与标准模型存在偏差，需要不断调整参数，高斯分布的参数有均值和方差，在神经网络里面可以通过权重和偏置表示。

回到极大似然估计法，这里的 $XXTXX^TXXT，n∗nn*nn∗n的矩阵，xiTxjx_i^Tx_jxiTxj，相似度KijK_{ij}Kij，判断两个数据的相似情况。 xTxx^TxxTx，关联程度 arg是参数 w∗=argmin12∑i=1n(wTxi−yi)2=12(Xw−y)T(Xw−y)w^*=argmin\frac{1}{2}\sum_{i=1}^n(w^Tx_i-y_i)^2=\frac{1}{2}(X_w-y)^T(X_w-y)w∗=argmin21i=1∑n(wTxi−yi)2=21(Xw−y) 目录：一、0-1 损失函数二、平方损失函数（Square Loss）：主要是最小二乘法（OLS）中；三、绝对值损失函数四、对数损失函数（Cross Entropy Loss，Softmax Loss ）：用于Logistic 回归与Softmax 分类中；五、指数损失函数（Exponential Loss）：主要用于Adaboost 集成学习算法中；六、铰链损失函数（Hinge Loss）：... 都忘了，再回顾一下：参考知乎 https://www.zhihu.com/question/20447622 该问题下面的部分回答：建议有时间的把问题下面的所有答案都过一遍，这样可以通过不同的切入点来更好的理解。最小二乘法，也叫最小平方法，在古汉语中 “平方”称为“二乘”，“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小。（记得赟哥解释过，这个方法起源于日本，就直接拿过来用是一种常用的参数估计方法，用于拟合数据和求解线性回归模型的参数。它通过最小化平方损失函数来找到最佳的模型参数。在最小二乘法中，假设我们有一组输入变量 X 和对应的输出变量 Y，我们希望找到一个线性模型来描述它们之间的关系。线性模型可以表示为：线性回归的基本形式最小二乘法的目标是找到最佳的参数估计值 β，使得模型预测值 Y_hat 和真实观测值 Y 的差异最小化。这可以通过最小化平方损失函数来实现：其中，Y_hat 是模型的预测值，Y 是真实观测值。可以看出，选择不同的参数会对结果产生不同的影响，因此综合来看，第二组的误差比较小，对应的参数会较好。SSELoss的基本计算过程和SSE一致，只不过SSELoss 中带入的是模型参数，而SSE带入的是确定参数值之后的计算结果。之间的差值的平方和，计算结果表示预测值和真实值之间的差距，结果越小表示二者差距越小，模型效果越好。（2）对于多元函数，如果存在某一点，使得函数的各个自变量的偏导数都为0，则该点就是最小值点。点，同时该点对应的函数切线与x轴平行，也就是在最小值点，函数的导数为0。一、最小二乘法狭义的最小二乘，指的是在线性回归下采用最小二乘准则（或者说叫做最小平方），进行线性拟合参数求解的、矩阵形式的公式方法。所以，这里的「最小二乘法」应叫做「最小二乘算法」或者「最小二乘方法」，百度百科「最小二乘法」词条中对应的英文为「The least square method」。狭义的最小二乘方法，是线性假设下的一种有全局最优的闭式解的参数求解方法，最终结果为全局最优；而广义... 观测样本集的似然（联合概率）取得最大值时参数的值作为参数估计值的方法称为最大似然估计。观测样本集的似然函数就是样本集的联合概率Lθ;DPD;θ∏i1NPxi;θL(\theta;\theta)Lθ;DPD;θi1∏NPxi;θ最优的θ\thetaθ值是令观测样本发生概率最大的值，也就是令似然函数取得最大。参数θ`\thetaθ的最大似然估计值可以写为θMLarg⁡max⁡θLθ;Darg⁡。 1.背景介绍随着数据量的不断增加，机器学习和深度学习技术已经成为了解决复杂问题的重要手段。在这些技术中，最小二乘法和神经网络是两种非常重要的方法。本文将从以下几个方面进行比较：核心概念与联系核心算法原理和具体操作步骤以及数学模型公式详细讲解具体代码实例和详细解释说明未来发展趋势与挑战附录常见问题与解答 1.背景介绍 1.1 最小二乘法最小二乘法是一种对数据进行...$