《神经网络与深度学习-邱锡鹏》习题解答（转自：@超爱喝奶茶的学姐）

正在搞科研ing，深度学习、计算机视觉

第2章习题解答

2-1

分析为什么平方损失函数不适用于分类问题。

从理论上来说，平方损失函数也可以用于分类问题，但不适合。首先，最小化平方损失函数本质上等同于在误差服从高斯分布的假设下的极大似然估计，然而大部分分类问题的误差并不服从高斯分布。而且在实际应用中，交叉熵在和Softmax激活函数的配合下，能够使得损失值越大导数越大，损失值越小导数越小，这就能加快学习速率。然而若使用平方损失函数，则损失越大导数反而越小，学习速率很慢。

2-2

在线性回归中，如果我们给每个样本 (\mathbb{x}^{(n)},y^{(n)}) 赋予一个权重 r^{(n)} ,经验风险函数为 \mathcal{R}(w)=\frac{1}{2}\sum_{n=1}^Nr^{(n)}(y^{(n)}-\mathbb{w}^T\mathbb{x}^{(n)})^2 ，计算其最优参数 \mathbb{w}^* ，并分析权重的作用 r^{(n)} 的作用。

首先将 r^{(n)} 提出来，得到 \mathcal{R}(w)=\frac{1}{2}\sum_{n=1}^Nr^{(n)}\sum_{n=1}^N(y^{(n)}-\mathbb{w}^T\mathbb{x}^{(n)})^2 。进而得到 \mathcal{R}(w)=\frac{1}{2}\sum_{n=1}^Nr^{(n)}||\mathbb{y}-X^T\mathbb{w}||^2 。进而得到 \frac{\partial\mathcal{R}(w)}{\partial\mathbb{w}}=\frac{1}{2}\sum_{n=1}^Nr^{(n)}\frac{\partial||\mathbb{y}-X^T\mathbb{w}||^2}{\partial\mathbb{w}}=-\frac{1}{2}\sum_{n=1}^Nr^{(n)}X(y-X^T\mathbb{w}) 。令 \frac{\partial\mathcal{R}(w)}{\partial\mathbb{w}}=0 ，得到 \mathbb{w^*}=\sum_{n=1}^Nr^{(n)}(XX^T)^{-1}X\mathbb{y} 。

局部线性回归可以实现对临近点的精确拟合同时忽略那些距离较远的点的贡献，即近点的权值大，远点的权值小，k为波长参数，控制了权值随距离下降的速度，越大下降的越快。越小越精确并且太小可能出现过拟合的问题。

但局部线性回归不会得到一条适合于全局的函数模型，在每一次预测新样本时都会重新的确定参数，从而达到更好的预测效果。当数据规模比较大的时候计算量很大，学习效率很低。

2-3

证明在线性回归中，如果样本数量N小于特征数量D+1，则 XX^T 的秩最大为N。

由线性代数知识可知矩阵与其转置相乘的秩等于矩阵本身的秩，即 rank(XX^T)=rank(X) 。而矩阵 X 的秩必定满足条件： rank(X)\leq min( D+1, N) ，也就是说 X 的秩必须小于或等于 X 的行数和列数中的最小值。而如果 N<D+1 的话，那么必定有 rank(X)\leq N 。故此， XX^T 的秩最大为 N 。

其实如果特征数大于样本数的话，即使是常用的优化方法都无法去拟合数据，这种情况我们称之为拟合方程是欠定的。换句话说，这种情况其实就是线性方程组的未知数个数大于方程个数，不存在唯一非零解。

2-4

在线性回归中，验证岭回归的解为结构风险最小化准则下的最小二乘估计。

结构风险最小化准则下的目标函数为： \mathcal{R}(w)=\frac{1}{2}||\mathbb{y}-X^T\mathbb{w}||^2+\frac{1}{2}\lambda||\mathbb{w}^2|| 。因此可知， \frac{\partial\mathcal{R}(w)}{\partial\mathbb{w}}=-X(\mathbb{y}-X^T\mathbb{w})+\lambda\mathbb{w} 。令 \frac{\partial\mathcal{R}(w)}{\partial\mathbb{w}}=0 ，则 -X(\mathbb{y}-X^T\mathbb{w})+\lambda\mathbb{w}=0 ，则 XX^T\mathbb{w}+\lambda\mathbb{w}=X\mathbb{y} ，则 (XX^T+\lambda I)\mathbb{w}=X\mathbb{y} 。因此 \mathbb{w}=(XX^T+\lambda I)^{-1}X\mathbb{y} 。

2-5

在线性回归中，若假设标签 y \sim \mathcal{N}(\mathbb{w}^T\mathbb{x}, \beta) ，并用最大似然估计来优化参数时，验证最优参数为公式2.50的解。

若已知标签 y \sim \mathcal{N}(\mathbb{w}^T\mathbb{x}, \beta) ，则 logP(\mathbb{y}|X;\mathbb{w},\beta)=\sum_{n=1}^Nlog\mathcal N(y^{(n)};\mathbb{w}^T\mathbb{x}^{(n)},\beta^2)=\sum_{n=1}^Nlog(\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(n)}-\mathbb{w}^T\mathbb{x})^2}{2\sigma^2})) ，进而 =\sum_{n=1}^Nlog\frac{1}{\sqrt{2\pi}\sigma}+\sum_{n=1}^Nlog(exp(-\frac{(y^{(n)}-\mathbb{w}^T\mathbb{x})^2}{2\sigma^2})) 。至此为止，加号的前面部分只是一个常数，对 \mathbb{w} 求导不需要管这部分，只看后面就行。后半部分，如果我们把 log 换成 ln ，则 \sum_{n=1}^N-\frac{(y^{(n)}-\mathbb{w}^T\mathbb{x})^2}{2\sigma^2} 。 -2\sigma^2 是个常数给他提出来，至此，最大似然函数对 \mathbb{w} 求导的函数又变成了 -\frac{1}{2\sigma^2}||\mathbb{y}-X^T\mathbb{w}||^2 。至此，与最小二乘法对 \mathbb{w} 求导的函数已有神似，因此后面的内容则不言而喻。

2.6

假设有N个样本 \mathbb{x}^{(1)},\mathbb{x}^{(2)},...,\mathbb{x}^{(N)} 服从正态分布 \mathcal{N}(\mu,\sigma^2) ，其中 \mu 未知。（1）使用最大似然估计来求解最优参数 \mu^{ML} 。（2）若参数 \mu 为随机变量，并服从正态分布 \mathcal{N}(\mu_0,\sigma_0^2) ，使用最大后验估计来求解最优参数 \mu^{MAP} 。

问题（1）与习题2-5有几乎相同。对于问题（2），首先由贝叶斯公式得参数 \mathbb{w} 的后验分布为 P(\mathbb{w}|X,\mathbb{y};v,\sigma)\propto P(\mathbb{y}|X,\mathbb{w};\sigma)P(\mathbb{w};v) ，此处分母是个无关的常数，因此忽略掉了。两边取对数，同时令 logP(\mathbb{y}|X,\mathbb{w},\sigma) 为高斯函数，则得到 logP(\mathbb{w}|X,\mathbb{y};v,\sigma)\propto logP(\mathbb{y}|X,\mathbb{w},\sigma)+logP(\mathbb{w};v)\propto -\frac{1}{2\sigma^2}||\mathbb{y}-X^T\mathbb{w}||^2-\frac{1}{2v^2}\mathbb{w}^T\mathbb{w} 。至此为止，与习题2-4中的结构风险最小化目标函数一致，按照习题2-4中的做法求出最优参数即可。

2-9

试分析什么因素会导致模型出现图2.6所示的高偏差和高方差情况。

欠拟合的话偏差会比较高，过拟合的话方差会比较高。那么如果偏差方差都很高的话，也许说明模型本身就是在瞎猜。

2-11

分别用一元、二元和三元特征的词袋模型表示文本“我打了张三”和“张三打了我”，并分析不同模型的优缺点。

假设以每个字字为基本单位，一元：$|我|打|了|张|三|#；二元：$我|我打|打了|了张|张三|三#；三元：$我打|我打了|打了张|了张三|张三#。

当n增长时，计算压力和参数空间会迅速增长。n越大，数据越稀疏。然而，当n很小的时候，例一元模型，仅仅只是根据当前一个字来判断下一个字可能是什么，未免有失偏颇。

2-12

对于一个三分类问题，数据集的真实标签和模型预测标签如下：
真实标签：1,1,2,2,2,3,3,3,3
预测标签：1,2,2,2,3,3,3,1,2
分别计算模型的精确率、召回率、F1值以及它们的宏平均和微平均。

类别1的精确率= \frac{1}{1+1}=1/2 ，类别2的精确率= \frac{1+1}{1+1+1+1}=1/2 ，类别3的精确率= \frac{1+1}{1+1+1}=2/3 。平均精确率= \frac{1}{3}(\frac{1}{2}+\frac{1}{2}+\frac{1}{3})=5/9 。

类别1的召回率= \frac{1}{1+1}=1/2 ，类别2的召回率= \frac{1+1}{1+1+1}=2/3 ，类别3的召回率= \frac{1+1}{1+1+1+1}=1/2 。平均召回率= \frac{1}{3}(\frac{1}{2}+\frac{2}{3}+\frac{1}{2})=5/9 。

因此，宏平均F1值= 2\cdot\frac{\frac{5}{9}\cdot\frac{5}{9}}{\frac{5}{9}+\frac{5}{9}}=5/9 。

每个样本的平均精确率=每个样本的平均召回率= \frac{(1+0+1+1+0+1+1+0+0)}{9}=5/9 ，所以微平均= 2\cdot\frac{\frac{5}{9}\cdot\frac{5}{9}}{\frac{5}{9}+\frac{5}{9}}=5/9 。

第3章习题解答

3-1

证明在两类线性分类中，权重向量 \mathbb{w} 与决策平面正交。

已知决策平面为 \mathbb{w}^T\mathbb{x}+b=0 ，任选决策平面上的两个点 \mathbb{x_1},\mathbb{x_2} 。带入决策平面 \mathbb{w}^T\mathbb{x_1}+b=0=\mathbb{w}^T\mathbb{x_2}+b 。由此可得， \mathbb{w}^T(\mathbb{x_1}-\mathbb{x_2})=0 。故此， \mathbb{w} 与决策平面上的线段 \mathbb{x_1},\mathbb{x_2} 垂直。故此， \mathbb{w} 与决策平面垂直。

3-2

在线性空间中，证明一个点 \mathbb{x} 到平面 f(\mathbb{x};\mathbb{w})=\mathbb{w}^T\mathbb{x}+b=0 的距离为 |f(\mathbb{x};\mathbb{w})|/||\mathbb{w}|| 。

由点到平面距离公式， d=\frac{Ax_1+Bx_2+Cx_3}{\sqrt{A^2+B^2+C^2}} ，其中平面方程为 [A,B,C]\mathbb{x} ，点为 (x_1,x_2,x_3) 。即可易证此题。

3-3

证明在线性分类中，权重向量一定是训练样本的特征 \{\mathbb{x}^{(n)}\}_{n=1}^N 的线性组合。

我们希望 \sum_{n=1}^Ny^{(n)}f(\mathbb{x}^{(n)};\mathbb{w}^*)>0 ，即 \mathbb{y}^T(X^T\mathbb{w^*})>0 。令 \mathbb{p} 是误差，则 X\mathbb{p}=0 。因此， X(\mathbb{y}-X^T\mathbb{w})=0 。由此可得 \mathbb{w}=(XX^T)^{-1}\mathbb{y} 。当样本数大于特征数的时候， XX^T 可逆，故此，权重向量是样本特征的线性组合。

3-4

在线性分类中，决策区域是凸的。即，若点 \mathbb{x}_1 和点 \mathbb{x}_2 被分为类别 c ，则 \rho\mathbb{x}_1+(1-\rho)\mathbb{x}_2 也会被分为类别 c ，其中 \rho\in(0,1) 。

已知 \mathbb{w}_c^T\mathbb{x}_1>\mathbb{w}_{\tilde{c}}^T\mathbb{x}_1,\mathbb{w}_c^T\mathbb{x}_2>\mathbb{w}_{\tilde{c}}^T\mathbb{x}_2 。可得， \mathbb{w}_c^T\mathbb{x}_1-\mathbb{w}_{\tilde{c}}^T\mathbb{x}_1>0,\mathbb{w}_c^T\mathbb{x}_2-\mathbb{w}_{\tilde{c}}^T\mathbb{x}_2>0 。由于 \rho\in(0,1) ，因此 \rho(\mathbb{w}_c^T\mathbb{x}_1-\mathbb{w}_{\tilde{c}}^T\mathbb{x}_1)>0,(1-\rho)(\mathbb{w}_c^T\mathbb{x}_2-\mathbb{w}_{\tilde{c}}^T\mathbb{x}_2)>0 。因此 \rho(\mathbb{w}_c^T\mathbb{x}_1-\mathbb{w}_{\tilde{c}}^T\mathbb{x}_1)+(1-\rho)(\mathbb{w}_c^T\mathbb{x}_2-\mathbb{w}_{\tilde{c}}^T\mathbb{x}_2)>0 。此即 \mathbb{w}_c^T\rho\mathbb{x}_1+\mathbb{w}_c^T(1-\rho)\mathbb{x}_2>\mathbb{w}_{\tilde{c}}^T\rho\mathbb{x}_1+\mathbb{w}_{\tilde{c}}^T(1-\rho)\mathbb{x}_2 。亦即 \mathbb{w}_c^T(\rho\mathbb{x}_1+(1-\rho)\mathbb{x}_2)>\mathbb{w}_{\tilde{c}}^T(\rho\mathbb{x}_1+(1-\rho)\mathbb{x}_2) 。所以也会被分为类别 c 。

3-5

给定一个多分类的数据集，证明：（1）如果数据集中每个类的样本都和除该类之外的样本是线性可分的，则该数据集一定是线性可分的；（2）如果数据集中没两个类的样本室线性可分的，则该数据集不一定是线性可分的。

易证（1），即对于任意的 n\in\{1,2,...,N\} ， \mathbb{w_c}^T\mathbb{x}^{(n)}>\mathbb{w_{\tilde{c}}}^T\mathbb{x}^{(n)} ，则有 \sum_{n=1}^N(\mathbb{w_c}^T\mathbb{x}^{(n)}-\mathbb{w_{\tilde{c}}}^T\mathbb{x}^{(n)})>0 。因此， X^T\mathbb{w_c}-X^T\mathbb{w_{\tilde{c}}}>0 。故此，整个数据集线性可分。

3-6

在Logistic回归中，是否可以用 \hat{y}=\sigma(\mathbb{w}^T\mathbb{x}) 去逼近正确的标签 y ，并用平方损失 (y-\hat{y})^2 最小化来优化参数 \mathbb{w} ？

3-7

在Softmax回归的风险函数中，如果去掉正则化项会有什么影响？

会导致参数矩阵 W 中，对应每个类别的矩阵向量 \mathbb{w} 都非常大。

3-10

若数据集线性可分，证明支持向量机中将两类样本正确分开的最大间隔分割超平面存在且唯一。

已知 max_{a,b}\frac{1}{||\mathbb{w}||^2} ， s.t.y^{(n)}(\mathbb{w}^T\mathbb{x}^{(n)}+b)\geq1,\forall n\in\{1,...,N\} 。这篇文章中，详细证明了超平面的存在性和唯一性。驿路向北：统计方法学习之：svm超平面存在唯一性证明过程。

第4章习题解答

4-1

对于一个神经元 \sigma(\mathbb{w}^T\mathbb{x}+b) ，并使用梯度下降优化参数 \mathbb{w} 时，如果输入 \mathbb{x} 恒大于0，其收敛速度会比零均值化的输入更慢。

在初始 \mathbb{w} 相同的情况下，如果输入 \mathbb{x} 的均值是0， \mathbb{w}^T\mathbb{x}+b 基本上在0附近，sigmoid函数在0附近的导数最大，所以收敛速度会很快。

4-2

试设计一个前馈神经网络来解决XOR问题，要求该前馈神经网络具有两个隐藏神经元和一个输出神经元，并使用ReLUctant作为激活函数。

这道题应该是想让编写一个程序，代码见 https:// Github.com/yzl95432 。

4-3

试举例说明“死亡ReLU问题”，并提出解决方法。

以二分类为例，设 y,\hat{y} 分别表示单个样本的真实标签和预测结果。则交叉熵损失函数为 loss(y,\hat{y})=-(ylog\hat{y}+(1-y)log(1-\hat{y})) 。 y,\hat{y} 都为1时， loss=-log1=0 ； y,\hat{y} 分别为1,0时， loss=+\infty ； y,\hat{y} 分别为0,1时， loss=-\infty ； y,\hat{y} 都为0时， loss=0 。由此可知要想使损失尽可能小，则 y 为1时， \hat{y} 要尽可能大； y 为0时， \hat{y} 要尽可能小。所以在后者情况下，就要使 \mathbb{w} 尽可能小。若稍有不慎，在某个节点上所有样本的输出全部为负数，因而梯度为0，因而此处权重无法更新，因而成了死亡节点。

可以使用带泄露的ReLU、带参数的ReLU、ELU函数以及Softplus函数。

4-4

计算Swish函数和GELU函数的导数

Swish函数的导数为： \frac{(x+1)e^{-1}+1}{(e^{-x}+1)^2} 。

4-5

如果限制一个神经网络的总神经元数量（不考虑输入层）为 N+1 ，输入层大小为 m^{(0)} ，输出层大小为1，隐藏层的层数为 L ，每个隐藏层的神经元数量为 \frac{N}{L} ，试分析参数数量和隐藏层层数L的关系。

m^{(0)}\frac{N}{L}+(L-1)(\frac{N}{L})^2+\frac{N}{L}+(N+1)+m^{(0)}=nums(parm) 。

4-7

为什么在神经网络模型的结构化风险函数中不对偏置 b 进行正则化？

正则化主要是为了防止过拟合，而过拟合一般表现为模型对于输入的微小改变产生了输出的较大差异，这主要是由于有些参数 \mathbb{w} 过大的关系，通过对 ||\mathbb{w}|| 进行惩罚，可以缓解这种问题。而如果对 ||b|| 进行惩罚，其实是没有作用的，因为在对输出结果的贡献中，参数b对于输入的改变是不敏感的，不管输入改变是大还是小，参数b的贡献就只是加个偏置而已。

或者说，模型对于输入的微小改变产生了输出的较大差异，这是因为模型的“曲率”太大，而模型的曲率是由 \mathbb{w} 决定的， b 不贡献曲率（对输入进行求导， b 是直接约掉的）。

4-8

为什么在用反向传播算法进行参数学习时要采用随机参数初始化的方式而不是直接令 W=0,b=0 ？

因为如果参数都设为0，在第一遍前向计算的过程中所有的隐藏层神经元的激活值都相同。在反向传播时，所有权重更新也都相同，这样会导致隐藏层神经元没有区分性。这种现象称为对称权重现象。

4-9

梯度消失问题是否可以通过增加学习率来缓解？

也可以，也不可以。梯度消失是指梯度在最后一层往前传的过程中不断减小，最终直至近乎为0。因此，“可以”是因为，使用一个较大的学习率与这个较小的导数相乘所得到的的结果就没那么小了。“不可以”是因为这样会导致这个较大的学习率与最开始较大的导数相乘结果十分巨大，导致梯度爆炸。

人脾胃不好导致很瘦，营养不良。为了解决这个问题，每天吃很多东西，从一定程度上能缓解很瘦营养不良的问题，然而治标不治本。脾胃不好吸收差的病根仍然还在。

第5章习题解答

5-1

证明宽卷积具有交换性，即公式5.12

rot180(W)\otimes X=\int

5-2

分析卷积神经网络中用1×1滤波器的作用。

其一，可用于降低维度。例如当图像大小为 M\times N\times D ，可降维成 M\times N 。其二，将位于每个点位上的所有通道特征进行卷积，实现跨通道的特征抽取。其三，减小时间复杂度，如5-3所示。

5-3

对于一个输入为100×100×64的特征映射，再进行3×3的卷积，得到100×100×256的特征映射组，求时间和空间复杂度。如果引入一个1×1卷积核，先得到100×100×64的特征映射，再进行3×3的卷积，得到100×100×256的特征映射组，求其时间和空间复杂度。

对于第一种情况， Time\sim O(M^2\cdot K^2\cdot C_{in} \cdot C_{out})=5.89824\times 10^9 ，其中 M=100,K=3,C_{in}=256,C_{out}=256 。

对于第二种情况， Time\sim (M^2\times K_1^2\times C_{1,in}\times C_{1,out})+(M^2\times K_2^2\times C_{2,in}\times C_{2,out})=1.6384\times 10^9 ，其中， M=100,K_1=1,K_2=3,C_{1,in}=256,C_{1,out}=64,C_{2,in}=64,C_{2,out}=256

5-4

对于一个二维卷积，输入为3×3，卷积核大小为2×2，试将卷积操作重写为仿射变换的形式。

将输入按行优先展开为9维向量，则仿射变换形式如图所示。

5-7

在空洞卷积中，当卷积核大小为K，膨胀率为D时，如何设置零填充P的值以使得卷积为等宽卷积。

(P+1)^2=K+(K-1)\times(D-1)

第6章习题解答

6-1

分析延时神经网络、卷积神经网络和循环神经网络的异同点。

异：延时神经网络当前层神经元的活性值仅依赖于前一层神经元的最近K个时刻的活性值，而循环神经网络当前时刻的活性值依赖之前所有时刻的活性值。循环神经网络在时间维度上共享权重而卷积神经网络在空间上共享权重。

同：三种神经网络都共享权重。

6-3

当使用公式6.50作为循环神经网络的状态更新公式时，分析其可能存在梯度爆炸的原因并给出解决方法。

令 z_k=U\mathbb{h}_{k-1}+W\mathbb{x}_k+\mathbb{b} 为在第 k 时刻函数 g(\cdot) 的输入，在计算公式6.34中的误差项 \delta_{t,k}=\frac{\partial L_{t}}{\partial z_k} 时，梯度可能过大，从而导致梯度过大问题。

解决方法：使用长短期记忆神经网络。

6-4

计算LSTM网络中参数的梯度，并分析其避免梯度消失的效果。

\frac{\partial L}{\partial W_f}=\sum_{t=1}^T(\delta_C^{(t)}\odot C^{(t-1)}\odot f^{(t)}\odot (1-f^{(t)}))(h^{(t-1)})^T

第7章习题解答

7-1

在小批量梯度下降中，试分析为什么学习率要和批量大小成正比。

\theta_t=\theta_{t-1}-\frac{\alpha}{K}\sum_{(\mathbb{x},\mathbb{y})\in\mathcal{S_t}}\frac{\partial \mathcal{L}(\mathbb{y},f(\mathbb{x},\theta))}{\partial \theta} ， \frac{\alpha}{K} 。

7-2

试分析为什么不能在循环神经网络中的循环连接上直接应用丢弃法？

循环神经网络中的循环连接具有误差累积的效果，最终会导致将丢弃法所造成的噪声放大，破坏模型的学习能力

7-9

若使用标签平滑正则化方法，给出其交叉熵损失函数。

\mathcal{L}(\mathbb{\tilde{y}},f(\mathbb{x};\theta))=-\mathbb{\tilde{y}}^Tlogf(\mathbb{x};\theta) ，其中 \mathbb{\tilde{y}} 为平滑标签。

第8章习题解答

8-1

分析LSTM模型中隐藏神经元数量与参数数量之间的关系。

隐藏层神经元数量的平方等于参数数量（只计算权重 w 的数量，不包括偏置 b ）。

8-2

分析缩放点积模型可以缓解Softmax函数梯度消失的原因。

首先已知Softmax函数导数为， -y_n+a_n ，其中 n 表示注意力分布的第 n 个维度。 y_n 为第 n 个维度上对应的真实注意力。因此，若 \mathbb{x} 维度比较大，则 s(\mathbb{x}_n,\mathbb{q})=\mathbb{x}_n^T\mathbb{q} 的值比较大。则 a_n, 的值比较大，则 -y_n 之间的差异影响比较小，因此容易产生梯度消失，若除以维度输入维度的开方，则避免了 a_n 的值过大。

8-3

当用自注意力模型作为一个神经层使用时，分析他和卷积层以及循环层在建模长距离依赖关系的效率和计算复杂度方面的差异。

自注意力计算复杂度： Time\sim O(1)

卷积网络计算复杂度： Time\sim O(log_k(n))

循环网络计算复杂度： Time\sim O(n)

第9章习题解答

9-1

分析主成分分析为什么具有数据降噪能力？

如果把特征理解为有用的维度，噪声与特征的相关性不大。因此，在特征分解后，可以去掉多余的维度，达到降噪的目的。

9-3

对于一个二分类问题，试举例分析什么样的数据分布会使得主成分分析得到的特征反而会使得分类性能下降。

具有多重共线性的数据不适合使用主成分分析。举例来说，比如对于二分类问题，正例样本全部为 (1,1,1,1,1,) ，负例样本全部为 (0,0,0,0,0) 。

9-4

若数据矩阵 X'=X-\bar{X} ，则对奇异值分解 X'=U\Sigma V^T ，则 U 为主成分分析的投影矩阵。

PCA的投影矩阵是矩阵 X' 的协方差矩阵的特征向量，由于 X' 的均值为零，所以 X' 的协方差矩阵为 \Sigma=\frac{1}{N}X'X'^T 。而在奇异值分解中， X'X'^T=U\Sigma V^TV\Sigma U^T=U \Sigma^2U^T 。所以 U 是 X' 的协方差矩阵的特征向量。也是PCA的投影矩阵。

9.5

举例说明， K近邻方法估计的密度函数不是严格的概率密度函数，其在整个空间上的积分不等于1。

K近邻固定落入每块区域的样本数K，每个区域的概率密度为 P(x)=\frac{K}{NV} ，此时 P(x) 在整个区间上的积分是等于1的，但是 P(x)=\frac{K}{NV} 的前提是V足够小且N趋于正无穷。所以实际上等号不可能成立。

9.6

分析公式 (9.14) 和 (9.15) 来衡量稀疏性的效果。

稀疏性衡量函数 \rho(z) 对 z 的稀疏性变化越敏感越好，即 \frac{\partial \rho(z)}{\partial z} 越大越好。 \rho_1(z)=\sum_{m=1}^Mlog(HZ_m^2)(9.14) 和 \rho_2(z)=\sum_{m=1}^M-exp(-z_m^2)(9.15) 。由于 e^{z_m^2}\geq Hz_m^2 ，故 e^{-z_m^2}\leq Hz_m^2 。所以 \rho_1(z) 衡量稀疏性更好。

第10章习题解答

10-1

根据Jensen不等式以及公式（10.6），证明公式（10.9）中的 \tilde{R}(f)\geq R(F) 。

10.2

集成学习是否可以避免过拟合。

可以。集成学习通过组合多个模型，可以减少泛化误差，起到了正则化的作用，所以可以避免过拟合。

10.3

分析自训练和 EM 算法之间的联系。

1.自训练算法和EM算法都属于半监督学习算法，需要有一些有标注数据训练模型；

2.两者都属于迭代优化策略。

10.4

根据最大后验估计来推导公式 (10.50)。

给定数据集D,我们的任务是找到最有可能的解： logP(\theta|D) 。将数据集D划分为任务A和任务B的两个独立的数据集 D_A,D_B 。则有 logP(\theta|D)=logP(\theta|D_A,D_B)=log(\frac{P(\theta D_AD_B)}{P(D_AD_B)})\leftarrow(1)

=log\frac{P(\theta D_B|D_A)P(D_A)}{P(D_B|D_A)P(D_A)}=log\frac{P(\theta D_B|D_A)}{P(D_B|D_A)}=logP(D_B|\theta)+logP(\theta|D_A)-logP(D_A) 。公式1中的为任务B上的损失函数的相反数，即 -L_B(\theta) 。假设模型有n个参数，且n个参数相对应于 D_A 独立。则：

假设任务A学习完成后对应的参数为 \theta_A^* ，利用拉普拉斯近似， logP(\theta_i|D_A) 可以看成是均值 \theta_{Ai}^* ，方差为Fisher信息矩阵倒数的高斯分布，所以公式（2）可以写成： logP(\theta|D_A)=-\frac{1}{2}\sum_{i=1}^nF_i(\theta_i-\theta^*_{Ai})^2\leftarrow(3)

因为常数对优化结果没有影响，所以公式（3）忽略了常数。同时 logP(D_B) 和参数 \theta 无关，综上。 L(\theta)=-logP(\theta|D)=L_B(\theta)+\frac{1}{2}\sum_{i=1}^nF_i(\theta_i-\theta^*_{Ai})^2 。

再加上正则化系数， L(\theta)=-logP(\theta|D)=L_B+\frac{\lambda}{2}\sum_{i=1}^nF_i(\theta_i-\theta^*_{Ai})^2

第11章习题解答

11-1

根据贝叶斯网络的定义，证明图11.3中的四种因果关系。

图（a）：当 X_2 未知时， P(x_1,x_3)=P(x_3)P(x_2|x_3)p(x_1|x_2) ，无法证明 P(x_1,x_3)=P(x_1)P(x_3) 。因此 X_1,X_3 不独立。当 X_2 已知时， P(x_1,x_3|x_2)=\frac{P(x_1,x_2,x_3)}{P(x_2)}=\frac{P(x_1)\cdot P(x_2|x_1)\cdot P(x_3|x_2)}{P(x_2)}=\frac{P(x_2)\cdot P(x_1|x_2)\cdot P(x_3|x_2)}{P(x_2)}=P(x_1|x_2)\cdot P(x_3|x_2) ，所以 X_1,X_2 独立。

图（c）：当 X_2 未知时， P(x_1,x_3)=P(x_2)P(x_1|x_2)P(x_3|x_2) ，无法证明 P(x_1,x_3)=P(x_1)P(x_3) 。dang X_2 已知时， P(x_1,x_3|x_2)=\frac{P(x_1,x_2,x_3)}{P(x_2)}=\frac{P(x_2)\cdot P(x_1|x_2)\cdot P(x_3|x_2)}{P(x_2)}=P(x_1|x_2)P(x_3|x_2) ，所以 X_1,X_3 独立。

图（d）：当 X_2 未知时， P(x_1,x_3)=P(x_1)\cdot P(x_3) ，所以 X_1,X_3 独立。当 X_2 已知时， P(x_1,x_3|x_2)=\frac{P(x_1,x_2,x_3)}{P(x_2)}=\frac{P(x_1)\cdot P(x_3)\cdot P(x_1|x_1,x_3)}{P(x_2)} ，所以 X_1,X_2 不独立。

第12章习题解答

12-1