从贝叶斯角度，正则项等价于引入参数 $w$ 的先验概率分布。常见的L1/L2正则，分别等价于引入先验信息：参数 $w$ 符合均值为0的拉普拉斯分布/高斯分布。

贝叶斯方法的参数估计

贝叶斯方法的参数估计，就是通过最大化后验概率来估计模型的参数。

假定模型参数为 $w$ ，数据集为 $D$ ，贝叶斯通过最大化后验概率估计模型参数 $w$ ，即：

w = arg max w p (w | D) = arg max w p ( w ) p ( D | w ) P ( D ) = arg max w p (w) p (D | w)

$w = \arg\max_w p(w|D)= \arg\max_w \frac{p(w) p(D|w) }{P(D)}=\arg\max_w p(w) p(D|w)$

后验概率的展开形式

假定如下：

样本独立不相关
模型参数独立不相关

p (w) p (D | w) = \prod i = 1 K p (w i) \prod i = 1 N p (D i | w) \leftarrow \sum i = 1 K log p (w i) + \sum i = 1 N log p (D i | w)

$\begin{split} p(w)p(D|w) &= \prod_{i=1}^K p(w_i) \prod_{i=1}^N p(D_i|w) \\ &\leftarrow \sum_{i=1}^K \log p(w_i)+ \sum_{i=1}^N \log p(D_i|w) \end{split}$

最新的优化问题为：

w = arg min w - \sum i = 1 K log p (w i) - \sum i = 1 N log p (D i | w)

$w = \arg\min_w - \sum_{i=1}^K \log p(w_i)- \sum_{i=1}^N \log p(D_i|w)$

参数的先验概率与正则项

当参数 $w$ 的先验概率满足高斯分布：

p (w i) = N (w i | μ, σ 2) = 1 2 π σ 2 - - - - \sqrt e - ( w i - μ ) 2 2 σ 2

$p(w_i) = N(w_i | \mu,\sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(w_i-\mu)^2}{2\sigma^2}}$

优化问题的左项中，如果 $w$ 满足 $N(0,\frac{1}{2\lambda})$ ：

- \sum i = 1 K log p (w i) = - \sum i = 1 K log 1 2 π σ 2 - - - - \sqrt + \sum i = 1 K ( w i - μ ) 2 2 σ 2 = c o n s t + \sum i = 1 K ( w i - μ ) 2 2 σ 2 = c o n s t + λ \sum i = 1 K w 2 i

$\begin{split} - \sum_{i=1}^K \log p(w_i) &= - \sum_{i=1}^K \log \frac{1}{\sqrt{2\pi \sigma^2}} + \sum_{i=1}^K \frac{(w_i-\mu)^2}{2\sigma^2} \\ &= const + \sum_{i=1}^K \frac{(w_i-\mu)^2}{2\sigma^2} \\ &= const + \lambda \sum_{i=1}^K w_i^2 \end{split}$

这时候的优化函数为：

w = arg min w λ \sum i = 1 K w 2 i - \sum i = 1 N log p (D i | w)

$w = \arg\min_w \lambda \sum_{i=1}^K w_i^2 - \sum_{i=1}^N \log p(D_i|w)$

同样地，参数 $w$ 的先验概率满足均值为0的拉普拉斯分布，有：

w = arg min w λ \sum i = 1 K | w i | - \sum i = 1 N log p (D i | w)

$w = \arg\min_w \lambda \sum_{i=1}^K |w_i| - \sum_{i=1}^N \log p(D_i|w)$

这说明：

L2正则，等价于参数 $w$ 的先验分布满足均值为0的正态分布
L1正则，等价于参数 $w$ 的先验分布满足均值为0的拉普拉斯分布
拉普拉斯在0附近突出，周围稀疏，对应容易产生稀疏解的模型

模型举例

以参数 $w$ 的先验概率满足均值为0的高斯分布为例，优化问题为：

w = arg min w λ \sum i = 1 K w 2 i - \sum i = 1 N log p (D i | w)

$w = \arg\min_w \lambda \sum_{i=1}^K w_i^2 - \sum_{i=1}^N \log p(D_i|w)$

逻辑回归

- \sum i = 1 N log p (D i | w) = - \sum i = 1 N log θ (y n w T x n) = \sum i = 1 N log (1 + exp (- y n w T x n))

$\begin{split} - \sum_{i=1}^N \log p(D_i|w) &= - \sum_{i=1}^N \log \theta(y_n w^T x_n) \\ &=\sum_{i=1}^N \log (1+\exp(-y_n w^T x_n) ) \end{split}$

所以有：

w = arg min w λ \sum i = 1 K w 2 i + \sum i = 1 N log (1 + exp (- y n w T x n))

$w = \arg\min_w \lambda \sum_{i=1}^K w_i^2 +\sum_{i=1}^N \log (1+\exp(-y_n w^T x_n) )$

总结：逻辑回归，通过贝叶斯法最大化后验概率。在数据的概率满足逻辑函数的假设下得到了cross entropy的误差函数；在样本独立、模型参数独立、模型参数满足均值为0的高斯分布的假设下获得了L2正则项。

线性回归

线性回归，假设误差满足均值为0的高斯分布，该假设符合一般的规律。

p (D i | w) = 1 2 π σ 2 - - - - \sqrt e - ( w T x i - y i ) 2 2 σ 2 @H_631_ 3270 @

$p(D_i|w) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(w^Tx_i-y_i)^2}{2\sigma^2}}$

- \sum i = 1 N log p (D i | w) = - \sum i = 1 N log 1 2 π σ 2 - - - - \sqrt e - ( w T x i - y i ) 2 2 σ 2 @H_631_ 3270 @ \leftarrow \sum i = 1 N (w T x i - y i) 2

$\begin{split} - \sum_{i=1}^N \log p(D_i|w) &= - \sum_{i=1}^N \log \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(w^Tx_i-y_i)^2}{2\sigma^2}} \\ &\leftarrow \sum_{i=1}^N (w^Tx_i-y_i)^2 \end{split}$

所以有：

w = arg min w λ \sum i = 1 K w 2 i + \sum i = 1 N (w T x i - y i) 2

$w = \arg\min_w \lambda \sum_{i=1}^K w_i^2 +\sum_{i=1}^N (w^Tx_i-y_i)^2$

总结：线性回归，通过贝叶斯法最大化后验概率。在误差为均值0的高斯分布的假设下得到了square error的误差函数；在样本独立、模型参数独立、模型参数满足均值为0的高斯分布的假设下获得了L2正则项。

原文地址：https://www.jb51.cc/regex/358520.html

贝叶斯方法与正则项