参考链接: https://zhuanlan.zhihu.com/p/138334587
https://blog.csdn.net/qq_40651017/article/details/105660299
1. 预备知识
1.1 Jacobian 矩阵
假设函数
F
:
R
n
→
R
m
F: \mathbb{R}^n \to \mathbb{R}^m
F:Rn→Rm 是一个将欧氏
n
n
n 维空间映射到欧氏
m
m
m 维空间的函数. 该函数由
m
m
m 个实函数构成:
y
1
(
x
1
,
…
,
x
n
)
y_1(x_1, \dots, x_n)
y1(x1,…,xn),
y
2
(
x
1
,
…
,
x
n
)
y_2(x_1, \dots, x_n)
y2(x1,…,xn),
…
\dots
…,
y
m
(
x
1
,
…
,
x
n
)
y_m(x_1, \dots, x_n)
ym(x1,…,xn). 这些函数的偏导数组成一个
m
m
m 行
n
n
n 列的矩阵, 即 Jacobian 矩阵:
J
F
(
x
1
,
…
,
x
n
)
=
[
∂
y
1
∂
x
1
…
∂
y
1
∂
x
n
⋮
⋱
⋮
∂
y
m
∂
x
1
…
∂
y
m
∂
x
n
]
(1)
J_F (x_1,\dots,x_n) = \left[ \begin{matrix} \frac {\partial y_1} {\partial x_1} & \dots & \frac {\partial y_1} {\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac {\partial y_m} {\partial x_1} & \dots & \frac {\partial y_m} {\partial x_n} \end{matrix} \right] \tag{1}
JF(x1,…,xn)=⎣
⎡∂x1∂y1⋮∂x1∂ym…⋱…∂xn∂y1⋮∂xn∂ym⎦
⎤(1)
也可以表示为
∂
(
y
1
,
⋯
,
y
m
)
∂
(
x
1
,
⋯
,
x
n
)
\frac {\partial (y_1,\cdots,y_m)} {\partial (x_1,\cdots, x_n)}
∂(x1,⋯,xn)∂(y1,⋯,ym).
如果
p
\mathbf{p}
p 是
R
n
\mathbb{R}^n
Rn 的一个点,函数
F
F
F 在
p
\mathbf{p}
p 点可微,则
F
F
F 在这一点的导数由
J
F
(
p
)
J_F(\mathbf{p})
JF(p) 给出.
如果
m
=
n
m = n
m=n, 则
J
F
(
x
1
,
…
,
x
n
)
J_F(x_1, \dots, x_n)
JF(x1,…,xn) 是一个方阵,其行列式称为 Jacobian 行列式.
1.2 Hessian 矩阵
如果
f
f
f 的所有二阶导数都存在, 则
f
f
f 的Hessian 矩阵为:
H
(
f
)
(
x
)
=
[
∂
2
f
∂
x
1
2
∂
2
f
∂
x
1
∂
x
2
⋯
∂
2
f
∂
x
1
∂
x
n
∂
2
f
∂
x
2
∂
x
1
∂
2
f
∂
x
2
2
⋯
∂
2
f
∂
x
2
∂
x
n
⋮
⋮
⋱
⋮
∂
2
f
∂
x
n
∂
x
1
∂
2
f
∂
x
n
∂
x
2
⋯
∂
2
f
∂
x
n
2
]
(2)
H(f)(\boldsymbol{x}) = \left [ \begin{matrix} \frac {\partial^2 f} {\partial x_1^2} & \frac {\partial^2 f} {\partial x_1 \partial x_2} & \cdots & \frac {\partial^2 f} {\partial x_1 \partial x_n} \\ \frac {\partial^2 f} {\partial x_2 \partial x_1} & \frac {\partial^2 f} {\partial x_2^2} & \cdots & \frac {\partial^2 f} {\partial x_2 \partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac {\partial^2 f} {\partial x_n \partial x_1} & \frac {\partial^2 f} {\partial x_n \partial x_2} & \cdots & \frac {\partial^2 f} {\partial x_n^2} \end{matrix} \right] \tag{2}
H(f)(x)=⎣
⎡∂x12∂2f∂x2∂x1∂2f⋮∂xn∂x1∂2f∂x1∂x2∂2f∂x22∂2f⋮∂xn∂x2∂2f⋯⋯⋱⋯∂x1∂xn∂2f∂x2∂xn∂2f⋮∂xn2∂2f⎦
⎤(2)
可以用二阶导数的值判断梯度下降的速率。
注意: 这里的
f
f
f 仅仅是一个多元变量的函数, 而不是 1.1 节中的
F
F
F 那种多个函数.
1.3 正定矩阵
定义 2. 令
A
\mathbf{A}
A 为
n
×
n
n \times n
n×n 矩阵. 如果对于任意长度为
n
n
n 的非零列向量
x
\mathbf{x}
x, 均有
x
T
A
x
>
0
\mathbf{x}^{\mathsf{T}} \mathbf{A} \mathbf{x} > 0
xTAx>0, 则
A
\mathbf{A}
A 为 正定矩阵.
定理 1.
A
\mathbf{A}
A 正定
⇔
\Leftrightarrow
⇔
A
\mathbf{A}
A 的所有特征值为正
⇔
\Leftrightarrow
⇔
A
\mathbf{A}
A 的顺序主子式为正.
定义 3. 令 A \mathbf{A} A 为 n × n n \times n n×n 矩阵. 如果对于任意长度为 n n n 的非零列向量 x \mathbf{x} x, 均有 x T A x ≥ 0 \mathbf{x}^{\mathsf{T}} \mathbf{A} \mathbf{x} \geq 0 xTAx≥0, 则 A \mathbf{A} A 为 半正定矩阵.
2. 一元凸函数
定义4. 对于一元函数
f
(
x
)
f(x)
f(x), 如果对于任意
t
∈
[
0
,
1
]
t \in [0, 1]
t∈[0,1] 均满足:
f
(
t
x
1
+
(
1
−
t
)
x
2
)
≤
t
f
(
x
1
)
+
(
1
−
t
)
f
(
x
2
)
,
(1)
f(t x_1 + (1 - t) x_2) \leq t f(x_1) + (1 - t) f(x_2)\tag{1},
f(tx1+(1−t)x2)≤tf(x1)+(1−t)f(x2),(1)
则称
f
(
x
)
f(x)
f(x) 为凸函数 (convex function).
图片来源: https://blog.csdn.net/qq_40651017/article/details/105660299
定理 1. 如果 f ′ ′ ( x ) ≥ 0 f''(x) \ge 0 f′′(x)≥0 恒成立, 则 f ( x ) f(x) f(x) 是凸函数.
例 1. f ( x ) = x 2 f(x) = x^2 f(x)=x2, f ′ ( x ) = 2 x f'(x) = 2x f′(x)=2x, f ′ ′ ( x ) = 2 > 0 f''(x) = 2 > 0 f′′(x)=2>0, 因此 f ( x ) f(x) f(x) 为凸函数.
结论 1. 多个凸函数的和也是凸函数.
证明: 由函数求导的可加性可知.
3. 多元凸函数
定义5. 如果 f f f 的 Hessian 矩阵是半正定的,则 f ( X ) f(X) f(X) 是凸函数.
4. 几种常用函数
4.1 权值向量的 l 1 l_1 l1 范数
令
w
1
=
(
w
11
,
w
12
)
\mathbf{w}_1 = (w_{11}, w_{12})
w1=(w11,w12),
w
2
=
(
w
21
,
w
22
)
\mathbf{w}_2 = (w_{21}, w_{22})
w2=(w21,w22).
f
(
t
w
1
+
(
1
−
t
)
w
2
)
=
f
(
t
w
11
+
(
1
−
t
)
w
21
,
t
w
12
+
(
1
−
t
)
w
22
)
=
∣
t
w
11
+
(
1
−
t
)
w
21
∣
+
∣
t
w
12
+
(
1
−
t
)
w
22
∣
f(t \mathbf{w}_1 + (1 - t)\mathbf{w}_2) = f(t w_{11} + (1 - t)w_{21}, t w_{12} + (1 - t)w_{22}) = |t w_{11} + (1 - t)w_{21}| + |t w_{12} + (1 - t)w_{22}|
f(tw1+(1−t)w2)=f(tw11+(1−t)w21,tw12+(1−t)w22)=∣tw11+(1−t)w21∣+∣tw12+(1−t)w22∣
t
f
(
w
1
)
+
(
1
−
t
)
f
(
w
2
)
=
t
∣
w
11
∣
+
t
∣
w
21
∣
+
(
1
−
t
)
∣
w
21
∣
+
(
1
−
t
)
∣
w
22
∣
t f(\mathbf{w}_1) + (1 - t)f(\mathbf{w}_2) = t|w_{11}| + t|w_{21}| + (1-t)|w_{21}| + (1-t)|w_{22}|
tf(w1)+(1−t)f(w2)=t∣w11∣+t∣w21∣+(1−t)∣w21∣+(1−t)∣w22∣.
前式的某些值如何符号相反会抵消, 如
w
11
w_{11}
w11 与
w
21
w_{21}
w21, 但后者不会. 因此 前式
≤
\le
≤ 后式.
得证.
几何解释参见 https://zhuanlan.zhihu.com/p/60236837, 虽然和我理解的有些不同.
4.2 权值向量的 l 2 l_2 l2 范数
命题 1. 令
w
\mathbf{w}
w 为一个权值向量,
f
(
w
)
=
∥
w
∥
2
2
(2)
f(\mathbf{w}) = \|\mathbf{w}\|_2^2 \tag{2}
f(w)=∥w∥22(2)
是一个凸函数.
证明:
f
(
w
)
=
∑
i
=
1
m
w
i
2
f(\mathbf{w}) = \sum_{i=1}^m w_i^2
f(w)=∑i=1mwi2,
H
(
f
)
(
w
)
=
2
E
m
×
m
H(f)(\mathbf{w}) = 2 \mathbf{E}_{m \times m}
H(f)(w)=2Em×m 为单位矩阵的 2 倍, 也为一个正定矩阵, 因此 (2) 为一个凸函数.
4.3 权值矩阵的 F 范数
命题 2. 令
W
\mathbf{W}
W 为一个权值矩阵,
f
(
w
)
=
∥
w
∥
F
2
(2)
f(\mathbf{w}) = \|\mathbf{w}\|_F^2 \tag{2}
f(w)=∥w∥F2(2)
是一个凸函数.
证明:
与命题 1 的证明同理.
4.4 矩阵的核范数
矩阵
X
\mathbf{X}
X 的核范数
∥
X
∥
∗
=
t
r
(
X
T
X
)
\|\mathbf{X}\|_* = tr \left(\sqrt{\mathbf{X}^{\mathsf{T}}\mathbf{X}}\right)
∥X∥∗=tr(XTX) 是一个凸函数.
证明: 参见 https://hyper.ai/wiki/2687.
考虑
X
\mathbf{X}
X 的奇异值分解
X
=
U
Σ
V
T
\mathbf{X} = \mathbf{U} \Sigma \mathbf{V}^\mathsf{T}
X=UΣVT. 同时注意
t
r
(
X
T
X
)
=
t
r
(
V
Σ
T
U
T
U
Σ
V
T
)
=
t
r
(
V
Σ
T
Σ
V
T
)
U
T
U
=
E
=
t
r
(
V
Σ
2
V
T
)
Σ
T
=
Σ
=
t
r
(
V
V
T
Σ
2
)
Σ
为对角矩阵
=
t
r
(
Σ
2
)
=
t
r
(
Σ
)
\begin{array}{lll} tr(\sqrt{\mathbf{X}^{\mathsf{T}}\mathbf{X}}) & = tr(\sqrt{\mathbf{V} \Sigma^\mathsf{T} \mathbf{U}^\mathsf{T} \mathbf{U} \Sigma \mathbf{V}^\mathsf{T}})\\ & = tr(\sqrt{\mathbf{V} \Sigma^\mathsf{T} \Sigma \mathbf{V}^\mathsf{T}}) & \mathbf{U}^\mathsf{T}\mathbf{U} = \mathbf{E}\\ & = tr(\sqrt{\mathbf{V} \Sigma^2 \mathbf{V}^\mathsf{T}}) & \Sigma^\mathsf{T} = \Sigma\\ & = tr(\sqrt{\mathbf{V} \mathbf{V}^{\mathsf{T}} \Sigma^2}) & \Sigma 为对角矩阵\\ & = tr(\sqrt{\Sigma^2})\\ & = tr(\Sigma) \end{array}
tr(XTX)=tr(VΣTUTUΣVT)=tr(VΣTΣVT)=tr(VΣ2VT)=tr(VVTΣ2)=tr(Σ2)=tr(Σ)UTU=EΣT=ΣΣ为对角矩阵
特别地, 当
X
\mathbf{X}
X 为方阵时
U
=
V
\mathbf{U} = \mathbf{V}
U=V, 这时称为特征值分解.
但是, 我们还无法保证
t
r
(
Σ
)
≥
0
tr(\Sigma) \geq 0
tr(Σ)≥0.
后面的证明我没看懂, 亟需帮助!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。