LU分解 | Li Zhenghao🚴

封面：Epsilons, no. 3: The LU decomposition - by Tivadar Danka

Definition

考虑 $A\in\mathbb{R}^{n\times n}$ ，满足所有顺序主子式（leading principal minors）不为0，则存在以下分解：

$A = LU$

其中， $L\in\mathbb R^{n\times n}$ 是一个单位下三角矩阵， $U\in\mathbb{R}^{n\times n}$ 是一个上三角阵

$L = \begin{bmatrix}1&&&0\\l_{1,2}&1&&\\\vdots&\vdots&\ddots\\ l_{n,1}&l_{n,2}&\cdots&1\end{bmatrix}\quad U = \begin{bmatrix}u_{1,1}&\cdots&u_{1,n-1}&u_{1,n}\\&\ddots&\vdots&\vdots\\&&u_{n-1,n-1}&u_{n-1,n}\\ 0&&&u_{n,n}\end{bmatrix}$

Application

1. 解线性方程

对于线性方程组 $A\mathbf x=b$ , $A\in\mathbb R^{n\times n},\mathbf x\in\mathbb R^n,b\in\mathbb R^{n}$ . 如果有 $A = LU$ ，则

$A\mathbf x=b\Leftrightarrow LU\mathbf x=b\Leftrightarrow \left\{\begin{aligned}U\mathbf x &= \mathbf{y}\\L\mathbf y&=b\end{aligned}\right.$

由于 $L$ 是一个下三角阵，可以轻松的得到 $L\mathbf y=b$ 的解

$L\mathbf y=b\Leftrightarrow\begin{bmatrix}1&&&&\\l_{21}&1&&&\\l_{31}&l_{32}&1&&\\\vdots&\vdots&\ddots&\ddots\\l_{n1}&l_{n2}&\cdots&l_{nn-1}&1\end{bmatrix}\begin{bmatrix}y_{1}\\y_{2}\\y_{3}\\\vdots\\y_{n}\end{bmatrix}=\begin{bmatrix}b_{1}\\b_{2}\\b_{3}\\\vdots\\b_{n}\end{bmatrix}$

按照 $y_1\rightarrow y_n$ 的顺序：

$\begin{gather*} y_1 = b_1 \\ l_{21}y_1 + y_2 = b_2 \\ \vdots \\ l_{n1}y_1 + \cdots + l_{nn-1}y_{n-1} + y_n = b_n \end{gather*}$

对于 $y_k$ ， $y_{1:k-1}$ 都是已知的，每个方程只有 $y_k$ 一个未知数。

由于 $U$ 是一个上三角矩阵，同样的，可以很轻松的得到 $U\mathbf x=\mathbf y$ 的解

$u_{x}=y\Leftrightarrow\begin{bmatrix}u_{1,1}&\cdots&\cdots&u_{1,n}\\&\ddots&\ddots& \vdots\\&& u_{n-1,n-1}&u_{n-1,n}\\&&& u_{n,n}\end{bmatrix}\begin{bmatrix}x_{1}\\\vdots\\x_{n-1}\\x_{n}\end{bmatrix}=\begin{bmatrix}y_{1}\\\vdots\\y_{n-1}\\y_{n}\end{bmatrix}$

从 $x_n\rightarrow x_1$ 的顺序。

2. 计算行列式

$\det(A) = \det(LU) = \det(L)\det(U)=\prod_{i=1}^n u_{ii}$

Algorithm

思路：通过一系列简单的矩阵变换，逐步将 $A$ 转化为上三角矩阵 $U$ 。在每一步中，使用一个单位下三角矩阵 $L_j$ 来消去 $A$ 中的部分元素，直到得到最终的 $U$ 矩阵。

$A = LU\Leftrightarrow L^{-1}A = U\Leftrightarrow L_{n-1}\cdots L_2L_1A = U$

其中， $L_{1:n-1}$ 都是简单的单位下三角阵

令

$L_j = I - l_ie_j^\top$

其中， $l_j$ 满足 $l_{ij}=0, i\leq j$

$l_j = \begin{bmatrix}0\\\vdots\\0\\ l_{j+1,j}\\\vdots\\l_{n,j}\end{bmatrix},\quad e_j^\top = \begin{bmatrix}0&\cdots&0& \overset{\smash{\begin{aligned}j\\\downarrow\\~\end{aligned}}}{1}&0&\cdots0\end{bmatrix}$

$L_j = I - l_j e_j^\top = \begin{bmatrix} 1 & & & & & \\ & \ddots & & & & \\ & & 1 & & & \\ & & & 1 & & \\ & & & -l_{j+1,j} & \ddots & \\ & & & \vdots & & \ddots \\ & & & -l_{n,j} & & & 1 \\ \end{bmatrix}$

令 $a_i$ 和 $\tilde a_i$ 分别表示 $A$ 的第 $i$ 列和第 $i$ 行

$A = \begin{bmatrix}a_1&\cdots&a_n\end{bmatrix}= \begin{bmatrix}\tilde a_1\\\vdots\\\tilde a_n\end{bmatrix}$

希望经过 $L_1$ 的变换之后， $a_1$ 这一列可以变成一个上三角阵的形状（ $a_{1,2:n}=0$ ）

$L_1a_1=c_1e_1,\quad \text{ for some } c_1\in\mathbb R$

$\begin{gather*} (I - l_1e_1^\top)a_1=c_1e_1\Rightarrow a_1-l_1(e_1^\top a_1)=c_1e_1\\ \Leftrightarrow a_1-a_{11}l_1=c_1e_1\\ \Leftrightarrow \begin{bmatrix}a_{11}\\a_{21}\\\vdots\\ a_{n1}\end{bmatrix}-\begin{bmatrix}0\\a_{11}l_{21}\\\vdots\\ a_{11}l_{n1}\end{bmatrix} = \begin{bmatrix}c_1\\0\\\vdots\\ 0\end{bmatrix}\\ \end{gather*}$

选择

$l_1 = \begin{bmatrix}0\\a_{21}/a_{11}\\\vdots\\ a_{n1}/a_{11}\end{bmatrix}$

$\begin{align} A^{(1)}&=L_1A = (I-l_1e_1^\top)A = A-l_1\tilde a_1\\ &=A - \begin{bmatrix}0\\l_{21}\\\vdots\\ l_{n1}\end{bmatrix}\begin{bmatrix}a_{11}&a_{12}&\cdots& a_{1n}\end{bmatrix}\\ &=\begin{bmatrix} \begin{array}{c|ccc} a_{11} & a_{12} & \cdots & a_{1n} \\ \hline a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots&\vdots&\ddots&\vdots\\ a_{n1} & a_{n2} & \cdots & a_{nn} \\ \end{array} \end{bmatrix}- \begin{bmatrix} \begin{array}{c|ccc} 0 & 0 & \cdots & 0 \\ \hline l_{21}a_{11} & & & \\ \vdots&&l_{i1}\cdot a_{1j}&\\ l_{n1}a_{11} & & & \\ \end{array} \end{bmatrix} \\ &=\begin{bmatrix} \begin{array}{c|ccc} a_{11} & a_{12} & \cdots & a_{1n} \\ \hline 0 & & & \\ \vdots&&a_{ij}-l_{i1}a_{1j}&\\ 0 & & & \\ \end{array} \end{bmatrix} \end{align}$

对于 $L_2$ ，类似的，只需要解一个 $n-1$ 维的子问题

对于 $L_k$ 和 $A_{k-1}$

$\begin{align} l_{ik}&=a^{(k-1)}_{ik}/a_{kk}^{(k)}\\ a_{ij}^{(k)} &= a_{ij}^{(k-1)}-l_{ik}a_{kj}^{(k-1)} \end{align}$

重复以上步骤直到 $k=n-1$ ，最终，有：

$L_{n-1}L_{n-1}\cdots L_2L_1A = A^{(n-1)}\equiv U$

$L =(L_{n-1}L_{n-1}\cdots L_2L_1)^{-1}$

Theorem:

$L = I+l_1e_1^\top+\cdots+l_{n-1}e_{n-1}^\top$

proof:

$L = L_1^{-1}\cdots L_{n-1}^{-1}$

首先证明 $L_{j}^{-1} = I+l_je_j^\top$ ，recall that $L_j = I-l_je_j^\top$

$\begin{align} (I+l_je_j^\top)(I-l_je_j^\top) &= I-l_je_j^\top l_je_j^\top\\ &=I-l_j(e_j^\top l_j)e_j\\ &=I-0=I \end{align}$

根据定义 $l_j$ 的第 $j$ 位是 0，而 $e_{j}$ 只有第 $j$ 位是1，因此内积为0

然后使用归纳法：

$\begin{align} L_1^{-1}L_2^{-1}&=(I+l_1e_1^\top)(I+l_2e_2^\top)\\ &=I+l_1e_1^\top+l_2e_2^\top+l_1e_1^\top l_2e_2^\top\\ &=I+l_1e_1^\top+l_2e_2^\top+l_1(e_1^\top l_2)e_2^\top\\ &=I+l_1e_1^\top+l_2e_2^\top \end{align}$

和前面同样的道理

如果 $L_{1}^{-1}\cdots L_{k}^{-1} = I+l_1e_1^\top+\cdots+l_ke_k^\top$ ，则

$\begin{align} L_{1}^{-1}\cdots L_{k+1}^{-1} &=(I+l_1e_1^\top+\cdots+l_ke_k^\top)(I+l_{k+1}e_{k+1}^\top)\\ &=I+l_1e_1^\top+\cdots+l_ke_k^\top+l_{k+1}e_{k+1}^\top+l_1(e_1^\top l_{k+1})e_{k+1}^\top+\cdots+l_k(e_k^\top l_{k+1})e_{k+1}^\top\\ &=I+l_1e_1^\top+\cdots+l_ke_k^\top+l_{k+1}e_{k+1}^\top \end{align}$

检查 $L$ 是不是单位上三角阵：

$\begin{align} [L]_{ij} &= e_i^\top Le_j=e_i^\top (I+l_1e_1^\top+\cdots+l_{n-1}e_{n-1}^\top)e_j\\ &=I_{ij}+e_i^\top l_j\quad(e_i^\top e_j=0\text{ if }i\neq j)\\ &=\left\{\begin{aligned} &1+0=1&&\text{if }i=j\\ &0+0=0&&\text{if }i<j\\ &0+l_{ij}=l_{ij}&&\text{if }i>j \end{aligned}\right. \end{align}$

因此

$L =\begin{bmatrix}1&&&&\\l_{21}&1&&&\\l_{31}&l_{32}&1&&\\\vdots&\vdots&\ddots&\ddots\\l_{n1}&l_{n2}&\cdots&l_{nn-1}&1\end{bmatrix}$

最终算法

计算复杂度

$\sum_{k=1}^{n-1}\big((n-k)+2(n-k)^2\big)=\sum_{k^\prime=1}^{n-1}\big(k^\prime+2(k^\prime)^2\big) = \mathcal O(n^3)$

Example

$A=\begin{bmatrix}2&1&-1\\4&5&-3\\-2&5&-2\end{bmatrix}$

code

import numpy as np


def LU(A):
    assert A.shape[0] == A.shape[1]
    for k in range(A.shape[0] - 1):
        l = np.zeros((A.shape[1], 1))
        # l_{ik} = a_{ik}/a{kk}, i\in[k+1,n]
        l[k + 1:, 0] = A[k + 1:, k] / A[k, k]
        # A_{ij} = a_{ij} - l_{ik}a_{kj}
        A[k + 1:, k + 1:] = A[k + 1:, k + 1:] - l[k + 1:, :] @ A[k:k + 1, k + 1:]
        # use the lower triangular part of A to save l
        A[k + 1:, k:k + 1] = l[k + 1:, :]
    L = np.tril(A, k=-1) + np.eye(A.shape[0])
    U = np.triu(A, k=0)
    return L, U


A = np.array([[2, 1, -1], [4, 5, -3], [-2, 5, -2]])
L, U = LU(A)
print(L @ U)

变体

Pivoted LU decomposition

在LU分解中，有可能遇到 $a_{kk}=0$ 的情况，此时算法无法继续。Pivoted LU decomposition 引入主元，即 $n-k+1$ 矩阵左上角的元素。每次通过行交换选择最大的元素作为主元。使用矩阵 $P$ 记录行交换过程，即

$PA = LU$

最终再交换回去。

同理可以进行列交换

$PAQ = LU$

Cholesky分解

Theorem:

如果 $A\in\mathbb R^{n\times n}$ 是一个半正定矩阵，则存在一个分解：

$A = LL^\top$

其中 $L$ 是一个下三角矩阵（不一定是单位下三角）

proof:

因为 $A$ 时一个半正定矩阵，因此所有的顺序主子式都可逆。所以存在一个 $LU$ 使得 $A=L_0U$

令 $D={\rm diag}(U)$ ， $D$ 可逆（我们假设主元不为0，这样的话 $U$ 的对角线元素中也不会有0）

$A = L_0U=LD(D^{-1}U)=L_0DU_0$

其中 $U_0$ 是一个单位上三角阵。且 $U_0=L_0^\top$ ，因为：

$\begin{gather} A^\top = A \Rightarrow U_0^\top DL_0 = L_0DU_0\\ L_0^{-1}U_0^\top D = DU_0L_0^{-\top} \end{gather}$

其中， $L_0^{-1}U_0^\top$ 是一个下三角阵， $U_0L_0^{-\top}$ 是一个上三角阵

上三角阵的逆是上三角阵，下三角阵的逆是下三角阵

因此 $L_0^{-1}U_0^\top$ 和 $U_0L_0^{-\top}$ 是对角阵（一个上三角阵等于一个下三角阵）。因此 $L_0^{-1}U_0^\top=U_0L_0^{-\top}=I\Rightarrow U_0=L_0^\top$

因此

$A = L_0DL_0^\top$

接下来证明 $d_{ii}>0$ :

令 $x=L_0^{-\top}e_i\neq 0$

$x^\top Ax =e_i^\top L_0^{-1}(L_0DL_0^\top)L^{-\top}e_i=e^\top_iDe_i = d_{ii}>0$

令

$D^{1/2} = \begin{bmatrix} \sqrt{d_{11}}&\cdots&0\\ \vdots&\ddots&\vdots\\ 0&\cdots&\sqrt{d_{nn}} \end{bmatrix}$

$L = L_0D^{1/2}$

$A = L_0D^{1/2}D^{1/2}L_0^\top = LL^\top$

Algorithom

由于 $L = L_0D^{\frac12}$ ，因此在每一步都把 $l$ 乘一个 $u_{ii}$ 就可以了。
由于 $L_0 = U_0$ 因此在第二个for循环中只需要计算一半。
之所以第二个循环 $j=i~{\rm to}~n$ 部分要用 $a_{jk}$ 或 $l_{jk}$ 是因为 $A^{(1)}=L_1A = (I-l_1e_1^\top)A = A-l_1\tilde a_1$ 中 $L_1$ 发生了变化，在Cholesky分解中，L大概长这样，所以之前的一些性质失效了。

$\begin{gathered}\mathbf{L}_i:=\begin{pmatrix}\mathbf{I}_{i-1}&0&0\\0&\sqrt{a_{i,i}}&0\\0&\frac{1}{\sqrt{a_{i,i}}}\mathbf{b}_i&\mathbf{I}_{n-i}\end{pmatrix},\end{gathered}$

现在的算法基于以下事实：

$\begin{gather} \mathbf{A}^{(i)}=\begin{pmatrix}\mathbf{I}_{i-1}&0&0\\0&a_{i,i}&\mathbf{b}_i^*\\0&\mathbf{b}_i&\mathbf{B}^{(i)}\end{pmatrix},\\ \mathbf{A}^{(i+1)}=\begin{pmatrix}\mathbf{I}_{i-1}&0&0\\0&1&0\\0&0&\mathbf{B}^{(i)}-\frac{1}{a_{i,i}}\mathbf{b}_i\mathbf{b}_i^*\end{pmatrix},\\ \mathbf{A}^{(i)}=\mathbf{L}_i\mathbf{A}^{(i+1)}\mathbf{L}_i^* \end{gather}$

Example

code

def Cholesky_Decomposition(A):
    assert A.shape[0] == A.shape[1]
    for k in range(A.shape[0] - 1):
        l = np.zeros((A.shape[1], 1))
        A[k,k] = np.sqrt(A[k,k])
        l[k + 1:, 0] = A[k + 1:, k] / A[k, k]
        # A_{ij} = a_{ij} - l_{ik}a_{kj}
        A[k + 1:, k + 1:] = A[k + 1:, k + 1:] - l[k + 1:, :] @ l[k+1:,:].T #A[k:k + 1, k + 1:]
        # use the lower triangular part of A to save l
        A[k + 1:, k:k + 1] = l[k + 1:, :]
    A[-1,-1] = np.sqrt(A[-1,-1])
    L = np.tril(A, k=0)
    U = np.triu(A, k=0)
    return L, U


A = np.array([[5, 2, 5], [2, 4, 3], [5, 3, 10]],dtype=np.float64)
L, U = Cholesky_Decomposition(A)