線性代數 Cheat Sheet 6-8:內積空間的應用

1. 加權最小二乘法

設矢量 $\boldsymbol y$ 的 $n$ 次觀測值為 $y_1, \cdots, y_n$,且假設我們希望用屬於 $\mathbb{R}^n$ 的特定子空間的一個矢量 $\hat{\boldsymbol y}$ 逼近 $\boldsymbol y$。記 $\hat{\boldsymbol y}$ 的元素為 $\hat y_1, \cdots, \hat y_n$,那麼誤差的平方和或 $SS(E)$ 用 $\hat{\boldsymbol y}$ 逼近 $\boldsymbol y$ 後為

\begin{equation}

SS(E) = (y_1 – \hat y_1)^2 + \cdots + (y_n – \hat y_n)^2 \tag{1}

\end{equation}

利用 $\mathbb{R}^n$ 的標準長度的寫法,上式可以簡記為 $\lVert \boldsymbol y – \hat{\boldsymbol y} \rVert^2$。

現在,假設測量時 $\boldsymbol y$ 的各個元素的可靠性不同,那麼可靠性就變成 $(1)$ 式中平方誤差的適當權值,較可靠的測量應賦予更重要的作用。如果權值記為 $w_1^2, \cdots, w_n^2$,那麼加權的誤差平方和是

\begin{equation}

加權 SS(E) = w_1^2(y_1 – \hat y_1)^2 + \cdots + w_n^2(y_n – \hat y_n)^2 \tag{2}

\end{equation}

這是 $(\boldsymbol y – \hat{\boldsymbol y})$ 長度的平方,這裏的“長度”為內積

\begin{equation}

\langle\boldsymbol x, \boldsymbol y\rangle = w_1^2(x_1 y_1) + \cdots + w_n^2(x_n y_n)

\end{equation}

有時,可以方便地將這種加權最小二乘問題變換為等價的普通最小二乘問題。設 $W$ 是對角線上是正數 $w_1, \cdots, w_n$ 的對角矩陣,可得

\begin{equation}

W \boldsymbol y = \begin{bmatrix}

w_1 & 0 & \cdots & 0 \\

0 & w_2 & \cdots & 0 \\

\vdots & & \ddots &\vdots \\

0 & 0 & \cdots & w_n

\end{bmatrix}

\begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix} =

\begin{bmatrix} w_1 y_1 \\ w_2 y_2 \\ \vdots \\ w_n y_n \end{bmatrix}

\end{equation}

$W \hat{\boldsymbol y}$ 有類似的表達式,可以看到 $(2)$ 式的第 $j$ 項可寫成

\begin{equation}

w_j^2(y_j – \hat y_j)^2 = (w_j y_j – w_j \hat y_j)^2

\end{equation}

從而 $(2)$ 式中加權的 $SS(E)$ 就是 $\mathbb{R}^n$ 中 $W \boldsymbol y – W \hat{\boldsymbol y}$ 的普通長度的平方,它可以寫成 $\lVert W \boldsymbol y – W \hat{\boldsymbol y} \rVert^2$。

現在假設矢量 $\hat{\boldsymbol y}$ 的逼近是由矩陣 $A$ 的列構成($\hat{\boldsymbol y}$ 可以寫成 $A \boldsymbol x$,所以 $\hat{\boldsymbol y}$ 屬於 $A$ 的列空間),我們尋找一個 $\hat{\boldsymbol x}$,使得 $A \hat{\boldsymbol x} = \hat{\boldsymbol y}$ 儘可能接近 $\boldsymbol y$。然而,逼近的度量是加權誤差

\begin{equation}

\lVert W \boldsymbol y – W \hat{\boldsymbol y} \rVert = \lVert W \boldsymbol y – WA\hat{\boldsymbol x} \rVert

\end{equation}

這樣 $\hat{\boldsymbol x}$ 是方程

\begin{equation}

WA\boldsymbol x = W \boldsymbol y

\end{equation}

的(普通)最小二乘解,此最小二乘解的法方程是

\begin{equation}

(WA)^\mathsf{T}WA\boldsymbol x = (WA)^\mathsf{T}W\boldsymbol y

\end{equation}

2. 數據趨勢分析

設特定函數 $f$ 僅知道在點 $t_0, \cdots, t_n$ 處的值,如果數據 $f(t_0), \cdots, f(t_n)$ 中有一個“線性趨勢”,那麼我們期望用形如 $\beta_0 + \beta_1 t$ 的函數得到 $f$ 的近似值。如果數據有一個“二次趨勢”,我們會嘗試用形如 $\beta_0 + \beta_1 t + \beta_2 t^2$ 的函數。

在某些統計問題中,將線性趨勢從二次趨勢中分離出來是非常重要的。如果一個函數由形如 $y = beta_0 + \beta_1 t + \beta_2 t^2$ 的函數來逼近,那麼係數 $\beta_2$ 也許不能給出期望的二次趨勢的數據,因為在統計學意義下,它和其他 $\beta_i$ 相關。為進行數據的 趨勢分析 ,我們引入空間 $\mathbb{P}^n$ 上的內積。對屬於 $\mathbb{P}^n$ 的 $p, q$,定義

\begin{equation}

\langle\boldsymbol p, \boldsymbol q\rangle = p(t_0)q(t_0) + \cdots + p(t_n)q(t_n)

\end{equation}

實際上,統計學家很少需要考慮階數高於三次或四次的趨勢。所以,假設 $p_0, p_1, p_2, p_3$ 表示 $\mathbb{P}^n$ 的子空間 $\mathbb{P}^3$ 的正交基,它可以將多項式 $1, t, t^2, t^3$ 應用格拉姆-施密特方法得到。存在一個屬於 $\mathbb{P}^n$ 的多項式 $g$,它在 $t_0, \cdots, t_n$ 的值與未知函數 $f$ 一致。令 $\hat g$ 是 $g$ 在 $\mathbb{P}^3$ 上的正交投影,如

\begin{equation}

\hat g = c_0p_0 + c_1p_1 + c_2p_2 + c_3p_3

\end{equation}

那麼 $\hat g$ 稱為數據的立方 趨勢函數 ,$c_0, \cdots, c_3$ 稱為數據的 趨勢係數 。其中 $c_1$ 表示線性趨勢,$c_2$ 表示二次趨勢,$c_3$ 表示立方趨勢。結果是如果數據具有某些性質,則這些係數相互獨立。

由於 $p_0, \cdots, p_3$ 是正交的(注意 $c_i = \langle g, p_1 \rangle / \langle p_i, p_i\rangle$),故趨勢係數可逐次計算且相互獨立。如果我們僅需要二次趨勢,則可以忽略 $p_3$ 和 $c_3$。

3. 傅里葉級數

連續函數常用正弦和餘弦函數的線性組合來逼近。為簡單起見,考慮 $0 \leq t \leq 2\pi$ 上的函數,任何 $C[0, 2\pi]$ 上的函數可以由下列形式的函數任意逼近:

\begin{equation}

\frac{a_0}{2} + a_1 \cos t + \cdots + a_n \cos nt + b_1 \sin t + \cdots + b_n \sin _nt \tag{3}

\end{equation}

如果自然數 $n$ 足夠大,$(3)$ 中的函數稱為 三角多項式 。如果 $a_n$ 和 $b_n$ 不同時為零,則多項式稱為是 $n$ 階 的。三角多項式和 $C[0, 2\pi]$ 上的其他函數之間的聯繫依賴於下列事實:對任何 $n \geq 1$,集合

\begin{equation}

\{1, \cos t, \cos 2t, \cdots, \cos nt, \sin t, \sin 2t, \cdots, \sin nt\} \tag{4}

\end{equation}

關於如下定義的內積是正交的:

\begin{equation}

\langle f, g \rangle = \int_0^{2\pi} f(t)g(t) \mathrm{d}t

\end{equation}

設 $W$ 是 $C[0, 2\pi]$ 中的子空間,且由 $(4)$ 中的函數所生成。對 $C[0, 2\pi]$ 中的函數 $f$,$W$ 中用函數對 $f$ 的最佳逼近稱為 $f$ 在 $[0, 2\pi]$ 上的 $n$ 階傅里葉逼近 。由於 $(4)$ 中的函數是正交的,因此給出的最佳逼近是 $W$ 上的正交投影。在這種情形下,$(3)$ 式中的係數 $a_k$ 和 $b_k$ 稱為 $f$ 的 傅里葉係數 。標準的正交投影公式表明

\begin{equation}

a_k = \frac{\langle f, \cos kt \rangle}{\langle \cos kt, \cos kt \rangle}, \; b_k = \frac{\langle f, \sin kt \rangle}{\langle \sin kt, \sin kt \rangle}, \; k \geq 1

\end{equation}

由 $\langle \cos kt, \cos kt \rangle = \pi$ 和 $\langle \sin kt, \sin kt \rangle = \pi$,得

\begin{equation}

a_k = \frac{1}{\pi} \int_0^{2\pi} f(t) \cos kt \mathrm{d}t, \; b_k = \frac{1}{\pi} \int_0^{2\pi} f(t) \sin kt \mathrm{d}t \tag{5}

\end{equation}

正交投影中的(常數)函數 $1$ 的係數是

\begin{equation}

\frac{\langle f, 1 \rangle}{\langle 1, 1 \rangle} = \frac{1}{2\pi} \int_0^{2\pi} f(t) \cdot 1 \mathrm{d}t = \frac{1}{2}\big[\frac{1}{\pi} \int_0^{2\pi} f(t) \cos(0 \cdot t) \mathrm{d}t\big] = \frac{a_0}{2}

\end{equation}

其中 $a_0$ 是 $(5)$ 式中 $k = 0$ 的情形,這就解釋了 $(3)$ 中的常數項為什麼寫成 $\frac{a_0}{2}$。

函數 $f$ 與傅里葉逼近之差的範數稱為逼近的 均方誤差 (術語“均”是相對於積分定義中的範數而言的)。可以證明,當傅里葉級數的階數增加時,均方誤差趨於零。由於這個原因,它常常寫成

\begin{equation}

f(t) = \frac{a_0}{2} + \sum_{m = 1}^{\infty}(a_m \cos mt + b_n \sin mt)

\end{equation}

$f(t)$ 的這個表達式稱為 $f$ 在 $[0, 2\pi]$ 上的 傅里葉級數 。例如,項 $a_m \cos mt$ 是 $f$ 在由 $\cos mt$ 生成的一維子空間上的投影。