Learning with Local and Global Consistency-526互联

Zhou D., Bousquet O., Lal T. N., Weston J. and Scholk\ddot{o}pf B. Learning with local and global consistency. NIPS, 2003.

概

似乎是 graph signal denosing 框架的雏形.

\(\mathcal{X} = \{x_1, \ldots, x_l, x_{l+1}, \ldots, x_n\} \subset \mathbb{R}^{m}\), 点集;
\(\mathcal{L} = \{1, \ldots, c\}\), label set;
\(x_1, \ldots, x_l\) 知道标签 \(y_1, \ldots, y_l\), 其余的点未被打标签.

我们希望为没被打标签的点添加上标签, 所以本文实际上是一个半监督学习问题.
我们可以假设 \(F_i \in \mathbb{R}^c\) 为 score function, 然后通过:

\[\hat{y}_i = \text{argmax}_{j} F_{ij} \]
来预测.
对于每个点我们都要预测这样的一个 scores, 于是得到:

\[F = [F_1^T, \ldots, F_n^T]^T \in \mathbb{R}^{n \times c}. \]
作者通过如下算法得到这样预测矩阵:
1. 构建权重矩阵 \(W\) 满足:
  
  \[W_{ij} = \left \{ \begin{array}{ll} \exp(-\|x_i - x_j\|^2 / 2\sigma^2) & i \not = j,\\ 0 & i = j. \end{array} \right . \]
2. 构建 normalized 邻接矩阵 \(S = D^{-1/2} W D^{-1/2}\), 其中 \(D\) 为 diagonal degree matrix.
3. 重复:
  
  \[F(t+1) = \alpha S F(t) + (1 - \alpha) Y, \]
  直到收敛. 其中 \(\alpha \in (0, 1)\) 是人为给定的参数.
容易证明:

\[F^* = \lim_{t \rightarrow +\infty} F(t) = (1 - \alpha) (I - \alpha S)^{-1} Y \Leftrightarrow (I - \alpha S)^{-1} Y. \]
进一步地, 我们可以证明, \(F^*\) 实际上是下面问题的解:

\[\mathcal{Q}(F) = \frac{1}{2} \Bigg ( \text{trace}(F^TSF) + \mu \sum_{i=1}^n \|F_i - Y_i\|^2. \Bigg) \]