imyt’s learning space

Introduction to Semi-Supervised Learning #4

book

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

作者: Xiaojin Zhu,Andrew B. Goldberg
出版社/メーカー: Morgan and Claypool Publishers
発売日: 2009/09/15
メディア: ペーパーバック
購入: 1人クリック: 52回
この商品を含むブログ (9件) を見る

自分用のメモ書きです。

1. Introduction to Statistical Machine Learning

2. Overview of Semi-Supervised Learning

3. Mixture Models and EM

4. Co-Training

4.1 Two views of an instance

固有名詞分類（named entity classification）における事例の素性の二つの見方
- 固有名詞そのものの単語列
- 固有名詞の周辺にある単語列

4.2 Co-Training

素性空間を二つに分割:素性空間１，２
素性空間１でラベル付き事例を学習：分類器１
素性空間２でラベル付き事例を学習：分類器２
分類器１でラベルなし事例を分類し，信頼度の高いk個を分類器２の学習データに追加
分類器２でラベルなし事例を分類し，信頼度の高いk個を分類器１の学習データに追加
素性空間１でラベル付き事例＋追加事例を学習：分類器１
素性空間２でラベル付き事例＋追加事例を学習：分類器２
分類器１でラベルなし事例を分類し，信頼度の高いk個を分類器２の学習データに追加
分類器２でラベルなし事例を分類し，信頼度の高いk個を分類器１の学習データに追加
ラベルなしデータがなくなるまで繰り返す

二つの分類器が互いに教えあう。
Co-trainingはラッパーメソッドなので，分類結果にスコアを付与する分類器であれば使える。

4.3 The assumptions of co-training

二つの見方のそれぞれでも十分良い分類器がつくれること。
クラスラベルに対して二つの見方が条件付き独立であること。

Co-EM
- Co-TrainingのEMアルゴリズム版
- それぞれの見方の確率モデルを更新していく

4.4 Multiview Learning

損失関数（loss function）: c(x, y, f(x))
- 事例x, ラベルy, 分類器による予測f(x)
- 回帰では二乗誤差: (y-f(x))^2
- 分類では0/1 loss: 1 if y ≠ f(x), and 0 otherwise

経験損失（empirical risk）
- 訓練事例に対する損失関数の平均

経験損失最小化（empirical risk minimization, ERM）
- 訓練事例の間違いを最小化する。
- オーバーフィッティングしてしまうことがある。

正則化項（regularizer）の導入
- fの関数
- fがスムースであるほど0に近づく
- fがジグザグしていると値が大きくなる

正則化損失（regulalized risk）
- 経験損失と正則化項の線形和
- 正則化項はパラメータ空間中の球面半径を制約づけるもの

半教師あり学習では，正則化項は，ラベルありデータに対する正則化項と，ラベルなしデータに対する正則化項の線形和になる。

Multiview Learning
- k個の見方を持ったCo-trainingの一般化
- k個の学習器
- 可能であれば素性分割
- 異なるタイプの学習器を同じ素性集合に対して適用するケースをアンサンブル学習という
- ラベルありデータに対する正則化損失の総和と半教師あり正則化項の総和の線形和を最小化する
- 半教師あり正則化項は，ラベルなしデータに対するk個の仮説の不一致度

Two-View Linear Ridge Regression
- view: x=[x1,x2]
- regression function 1: f1(x)=w^T * x1
- regression function 2: f2(x)=v^T * x2
- 以下を最小化
  - \sigma(y-f1(x))^2 + \sigma(y-f2(x))^2 + λ1||w||^2 + λ1||v||^2 + λ2\sigma(f1(x)-f2(x))^2
- リッジ回帰：L2-ノルムが正則化項