Introduction to Semi-Supervised Learning #2

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

自分用のメモ書きです。

2. Overview of Semi-Supervised Learning

2.1 Learning from both labeled and unlabeled data
  • 半教師あり分類(semi-supervised classification)
    • ラベル付き事例とラベルなし事例の両方を使う
    • ラベルなし事例の方が圧倒的に多い
  • 教師あり学習がなぜ必要か
    • ラベル付き事例を作成するのは大変だが,ラベルなし事例はたくさん存在
    • 教師あり学習と同等レベルの性能を,より少ないラベル付き事例から学習することで,ラベル付与のコストを削減
2.2 How is semi-supervised learning possible?

ある分布(ガウス分布など)からラベルなし事例を抽出したと仮定する。つまり,p(x|y)(x:事例,y:クラス)がある分布にしたがっていると仮定する。

2.3 Inductive vs. Transductive semi-supervised learning
  • inductive semi-supervised learning
    • 学習事例に含まれてないラベルなし事例の予測精度を高める
  • transductive learning
    • 学習事例に含まれているラベルなし事例の予測精度を高める
2.4 Caveats

周辺分布p(x)と条件付き確率p(y|x)の関係に対する仮定が成り立つかどうかが,半教師あり学習の成否を決める。

2.5 Self-training models

ラベル付きデータで学習した学習器(マッピング関数f)を使って,ラベルなしデータのラベルを予測。その中から信頼度の高いものを選び,学習事例に追加して再学習する。これを繰り返す。

self-trainingがうまくいくための仮定は,分類対象のクラスが適切に分離された(well-separated)クラスタであることである。

self-trainingの良いところは,学習器を任意に選べるラッパーメソッドであることである。
悪いところは,初期段階で誤った学習事例を追加してしまうと,その後,連鎖的に誤った学習をしてしまうことである。