imyt’s learning space

Introduction to Semi-Supervised Learning #2

book

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

作者: Xiaojin Zhu,Andrew B. Goldberg
出版社/メーカー: Morgan and Claypool Publishers
発売日: 2009/09/15
メディア: ペーパーバック
購入: 1人クリック: 52回
この商品を含むブログ (9件) を見る

自分用のメモ書きです。

1. Introduction to Statistical Machine Learning

2. Overview of Semi-Supervised Learning

2.1 Learning from both labeled and unlabeled data

半教師あり分類（semi-supervised classification)
- ラベル付き事例とラベルなし事例の両方を使う
- ラベルなし事例の方が圧倒的に多い

制約クラスタリング（constraind clustering）
- ラベルなし事例とクラスタ制約
- must-link（事例が同じクラスタ）
- cannot-link（事例が別のクラスタ）

半教師あり学習がなぜ必要か
- ラベル付き事例を作成するのは大変だが，ラベルなし事例はたくさん存在
- 教師あり学習と同等レベルの性能を，より少ないラベル付き事例から学習することで，ラベル付与のコストを削減

人間の学習は半教師あり学習

2.2 How is semi-supervised learning possible?

ある分布（ガウス分布など）からラベルなし事例を抽出したと仮定する。つまり，p(x|y)（x:事例，y:クラス）がある分布にしたがっていると仮定する。

2.3 Inductive vs. Transductive semi-supervised learning

inductive semi-supervised learning
- 学習事例に含まれてないラベルなし事例の予測精度を高める
transductive learning
- 学習事例に含まれているラベルなし事例の予測精度を高める

2.4 Caveats

周辺分布p(x)と条件付き確率p(y|x)の関係に対する仮定が成り立つかどうかが，半教師あり学習の成否を決める。

教師あり学習と3つの半教師あり学習を使った実際の例
- generative model with two Gaussian distributions
- semi-supervised SVM
- graph-based model

2.5 Self-training models

ラベル付きデータで学習した学習器（マッピング関数f）を使って，ラベルなしデータのラベルを予測。その中から信頼度の高いものを選び，学習事例に追加して再学習する。これを繰り返す。

self-trainingがうまくいくための仮定は，分類対象のクラスが適切に分離された（well-separated）クラスタであることである。

self-trainingの良いところは，学習器を任意に選べるラッパーメソッドであることである。
悪いところは，初期段階で誤った学習事例を追加してしまうと，その後，連鎖的に誤った学習をしてしまうことである。