imyt’s learning space

Introduction to Semi-Supervised Learning #3

book

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

作者: Xiaojin Zhu,Andrew B. Goldberg
出版社/メーカー: Morgan and Claypool Publishers
発売日: 2009/09/15
メディア: ペーパーバック
購入: 1人クリック: 52回
この商品を含むブログ (9件) を見る

自分用のメモ書きです。

1. Introduction to Statistical Machine Learning

2. Overview of Semi-Supervised Learning

3. Mixture Models and EM

3.1 Mixture model for supervisd classification

2つのガウス分布（クラスAの分布とクラスBの分布）から事例が生成されていると仮定し，ラベル付き事例とラベルなし事例から，この二つの分布のパラメータ（平均，分散，事前確率）を推定する。

p(y|x)を最大化するクラスに分類

Bayes Rule: p(y|x) = p(x|y)p(y)/...
- p(x|y): class conditional probability（クラス条件付き確率）
- p(y): prior probability（事前確率）

生成モデルの例
- ガウス混合分布モデル（Gaussian Mixture Model）
- 混合多項分布モデル（Multinominal Mixture Model）
- 隠れマルコフモデル（Hidden Markov Model, HMM）

最尤推定（maximum liklihood estimate, MLE）
- 訓練事例D，パラメータθ
- P(D|θ)を最大にするパラメータを求める
- ラグランジュの未定乗数法を使って計算
  - 事前確率=各クラスに含まれる事例の割合
  - 平均=各クラスに含まれる事例の平均
  - 分散=各クラスに含まれる事例の分散

3.2 Mixture models for semi-supervised classification

半教師あり学習では，解析的にMLEを計算することはできないが，EMアルゴリズムのような繰り返し手続きによって局所最適解を求めることができる。

p(D|θ)にラベルなし事例の周辺確率p(x|θ)が加わる。

ラベルなし事例のラベルを隠れ変数という。

HMMに対するEMアルゴリズムは，Baum-Welchアルゴリズムと呼ばれる。

3.3 Optimization with the EM algorithm

E-step: 現時点のモデルパラメータを使って隠れ変数の分布を求め，M-step: その分布を使って，尤度関数を最大化するモデルパラメータを更新
EMアルゴリズムは初期値に依存する局所最適解しか求められない。

EMアルゴリズムはself-trainingの特殊形とみなせる。違いは，ラベルなしデータに対して，確信度の高いラベルを付与する（self-training）のか，各ラベルへの寄与度を付与する（EMアルゴリズム）である。

3.4 The assumptions of mixture models

混合分布モデルの仮定
- コンポーネントの数，事前確率，クラス条件付き確率のすべてが正しい

分布が四つにわかれるのに，それを二つに分けようとすると，うまくいかない場合がある。こういう場合，教師あり学習のみを使用した方がうまくいく。あるいは，尤度関数におけるラベルなしデータの寄与率を下げて学習する。

3.5 Other issues in generative models

idenfitiability
- 分布が同じ＝パラメータが同じ
- GMMはidentifiableであるがそうではないモデルもある

局所最適解の問題
- EMアルゴリズムは局所最適解しかもとめられない。
- ランダムに選択した初期値から始めることで回避できる（かもしれない）
- EMアルゴリズム以外の手法として擬似ニュートン法がある。

3.5 Cluster-then-label methods

ラベルあり事例とラベルなし事例を合わせた事例に対して，クラスタリングアルゴリズムでクラスタリング（教師なし）する。その後，教師あり学習でラベルなし事例に対してラベルを付与する。