Introduction to Semi-Supervised Learning #3

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

自分用のメモ書きです。

3. Mixture Models and EM

3.1 Mixture model for supervisd classification
  • 2つのガウス分布(クラスAの分布とクラスBの分布)から事例が生成されていると仮定し,ラベル付き事例とラベルなし事例から,この二つの分布のパラメータ(平均,分散,事前確率)を推定する。
  • p(y|x)を最大化するクラスに分類
  • Bayes Rule: p(y|x) = p(x|y)p(y)/...
    • p(x|y): class conditional probability(クラス条件付き確率)
    • p(y): prior probability(事前確率)
  • 生成モデルの例
  • 最尤推定(maximum liklihood estimate, MLE)
    • 訓練事例D,パラメータθ
    • P(D|θ)を最大にするパラメータを求める
    • ラグランジュの未定乗数法を使って計算
      • 事前確率=各クラスに含まれる事例の割合
      • 平均=各クラスに含まれる事例の平均
      • 分散=各クラスに含まれる事例の分散
3.2 Mixture models for semi-supervised classification
  • 教師あり学習では,解析的にMLEを計算することはできないが,EMアルゴリズムのような繰り返し手続きによって局所最適解を求めることができる。
  • p(D|θ)にラベルなし事例の周辺確率p(x|θ)が加わる。
  • ラベルなし事例のラベルを隠れ変数という。
3.3 Optimization with the EM algorithm
  • E-step: 現時点のモデルパラメータを使って隠れ変数の分布を求め,M-step: その分布を使って,尤度関数を最大化するモデルパラメータを更新
  • EMアルゴリズムは初期値に依存する局所最適解しか求められない。
  • EMアルゴリズムはself-trainingの特殊形とみなせる。違いは,ラベルなしデータに対して,確信度の高いラベルを付与する(self-training)のか,各ラベルへの寄与度を付与する(EMアルゴリズム)である。
3.4 The assumptions of mixture models
  • 混合分布モデルの仮定
  • 分布が四つにわかれるのに,それを二つに分けようとすると,うまくいかない場合がある。こういう場合,教師あり学習のみを使用した方がうまくいく。あるいは,尤度関数におけるラベルなしデータの寄与率を下げて学習する。
3.5 Other issues in generative models
  • idenfitiability
    • 分布が同じ=パラメータが同じ
    • GMMはidentifiableであるがそうではないモデルもある
3.5 Cluster-then-label methods