Introduction to Semi-Supervised Learning

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

自分用のメモ書きです。

  1. Introduction to Statistical Machine Learning

2章以降の準備の章です。機械学習に用いるデータ,教師なし学習教師あり学習を簡単に説明しています。

  • データ
    • インスタンス(instance)
      • あるオブジェクトを表現するD次元素性ベクトル
    • 訓練事例(training sample)
      • 学習の入力となるインスタンスの集合
      • 未知の確率分布Pから抽出されたものと仮定
    • クラスタリング
      • ラベルが離散的(discrete)な値の場合,fを分類器(classifier)
    • 回帰(regression)
      • ラベルが連続的(continuous)な値の場合,fを回帰関数(regression function)
    • fの良さ
      • 損失関数(loss function,例えば二乗和誤差)の値が小さくなるようなfを見つける
      • もとの確率分布は未知なので訓練事例で計算する
      • しかし,訓練事例だけだと過学習(overfit)を引き起こす
      • ラベル付きインスタンスを訓練事例とテスト事例に分割し,テスト事例に対するエラーで評価
    • 過学習
      • 訓練事例に対しては高精度だが,新しい事例に対しては低精度
      • 訓練事例に含まれる統計的なノイズが影響
    • 計算論的学習理論(computational learning theory)
      • 訓練事例に対するエラー(training sample error)と真のエラー(true error)の関係をモデルの複雑さ(VC次元,Radamacher Complexity)で説明
      • 複雑になりすぎないように正則化(regularizing)
    • kNN (k-nearest-neighbor) classifier
      • 分類したいインスタンスの近傍k個のインスタンスについているラベルの多数決で判断
      • 性空間(feature space)を領域にわける
      • その境界を決定境界(decision boundary)