imyt’s learning space

Introduction to Semi-Supervised Learning

book

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

作者: Xiaojin Zhu,Andrew B. Goldberg
出版社/メーカー: Morgan and Claypool Publishers
発売日: 2009/09/15
メディア: ペーパーバック
購入: 1人クリック: 52回
この商品を含むブログ (9件) を見る

自分用のメモ書きです。

Introduction to Statistical Machine Learning

2章以降の準備の章です。機械学習に用いるデータ，教師なし学習と教師あり学習を簡単に説明しています。

データ
- インスタンス（instance）
  - あるオブジェクトを表現するD次元素性ベクトル
- 訓練事例（training sample）
  - 学習の入力となるインスタンスの集合
  - 未知の確率分布Pから抽出されたものと仮定

教師なし学習（unsupervised learning）
- 代表例
  - clustering, novelty detection, dimensionality reduction
- クラスタリング（clustering）
  - 似ているデータを同じクラスタ，似ていないデータを別のクラスタにわける
- 階層的クラスタリング（hierarchical agglomerative clustering）
  - 一番距離が小さいクラスタをまとめていく
  - クラスタ間の距離計算の方法にはいくつかのやり方がある

教師あり学習（supervised learning）
- インスタンスにラベルが付いている
- ラベル付きの訓練事例から学習する
  - インスタンスからラベルへの関数fを求める
- ラベルのついていないインスタンスのラベルを予測する

- クラスタリング
  - ラベルが離散的（discrete）な値の場合，fを分類器（classifier）

- 回帰（regression）
  - ラベルが連続的（continuous）な値の場合，fを回帰関数（regression function）

- fの良さ
  - 損失関数（loss function，例えば二乗和誤差）の値が小さくなるようなfを見つける
  - もとの確率分布は未知なので訓練事例で計算する
  - しかし，訓練事例だけだと過学習（overfit）を引き起こす
  - ラベル付きインスタンスを訓練事例とテスト事例に分割し，テスト事例に対するエラーで評価

- 過学習
  - 訓練事例に対しては高精度だが，新しい事例に対しては低精度
  - 訓練事例に含まれる統計的なノイズが影響

- 計算論的学習理論（computational learning theory）
  - 訓練事例に対するエラー（training sample error）と真のエラー（true error）の関係をモデルの複雑さ（VC次元，Radamacher Complexity）で説明
  - 複雑になりすぎないように正則化（regularizing）

- kNN (k-nearest-neighbor) classifier
  - 分類したいインスタンスの近傍k個のインスタンスについているラベルの多数決で判断
  - 素性空間（feature space）を領域にわける
  - その境界を決定境界（decision boundary）