Introduction to Semi-Supervised Learning #6

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

Introduction to Semi-Supervised Learning (Synthesis Lectures on Artificial Intelligence and Machine Learning)

6. Semi-Supevised Support Vector Machines

6.1 Support Vector Machines
  • SVMの概要説明。
    • マージン最大化を制約付き最適化問題に帰着して解く
    • 線形分離可能でない訓練事例に対してはスラック変数(制約の緩和量)を導入して対応
    • 正則化リスク最小化として定式化することもできる
    • その場合,損失関数はhinge loss function,正則化項はL2。
  • カーネルトリックなどの説明はS3VMの導入には不要なので省略
6.2 Semi-Supervised Support Vector Machines
  • ラベルあり事例とラベルなし事例の双方をマージン外に置く。
  • 損失関数として,hat loss functionを用いる
  • S3VMの目的関数はnon-convexなので,局所最適解に陥ってしまうことがある。
6.3 Entropy Regularization
  • SVMもS3VMも確率モデルではない
  • ロジスティック回帰モデルをS3VMの確率モデルと考えることができる
  • logistic lossがhinge loss,entropy regularizerがhat lossに対応する。
6.4 The Assumption of S3VMs and Entropy Regularization
  • クラスはwell-separatedである,という前提が崩れると良い境界面を見つけ出すことができない
  • 特に,分布の低密度なところが識別境界にならない場合,その影響が顕著である。

7. Human Semi-Supervised Learning

  • 人間の学習モデルと機械学習モデルの比較
  • 簡単なタスクでは半教師あり学習と同じようなことをしている
    • ラベルなしデータを活用している
  • 複雑なタスクでは,ラベルなしデータは学習結果に影響しない。

8. Theory and Outlook

無線LAN親機新調

9年ほど使ってきたBuffalo BLR-TX4(WLI-PCM-L11Gで無線化)の調子が悪くなってきたので,無線LAN親機を新調しました。購入したのはWHR-HP-GNです。

BUFFALO エントリーモデル 無線LANルーター Air Station 単体 WHR-HP-GN

BUFFALO エントリーモデル 無線LANルーター Air Station 単体 WHR-HP-GN

IEEE802.11b(11Mbps)からIEEE802.11g(54Mbps)になったので,とても快適になりました。主な用途は,iPod Touchからの接続ですが,Speed Testで16Mbpsくらいでるようになりました。以前は4Mbpsぐらいでした。接続も安定しています。良い買い物でした。

パターン,Wiki,XP 〜時を超えた創造の原則

パターン、Wiki、XP ~時を超えた創造の原則 (WEB+DB PRESS plusシリーズ)

パターン、Wiki、XP ~時を超えた創造の原則 (WEB+DB PRESS plusシリーズ)

ソフトウェア設計の定石集であるデザインパターンアジャイルな開発手法であるエクストリームプログラミング(XP),知のコラボレーションシステムであるWiki。これらの起源がどこにあるのか?,を建築家クリストファー・アレグザンダーまで遡って歴史を振り返っています。

ソフトウェア開発におけるパターンは,アレグザンダーが考え出した建築手法の一つである「パターンランゲージ」を起源としています。また,Wikiもパターンを記述して共有するためにつくられました。建築からソフトウェア開発,そしてWiki。この流れを「パターン」を軸に説明しています。
その中で,

p.143

アレグザンダーが建築の世界で無名の質を備えた建築を追い求めたように,ベックは無名の質を備えたソフトウェアを目標とし,カニンガムは無名の質を備えたWebサイトを目標とした

p.146

無名の質を備えたコミュニティとは,生き生きとした持続性のある発展可能なコミュニティでもあるのです。

とあるように「無名の質」という概念がキーになっています。

p.184

無名の質とは,古い都市の調和した街並みが備えている生き生きとした建物や街が持つ特性です。この思想に強く共鳴したソフトウェアの世界の人々もまた,「無名の質」という「言葉にできない何か」を実現することに惹きつけられていたのかもしれません。

この「無名の質」という概念。まだ,私はきっちりとは理解できていませんが,計算機が作り出す世界を考えていく上で非常に重要な概念だと感じました。

iPhoneとツイッターは,なぜ成功したのか

iPhoneとツイッターは、なぜ成功したのか?

iPhoneとツイッターは、なぜ成功したのか?

ネットを日々チェックしていれば,おおよそ把握できていることですが,一冊の本としてまとまっているので,自分の考えを整理するのに良いです。 

メモ

ツイッター上のつぶやき(ツイート)が注目を集めるのは,感覚器官に刺激を受けて脳が興奮した状態。その興奮状態がソーシャルブックマークという短期記憶に蓄えられ,グーグルという長期記憶に刻まれていく。

グーグル社内は,人と人がつながりやすいよう注意深く設計されているのが特徴だ。たとえば,人々が移動する通り道には自由に使える会議スペースだとか,カフェテリアが配置されている。

あまり情報に飢えていない人でも振り向かすことができる情報がある。私はそうした情報では3つの軸が重要だと考えている。3つの軸とは,「時間軸」「親密軸」,そして「空間軸」だ。

今の時代で生き残るには,企業も個人も,より生物的に動くしかない。こまめにたくさん試行錯誤して,ダメだったことについては素早く軌道修正をかけること。

働くとは,他社と価値を交換し,社会や経済の循環に参加することではないか。

初めてのRuby(Yugui)

初めてのRuby

初めてのRuby

エッセンスを簡潔に説明しているので,とてもわかりやすいです。説明していないことは,「本章で扱っていないこと」としてきちんと列挙されており,後から追加学習する際にも参考になります。

電子図書館(長尾真)

電子図書館 新装版

電子図書館 新装版

1994年に岩波科学ライブラリーからこの本が出版されたときに一度読んでいます。しかし,その時には,この本に書かれていることの重要性に気づきませんでした。当時はWindows 95が発売される前,ノートパソコンや携帯電話も普及していない状況でした。このような時代に,10年先,20年先に図書館がどうなるか,書籍がどうなるかについて,あるべき姿をきちんと論考しておられる長尾先生の凄さに驚きました。今読めば,すんなりと受け入れられる内容ですが,これが約15年前にかかれた内容だということを意識して読むと,いろいろと考えさせてくれます。

メモ

新装版にあたって

p.vi

本という一つの単位をその中に存在する章や節,paragraphといった任意の単位に解体し,利用者の欲する単位で必要なところだけを提供することである。

p.viii

検索して得られる情報はかならずしも正確であるとは限らない。あるいはどこまで信頼できるものかが分からない。そこで取り出された情報の信頼性を推定したり,その情報に対立している情報が存在していればそれも同時に示すといった研究も始められている。情報検索から事実検索へという動きである。

3.図書館情報の組織化

p.46

新しい電子図書館において取り扱う情報については次のようなことを今後早急に検討しなければならない。
(1) 電子図書館に収納される情報は図書,資料などのように一冊単位かもしれないが,利用のために取り出す情報の単位はさらに細かいものである。何がその最小基本単位かは対象とする図書や資料によっても異なり,うまく設定する必要がある。
(2) 収納された情報が取り出されるためには,その情報へのアクセスパス(取り出し経路)がつけられねばならない。そのために情報の基本単位に対して何らかの取り出しを目的とした情報(タグ)が付与されねばならない。
(3) アクセスパスはできる限り複数個あることが必要である。異なった観点から目的とする情報に行きつくことができねばならない。

5.マルティメディア図書館

p.88

一般的にいって自然言語文で書かれている抄録を対象とするよりは,用語あるいは用語の組み合せである名詞句だけからなる目次部分の方が検索の対象として取り扱いやすいし,目次は章,節,項といった階層性を持っているので,この階層性の情報を利用すればより正確な検索が実現できる。

6.電子読書

p.104

子読書機は次のような機能を含んでいる必要がある。
(1) マルチウインドウシステム
(2) 読んでいる本に対するアンダーライン記入機能,しおりをはさんで次回そこから読みつないでゆける機能,付箋(タグ)をつけてそこにメモを記入することの出来る機能,カットアンドペースト機能など
(3) 読書しながら自分の原稿用紙に原稿を書いたり,メモ帳に自由にメモをとったり,論文を書いたりできる機能
(4) 読書中,あるいは執筆中に,辞書を引いたり,百科事典などを参照したり,またその時点で必要とする図書資料の検索が自由にできること(情報探索読書)

ネットがあれば履歴書はいらない(佐々木俊尚)

タイトル通りの本。セルフブランディングがどうして必要か,ネットを使ってどうやってセルフブランディングをしていくかについて書かれています。社外で通用する人材になっていくためには,この本に書かれているセルフブランディングを意識しながら,仕事をしていく必要があります。セルフブランディングだけが重要なのではなく,セルフブランディングを意識することで,力(技術力,専門力)を高めていくことが大事です。

メモ

第1章 「会社の名前で仕事をする」時代は終わった

p.23

転職での面接の際,「僕は営業も人事も総務も経理も,一通り経験し,社内ではチームワークを大事にやっていました」といっても,何の取り柄もない人にしか見えない。

p.30

とはいえ,「あなたに何ができるのか?」と質問された際に,即答できるような人はそう多くはいないだろう。だからといって,流されながら働いているだけでは,これからの時代でより良い環境を維持し続けることは難しい。もちろん,いまの日本であれば最低限の生活は保証されているし,死ぬこともないだろう。しかし,それではいつかじり貧に追い込まれる可能性が高い。
 だからこそ,専門性を持つことが大事なのだ。

p.32

会社で自分の専門性を高めることができないのなら,自らのブランド価値は自らで高めていかなければならない。そしてバリューを高め,自分自身で一企業という枠のなかだけでなく,外の世界,つまりは勤務先以外に,そのバリューを広めていかねばならないのだ。

第6章 情報はどの程度までさらすべきか

p.206

実名ないしペンネームによる共通した名前を持ち,それを使い続けながら言論活動をすることが必要になってくるのだ。

p.208

生き残っていくためには,極めて高い専門的な能力を持っているか,コミュニケーション能力が高いかのどちらかになり得るしかない。しかし,極めて高い専門的な能力を持っている人など,数えるほどしかいないのが現実だ。となれば,コミュニケーション能力を高めることが重要になってくる。