まったく最小二乗法は最高だぜ!な「イラストで学ぶ機械学習」を読み終えた。
「イラストで学ぶ機械学習」という機械学習の本を読んだので感想を書いておく。
なお本書にはMatlabのコードが書いてある場合があるけど、Matlabに詳しくないので読み飛ばした。
対象となる読者
あくまで私の主観だけど、以下のような人が読むと良さそうな感じ。
・機械学習の基礎は知っている(パーセプトロンくらいは実装できる) ・機械学習の論文に出てくる用語が理解できる ・確率の基礎は知っている(条件付き確率とか、周辺確率とか) ・最適化の基礎は知っている(ラグランジュの未定乗数法がわかる) ・行列の演算がわかる(これはわからなくても適当に読み飛ばせば大丈夫かも) ・機械学習で知っておいたほうが良いことを手早く把握したい ・まったく識別関数は最高だぜ!と思っている ・損失関数について理解を深めたい ・正則化について理解を深めたい ・次元削減について理解を深めたい ・転移学習について理解を深めたい ・密度比推定に強い関心がある ・杉山先生のファンだ
本書の概要
・バッチ学習で解析的に解が求まるものが多い ・なのでメモリにのるくらいのデータ量を想定している ・データ量よりも特徴量の数のほうが多いことを想定している ・オンライン学習の章だけは例外 ・式の導出はあんまり書いてないので導出は自分でor読み飛ばす方向で ・イラストは本書の内容と全く関係がない ・図(グラフ)はわかりやすいのでとても参考になる
本書特有の用語
本書ではアルゴリズムに対してあまり一般的でない表現(訳)をしていることが多いので簡単にメモ。ほかにもあるかも。
K平均クラスタリング: k-means サポートベクトル分類器: サポートベクターマシン, SVM, Support Vector Machine ランダム森: ランダムフォレスト, Random Forest 受動攻撃学習: PA, Passive Aggressive 適応正則化学習: AROW, Adaptive Regularization of Weights p.47の"スパースな解を得るためには"のところの更新式: FOBOS, Forward Backward Splitting
内容について
1-2章: 導入部。まずは書店でここを読んで、厳しいようなら購入は見送ったほうがよい。 ここに書いてある内容は当然知ってるくらいでないと3章以降がつらい。 3-8章: 損失関数や正則化についてとてもよく解説された章。 本書のメインパート。 基本的には延々と回帰と2値分類の話なので飽きたら9章以降を先に見るのもあり。 8章のSVMは説明不十分なので赤本を読んだほうがよい。 9-19章: 基本的には章ごとに独立しているので興味のある章からどうぞ。 時々前の章に言及してたりするのでそのへんは必要に応じて読む。 10,11章はここだけ識別モデルの話なのでちょっと浮いてる(他は識別関数)。 とくに11章はCRFの話なので系列ラベリング/構造学習に興味ない人はスルーで。 15章のオンライン学習はPAとAROWについて書いてある。 半教師あり学習、次元削減あたりは図が豊富なこともあってかなりわかりやすい気がする。
買って良かった?
はい。理解がおぼろげだった部分が随分スッキリしました。
あわせて読みたい
http://d.hatena.ne.jp/mamoruk/20130926/p1