ブッチャーばんざい!「Information Retrieval(Buttcher本)」を読み始めたよ

タイトルのブッチャーばんざい!は某ロマンシングなRPGより。
以前@sleepy_yoshiさんにものすごい勢いで薦められて気になっていたButtcher本こと「Information Retrieval: Implementing and Evaluating Search Engines」がようやく手元にきたので読み始めた。私は情報検索の教科書はそんなに詳しくないのだが@sleepy_yoshiさんが他書と比較しつつ本書の優れている点を書いてくださっているので是非参考に。

情報検索ことはじめ〜教科書編その2 (2011年決定版) 〜 - 睡眠不足?!

ざっと見た感じだと検索エンジンに必要な技術について実装から評価まで(まさしくサブタイトル通り!)広い範囲を的確にまとめている感じでとても好印象だった。擬似コードが豊富だしメモリやディスクについても意識した書き方をしていてとても参考になる。
以下、目次など。


本書の詳細は以下を見ると良い。本の内容も一部Chapterについては読むことができる(結構な分量がある)ので購入前に一度試しに読んでみると良い。

Information Retrieval: Implementing and Evaluating Search Engines

で。目次を抜き出してみる。

I Foundations
   1 Introduction
   2 Basic Techniques
   3 Tokens and Terms

II Indexing
   4 Static Inverted Indices
   5 Query Processing
   6 Index Compression
   7 Dynamic Inverted Indices

III Retrieval and Ranking
   8 Probabilistic Retrieval
   9 Language Modeling and Related Methods
  10 Categorization and Filtering
  11 Fusion and Metalearning

IV Evaluation
  12 Measuring Effectiveness
  13 Measuring Efficiency

V Applications and Extensions
  14 Parallel Information Retrieval
  15 Web Search
  16 XML Retrieval

VI Appendix
   A Computer Performance

「I Foundations」は情報検索の基礎が書いてある。「2 Basic Techniques」でざっとindexing、retrieval、ranking、evaluationに触れていて、これらはII、III、IVでそれぞれ掘り下げられている。「3 Tokens and Terms」は単語についての話。英語以外にもCJK(中日韓)の言語についてもざっと触れられている。
「II Indexing」はindexingの対象が固定の場合、追加削除更新などがある場合について書かれている。またindexの圧縮についても書いてある。
「III Retrieval and Ranking」はモデルに関する話が大半。言語モデルのことを生成モデル(generative model)として紹介されているのは情報検索の本だとちょっと珍しいかも。またCategorizationについての分類が的確でこの手の本で機械学習についてここまで書いてあるのは珍しいかな、と。特にmargin perceptronやkernel perceptronのアルゴリズムが紹介されているのにはちょっと驚いた。perceptronは実装が簡単な割に識別モデルの基礎が詰まっているのでperceptronを大きく取り上げているのはとても素晴らしいと思いました(キリッ。
「IV Evaluation」は評価の話。精度、速度両面について書いてある。
「V Applications and Extensions」はまだあんまし読んでない。。。

というわけでこれからシッカリ読んでいきますよ!いえーい。