IBISMLに行けなくて悔しかったのでスライドを読んで気分を盛り上げる

というわけでIBISMLのうち、いくつかスライドが公開されているので今更読み始めた。

http://ibisml.org/001/


ざっと見た感じで興味があったのは

津田宏治、「複合ソート法による高速な全ペア類似度検索」 
岡野原大輔、「大規模文字列解析の理論と実践」 

のふたつ。「複合ソート・・・」は各データ点に対して類似したデータを見つけてくる話。SketchSortという高速な手法の紹介がされてた。全部のデータ点と比較すると大変なので、データ点のベクトルをLSHでビット列(sketch)にしてから複合ソート(いくつかのビットを隠してソート。前方一致してなくても共通ビットが多いと近くにくる。)するという話。の気がする。
「大規模・・・」は大規模データから部分文字列の頻度を計算する話。過去に何度か岡野原さんが発表されていた内容を詰め込んだ感じ。Sequence Memoizerというのが新しい(はず)が私はPitman-Yor過程とかよくわからないのでなんともいえない。。。それ以外ではWavelet Tree, BWT, FM-Indexなど。
ついでに予備スライドにしれっと出てきていたGraftingが良くわからなかったので調べてしまった。正則化付き最適化によって素性選択をするよ。勾配が大きい素性から順番に使うよ。という感じ。ということで結局、予備スライドに書いてある部分が最も簡潔でわかりやすかったのだが、一応元論文へのリンクもはっておく。

Grafting: Fast, Incremental Feature Selection by Gradient Descent in Function Space