NLP2010いってきた
今日はNLP2010に行ってきた。メインは岡野原さんの発表。というわけで個人的に重要だと感じたところをメモ。
- オンライン学習(1h)
[教師あり学習] - Adaptive Regularization of Weight Vectors(AROW) -- 正則化付きCW。ノイズに強い - Confidence Weighted Algorithm(CW) -- 各パラメータをガウス分布(平均と分散)で持つ -- 多くの言語処理問題で最高精度 -- ノイズに弱い [正則化付き学習] - Forward Backward Spliting(FOBOS) -- L1正則化(精度を保ちつつ、パラメータ数を減らせる) -- 元FOLOS。改名しました [教師なし学習] - Online EM -- 通常のEMより収束が速い
- 疎ベクトルと文字列データ構造(0.5h)
[疎ベクトル] - New PFOR -- 復元速度が速い。圧縮率もそこそこ [文字列データ構造] - SAIS -- Suffix Arrayの拡張 -- O(N)時間、Nlog_2(N) bitsで構築可能 - 拡張接尾辞配列(Suffix Array + Burrows Wheeler変換 + Heigth配列)
- 乱択化アルゴリズム(0.5h)
- Hash Feature -- 素性をハッシュ値に変換して扱う -- 衝突の可能性有り -- 精度はそんなにかわらない
3つとも関心のある分野だったのでとても楽しめた。オンライン学習には以前から興味があったし、データ構造の話は最近Compressed Suffix Arrayを作っているのである程度勉強していたのだけれど、最後のハッシュの話は初耳だったので良い勉強になった。素性をハッシュ値にしても大丈夫ってすごいなあ、あとで試してみよう。。
他にはAROWやSAISなど名前は聞いたことあるけど、ちゃんと調べてなかったものについても説明が聞けてよかった。特にSAISはSuffix Array構築に必要なメモリが小さくて済むとのことで非常に需要があるのでは、と思った。既に高品質な実装があるそうなのでぜひ試したい。
(本音いうと自分で作りたいのだが、既に良いものがあるとなると・・・うーん、どうしようかな)
余談だが、本日は色々考えさせられることがあった。そろそろ生活環境を改善するべく動くときではないか!さしあたり水樹奈々成分を増やすところから始めたい。ハートキャッチ!