2012-02-01から1ヶ月間の記事一覧

IME本でも紹介されているLOUDSのパワーアップ版、DFUDSを調べた

「日本語入力を支える技術(IME本)」で紹介されたことで一躍市民権を得た感のあるLOUDS(Level Order Unary Degree Sequence)。LOUDSとは木の簡潔データ構造で、小さいデータサイズで木が実現できるので日本語入力の辞書引きに使うトライ木をLOUDSで実装すると…

ブログでブックマーク数を稼ぐときはティッピングポイントを気にするといいのかも

先日部屋を掃除していたら昔購入した「急に売れ始めるにはワケがある(原題: The Tipping Point)」という本が出てきた。購入したはいいけど読む時間がなくて積ん読していたことを思い出した。 せっかくなので読んでみたら面白かった。ブログを書いているとブ…

気がついたら「お前のご奉仕はその程度か?」にハマっていた

森田季節先生の「お前のご奉仕はその程度か?」が実は超面白いのではないかという気がしてきた。1巻を読んだときは独特の文体(これでも森田作品では普通な方らしい)に圧倒されたが気がついたら抜け出せない所まで来ていた。 なにやらドラマCDが出ていたり、…

Compressed Suffix ArrayとFM-Indexの性能を比較してみた

せっかくFM-Indexを実装したので、以前作ったCompressed Suffix Arrayとの性能比較をしてみた。 私の実装の比較なので本来の手法の良し悪しとは必ずしも一致しない可能性がある。あくまで参考程度に。

FM-Indexライブラリに文書検索機能を実装しました

ウェーブレット木ライブラリShellinfordのFM-Indexクラスに文書検索機能を追加実装したので公開しておく。 shellinford - shellinford: succinct document retrieval library - Google Project Hosting An alphabet-friendly FM-index P. Ferragina, G. Manz…

簡潔データ構造を使った全文検索アルゴリズム、FM-Indexのライブラリを作りました

先日公開したウェーブレット木のライブラリshellinfordにFM-Indexの機能を追加した。 まだ基本的な機能しか実装していないけれど、とりいそぎ公開しておく。おいおい機能は追加していく予定。 shellinford - shellinford: succinct document retrieval libra…

自作ウェーブレット木ライブラリshellinfordのパフォーマンス測定をしてみた

自作ウェーブレット木ライブラリshellinfordのパフォーマンス測定をしてみた。 shellinford - shellinford: succinct document retrieval library - Google Project Hosting

自然言語処理とか機械学習とかグラフとか簡潔データ構造とか全部入った良書「日本語入力を支える技術」がすごい

@tkngさんの力作「日本語入力を支える技術」が2/8に発売される。既に秋葉原のヨドバシ有隣堂や池袋のジュンク堂本店では早売りされている様子。ってことで早速購入してきた。 本書が扱うテーマはGoogleIMEのような「日本語入力」のシステム。これだけだとさ…

「mixi Engineers’ Seminar #3」に参加しました

参加してきました。簡単にメモ。 mixi Engineers' Blog >> mixi Engineers’ Seminar #3のお知らせ

ウェーブレット木のライブラリshellinfordを作ったので公開しておく

ついかっとなってウェーブレット木のライブラリを作ってみた。せっかくなので公開しておく。LOUDSはerika-trieを作ったので今度はウェーブレット木を作りたかった。 ライブラリ名はおおかたの予想を裏切りshellinford。かびーん。 なお、ウェーブレット木で…