PLSV@uchiumi log

uchiumi先生がperlでPLSVを実装したそうです。
http://uchiumi.blogspot.com/2009/12/plsv.html


PLSVというのは多次元空間上のデータ点を
2,3次元(要するに人が認識できる次元)に
マップする技術でMDS(多次元尺度構成法)みたいなもの。
MDSと違うのは、直接2,3次元にマップするのではなく
データ点のトピックも同じ枠組みで扱っているところ。

================================================

具体的にいうと各データ点が複数の単語で構成されているときに
データ点のトピック比率を潜在変数として
EMアルゴリズムで3種類のパラメータ
(トピックごとの単語の分布、トピックの座標、文書の座標)を求めることになる。
トピックによる制約がかかるので、
データ点同士が直接共通の単語を持っていなくても
にたようなトピック比率を持っていたら近くに配置されたりするらしいよ。

================================================

uchiumi先生にサンプルを見せてもらったのだが
なかなか精度が高くて良い感じ。
時代は"V"なのか。

参考:トピックモデルに基づく文書群の可視化
http://www.kecl.ntt.co.jp/as/members/iwata/plsv.pdf