計算機科学

IBISMLに行けなくて悔し(ry その2

というわけでその2。昨日は話題が興味あったものについて触れたので、今日は純粋に発表資料として良いなあ、と思ったものをメモしておく。こういう資料を作れるようになりたい。 http://ibisml.org/001/

IBISMLに行けなくて悔しかったのでスライドを読んで気分を盛り上げる

というわけでIBISMLのうち、いくつかスライドが公開されているので今更読み始めた。 http://ibisml.org/001/

小平邦彦 著 解析入門Ⅰを再読中

そろそろ勉強する気力がでてきたので小平先生の解析入門を読み返していた。本書は大学院時代に@kzakさんに勧められて読んだのだが、何度読んでも新発見がある。というか未だに読みこなせていない。。 解析学というのは数学科の学生だときちんと学ぶのかもし…

Vertical Codeはunary符号の6倍すごい

Vertical Codeを実装してみたらunary符号のときよりデータサイズが1/6になった。とても感動したので、この気持ちを伝えるため記事を書いてみるよ。Vertical Codeを使うことになった経緯は↓を参照 Vertical Codeを調べたよ - EchizenBlog-Zwei

Vertical Codeを調べたよ

故あってCompressed Suffix Array(CSA)を実装していたのだがΨ Vectorのデータ構造にunary符号を採用したら圧縮前よりもサイズが大きくなるという惨事が発生。 これに対処するため急遽データ構造をVertical Codeに変更した。デルタ符号(δ符号)並の圧縮率で、…

Compressed Suffix Arrayの解説(6) -B Vectorと Ψ Vector-

Compressed Suffix Arrayの解説(5) -Succinct Bit Vector- Compressed Suffix Arrayの解説(7) -Succinct Bit Vector-Suffix Arrayの復元 >================================================前回までSuffix Array、unary符号、Siccinct Bit VectorというConp…

Compressed Suffix Arrayの解説(5) -Succinct Bit Vector-

Compressed Suffix Arrayの解説(4) -unary記法- Compressed Suffix Arrayの解説(6) -B Vectorと Ψ Bector- >================================================ものすごい勢いで更新をサボっていたCSAの解説を再開。今回はSuccinct Bit Vectorというデータ構…

PICの説明の訂正

先日のPICの記事 http://d.hatena.ne.jp/echizen_tm/20100507/1273245974 で間違いがあると、tsubosakaさんに指摘していただいたのでこそっと修正。ごめんね。

PIC(Power Iteration Clustering)論文を読んだ

tsubosakaさんにPIC(Power Iteration Clustering)というのをお昼に紹介してもらったので、読んでみた。 Power Iteration Clustering Frank Lin and William W. Cohen

入門確率過程を読み直し

「ルベーグ積分30講」を15講まで読んだのでルベーグ測度について概観することができた。理解の程度を把握するため松原望先生の「入門確率過程」を読み直してみた。

Suffix Array向きのソートアルゴリズム

Suffix Arrayのソートアルゴリズムは以前当ブログで紹介したSAIS(参考)など、Suffix Arrayの性質を生かしたものが多い。そして一般にSuffix Arrayはバイト単位でインデックスを与えるので、これを前提としている場合が多い。大抵の場合はそれでOKなのだが、…

ルベーグ積分30講 11講まで読んだ

というわけでルベーグ積分。少しずつだけどちゃんと読んでるよ。11講でようやく測度空間が導入された。測度空間とは、論文とかでやたら見かけるX(B, m)というやつのこと。 以下に自分用メモを書いておく。あまり厳密に書いてないので注意。この本を読み終え…

TrueSkillとか

あらかたAISTATS2010の論文のアブストを読み終えた。長かった。知らないことが多すぎて厳しい。。 でゲームに関わる面白いものを見つけたのでメモ。

ひさびさにレコメンドまわりを

AISTATS2010よりレコメンド関連の論文をメモ。

ディリクレ過程(Dirichlet Process)を調査中

そろそろ階層ディリクレ過程(Hierarchical Dirichlet Processes)を理解したい気分だったので調査中。とりあえずディリクレ過程について現時点での理解をメモしておく。間違ってる可能性もあるので悪しからず。

AISTATS2010の論文読んだ

やはり研究者たるもの論文を毎日読まないと!(注:読めてません ということでAISTATS2010(AI & Statistics 2010)の論文を読んでみた。面白そうなのをピックアップしておく。斜め読みなので誤解があるかも。それとポスターセッションはまだチェックしてないの…

サポートベクターマシン入門しなおし

久々にサポートベクターマシン入門を読んだ。読んで字のごとくサポートベクターマシン(サポートベクトルマシン、SVM、Support Vector Machine)の入門書だ。 3年前に読んだときは機械学習の知識に乏しかったのでかなり苦労したのだが、今見返したら結構すらす…

オンラインEM(OnlineEM)論文

オンラインEMアルゴリズムの論文を読んだ。というか結構前に読んでいたのだが、何かと忙しくて記事にするのを忘れていた。そろそろ私の頭からも消えかかっていたので忘れないうちにメモ。 Online EM for Unsupervised Models

ラスベガス・アルゴリズム

ラスベガス・アルゴリズムというのを知った。名前がかっこいい。これは乱択アルゴリズム(randomized algorithm)のカテゴリの一つで、モンテカルロ・アルゴリズムと対になっている。

SAIS(Suffix Array - Induced Sorting)

SAIS論文を読了した。これは賢いなあと思った。ので概要だけ書いておく。 参考: SACAs(Suffix Array Construction Algorithms)

数学でよくある話

再生核ヒルベルト空間を倒したようだな。しかし、奴は我らの中でも一番の小物。次はこのヒルベルト空間が相手だ!

SACAs(Suffix Array Construction Algorithms)

先日のnlp2010で岡野原さんが紹介されていたSAISの論文を調査中。 Two Efficient Algorithms for Linear Suffix Array Construction まだ全部理解していないのだが、Introductionに書いてあったSACAs(Suffix Array Construction Algorithms)というのが面白か…

ギプスサンプラ(Gibbs sampler)

パラメータ列z={z1,z2,...,zn}の同時分布P(z)からサンプリングしたい。このとき直接P(z)からサンプリングするのは計算量が大きすぎる。しかし単体のパラメータziの条件付き確率P(zi|z~i)からのサンプリングは可能であるとする(z~iはzからziを除いたパラメー…

再生核ヒルベルト空間(reproducing kernel Hilbert space)

カーネル関数のお勉強をしていたら、再生核ヒルベルト空間(もしくは再生カーネルヒルベルト空間)は当然しってるよね的な展開になって困ったので調べてみた。

十分統計量(sufficient statistics)

最尤推定やEMアルゴリズムでは十分統計量(sufficient statistics)という概念が出てくる。特にEMアルゴリズムを実装する場合には十分統計量という考えを知っておいた方が良い。というわけで十分統計量についてメモしておく。

EMアルゴリズム

EMアルゴリズムについてメモ。

L1正則化の累積更新

L1正則化を累積更新するというTsuruoka氏の手法を、先日のNLP2010で岡野原さんが紹介されていたので該当論文を読んでみた。どういう事を書いているのかざっとメモ。ほんとに概要だけなので詳しくは↓をよむべし。 Stochastic Gradient Descent Training for L…

NLP2010いってきた

今日はNLP2010に行ってきた。メインは岡野原さんの発表。というわけで個人的に重要だと感じたところをメモ。

潜在変数とパラメータ行列

パラメータ行列のサイズが大きいとメモリに乗りきらなかったりする(唐突)。私が最近扱っていた、とあるモデルはパラメータがスパースなのでCRS(Compressed Row Strage)形式を使ってある程度効率的にデータを保持していた。 という話をメモっておいたらtsubos…

delta符号

先日gamma符号を紹介したので、今度はdelta符号を。 参考:gamma符号 delta符号はgamma符号と似ているのだが、大きな数値のときにgamma符号より少ないbitで済むように改良されている。一方で小さい数値の時はgamma符号のほうが効率が良い。