P21〜に日本語圏ブログの自動分類の話が。
ベイズ法による2クラス分類って要はSPAMか否かの判定をジャンルの回数分だけ行う方式。
Xeon 2.4GHz×2CPU、メモリ4GBのIA32サーバを2台で91カテゴリ判定に1記事50秒だったのをキャッシュ方式頑張って2秒にした話。結構掛かるようだ。確かに以前私もアフィの作品解説だいたい100件程度をlucene-gosenで単語分解しただけで20分位かかってこれはやってられんとなったからな…。まぁあの時は少々安直でジャンルの回数だけ毎回毎回同じ記事を単語分解してたからさもありなんだが…。
分解にはChasenにIPADIC辞書、分類機に使った品詞は名詞、形容詞、動詞のみだそうな。どうもMeCab派とChasen派が居るようだ。