テキストマイニングの事例集。色々あるなー。やはり分類はナイーブベイズ分類が定石らしい。
「文章のジャンル判別に寄与する指標の分析」で、「手」を含む動詞慣用句と形容詞慣用句、つまり「手をこまねく」とか「手を打つ」とか「手を取り合う」とか、の使い方によって、論文を、人文科学系、自然科学系、社会科学系に100%判別に成功するというのが面白かった。
後は、小中学生の作文にて、学年の違いを見分ける特徴的な語彙要素とか。

コーパスとテキストマイニングコーパスとテキストマイニング
石田 基広

共立出版 2012-12-08
売り上げランキング : 284475

Amazonで詳しく見る
by G-Tools