自然言語処理の前処理については、図書館で借りて来た後述の2つの書籍に詳しい記載があった。いや人工知能ブームだけあって機械学習本は沢山ありますな。
どちらかと言うと「15ステップで踏破…」の方がMeCaBへの辞書登録のやり方やユニコード正規化とかまで書いてあって便利かな。
正規化処理をまとめて行ってくれるneologdnはcondaからはインストールできないのでpipから。
pipからのインストールにはVC++のインストールが事前に必要なので注意。
あと、どうも結局、MeCaBのコンストラクタにファイルを指定する場合はタグは行番号にしかならない模様。
どちらかと言うと「15ステップで踏破…」の方がMeCaBへの辞書登録のやり方やユニコード正規化とかまで書いてあって便利かな。
正規化処理をまとめて行ってくれるneologdnはcondaからはインストールできないのでpipから。
pipからのインストールにはVC++のインストールが事前に必要なので注意。
あと、どうも結局、MeCaBのコンストラクタにファイルを指定する場合はタグは行番号にしかならない模様。
中山光樹
マイナビ出版
2020-02-27