2024年09月

自然言語処理の前処理については、図書館で借りて来た後述の2つの書籍に詳しい記載があった。いや人工知能ブームだけあって機械学習本は沢山ありますな。
どちらかと言うと「15ステップで踏破…」の方がMeCaBへの辞書登録のやり方やユニコード正規化とかまで書いてあって便利かな。
正規化処理をまとめて行ってくれるneologdnはcondaからはインストールできないのでpipから。
pipからのインストールにはVC++のインストールが事前に必要なので注意。

あと、どうも結局、MeCaBのコンストラクタにファイルを指定する場合はタグは行番号にしかならない模様。





このエントリーをはてなブックマークに追加 mixiチェック

バッファロー怪人が敵ボスと戦いあっさり死んで、箸休めの後はサメ女怪人登場の巻。
サメ怪人と言えば、テレビ版ではヤマアラシ怪人の次に仮面ライダークウガを怒髪天を突いて怒らせた残虐極悪怪人ですな。
クウガライジングタイタンフォーム vs. アギトトリニティフォームの場面があって、この漫画の仮面ライダーアギトは大変な駄目人間なので勝負は見えていたけれど。まぁライジングタイタンはかなり強いフォームだしな。トリニティではな。


このエントリーをはてなブックマークに追加 mixiチェック

中国武漢発祥の新型コロナウィルスによる疫病に冒された時だったのでどうなる事かと思っていたが、何か受かってた。

general2024#5_regular
これで機械学習とディープラーニングの用語はばっちりである。用語がばっちりということは関連書籍を読んでも大丈夫という事だ。
ともあれ、これで会社のUdemy見放題への義理は果たしたので後は適当に趣味系の、MohoとかDavinchとか見てもバチは当たらないだろう。
合格証は
【合格証の発行】2024年10月7日(月)~2024年10月28日(月)
だそうで、随分長いな…。PDFなんだから今日送ってくれても良いのに…。


このエントリーをはてなブックマークに追加 mixiチェック

そろそろ10月だし来年の予定も入る頃だし、手帳買っとくか、と買ったんだが、今の手帳、何故か来年の3月まであったわ…ぐぬぬ…。


このエントリーをはてなブックマークに追加 mixiチェック

・日本語のストップワードは既に作られているので自作不要
https://qiita.com/y-s-y-s/items/c567117f0cf2be8c0acb
上記のslothlibはもう消えているので、以下を使う
https://qiita.com/picker/items/6c114b863134f4d6be88
・正規化モジュールneologdnについて
https://engineerblog.mynavi.jp/technology/nlp_stopword/
・サークル名は辞書登録した方が良さげ
https://qiita.com/nnahito/items/16c8e214d71fbc23ed8e
・辞書登録する際には読み仮名が必要なので読み仮名ライブラリ
https://note.com/dngri/n/n131eb5db725f
・Doc2Vecのチューニングパラメータ
https://deepage.net/machine_learning/2017/01/08/doc2vec.html


このエントリーをはてなブックマークに追加 mixiチェック

というのに竹芝桟橋から乗って来た。
甲板と廊下が浴衣を着たナウなヤングでごった返して立錐の地なしな感じだったが、我々はレストランに席を予約していたので椅子とテーブル、そして料理がついていて余裕である。
デートに来てるのも居て、若いのにここで抜かりなく予約コースとは中々出来る男だな。私だったら絶対無理だ。つかそもそも「納涼船に乗ろう」という発想がない。それ以前に「納涼船」の存在を知らないな。結婚してなかったら生涯乗る事も無かったね。
料理は弁当だけど結構旨かった。


このエントリーをはてなブックマークに追加 mixiチェック

劇場版ではなくテレビ放送版の後日談っぽい。
首の骨を折られ全身灰となって崩れ落ち、更にその灰が波にさらわれ、文字通り跡形もなく消え、完全に死亡でどうにも復活のしようがない、「実は謎の人物に拾われサイボーグとなって復活」も無理な感じで退場した仮面ライダーカイザの草加雅人が予告編で元気に戦っていたのでどうやって復活したんや…が最大の謎だったが、最初からもう普通にマリさんと洗濯屋とラーメン屋を経営しつつ「乾巧は何処へ行ったんだろうなぁ…」みたいな話をしていた。つかマリちゃん、美容師になるんじゃなかったんか…。
一応カイザ復活の説明は後で入るんだけど全体的に「細けぇこたぁいいんだよ!」なノリなのでまぁ、いんだよ、細けぇこたぁ。あの仮面ライダー555が出て来て主題歌が掛かればそれでヨシ。オートバジンも助けに来て言う事なしや。
でもTV版といい劇場版といいコレといい、最後にスマートレディーをやっつけず東京オペラシティを木端微塵にしないのは毎度どうかと思う。


このエントリーをはてなブックマークに追加 mixiチェック

バッファロー怪人の巻。バッファロー怪人のゲゲル、まだまだ続いていた…。
この漫画、仮面ライダーが怪人と戦う場面が1巻につき7,8ページくらいしかなくて、あとは怪人がそこらの人を殺しまくる場面が延々と続くのでちょっと辛い…。
ちなみにクウガがライジングタイタンフォーム、アギトがトリニティフォームに初めてなるんだけど、小競り合いしただけで取り逃がす始末よ…。駿河刑事(漫画オリジナルキャラ)と女囚アギト(漫画オリジナルキャラ)の方がまだ戦ってたわ…。新フォーム登場回位は普通に強敵怪人やっつけても良いんじゃないかな。


 
このエントリーをはてなブックマークに追加 mixiチェック

今日は涼しいから出掛ける予定だったが寝違えたでござる…。
ちなみに寝違えは「外傷(けが)」ではなく、軽い病気ですだそうで、「トマトは野菜ではなく果物です」感。


このエントリーをはてなブックマークに追加 mixiチェック

・1ジャンルの作品データを全部まとめて1つのTaggedDocumentとして学習すると数分で学習処理は終わるものの、判別が全然ダメ。
・タグを「ジャンル+作品タイトル」として個別の作品毎にTaggedDodumentとして学習させようとすると、メモリが全く足りない(全体の1/10位でメモリ使用量60GBに達する)。
ので、学習を複数回に分けて行いたい。
https://radimrehurek.com/gensim/auto_examples/tutorials/run_doc2vec_lee.html
をみると、
model = gensim.models.doc2vec.Doc2Vec(vector_size=50, min_count=2, epochs=40)
でインスタンス作成
model.build_vocab(train_corpus)
でコーパスを追加
model.train(train_corpus, total_examples=model.corpus_count, epochs=model.epochs)
でトレーニング
する模様。コーパス追加を複数回呼び出した場合、上書きになるのか追加になるのか、追加する手段はないか?を調査する必要がある。

https://radimrehurek.com/gensim/auto_examples/tutorials/run_doc2vec_lee.html
によると、modelのコンストラクタとは別に、
model.build_vocab(train_corpus)でコーパス追加
model.train()で学習(重み再計算)
らしい。できそう。
model = Doc2Vec.load(fname)  # you can continue training with the loaded model!
という記述もあるし、多分大丈夫だろう。
build_vocab()を2度呼び出して、model.dv['タグ']で検索して、追記した分とそれ以前の分の両方が返ってきたら、ちゃんと追記になっている事を確認できそう。

https://radimrehurek.com/gensim/models/doc2vec.html#gensim.models.doc2vec.Doc2Vec.build_vocab
によると、build_vocabのパラメータ「update」をtrueにすると追記になる模様。

★結局、コンストラクタはリストの他にファイルを指定できるようなので、一旦ファイルに吐き、それを読ませる方が良さげ
https://radimrehurek.com/gensim/models/doc2vec.html#gensim.models.doc2vec.Doc2Vec


このエントリーをはてなブックマークに追加 mixiチェック

↑このページのトップヘ