本当は連休中にやろうと思っていたんだが、サボったので本日色々と修正。
それにしてもJAXBがJDKに含まれなくなったのは地味に不便。いやmavenリポジトリから指定すれば良いのだけど結構抜ける。
新ジャンル作成バッチがDLSite.comのHTML変更に追随していなかったのをやっと直して、新ジャンルをいくつか追加した。しかしTwitterでちゃんとカードになったりならなかったりは謎だな。ヘッダは同じなんだが、Twitterのサーバからアクセスに行ったタイミングで何かが起きたのだろうか。それにしては割と安定して、同じURLでは同じ結果になる。
やっぱHTMLのパースは、速度を求めない処理の場合は、HTMLCleanerでXMLファイルにして、Pythonでやるのが一番、変更が楽な気がする。JDomとかJAXBだと割と修正箇所が多くなるし。
それにしてもJAXBがJDKに含まれなくなったのは地味に不便。いやmavenリポジトリから指定すれば良いのだけど結構抜ける。
新ジャンル作成バッチがDLSite.comのHTML変更に追随していなかったのをやっと直して、新ジャンルをいくつか追加した。しかしTwitterでちゃんとカードになったりならなかったりは謎だな。ヘッダは同じなんだが、Twitterのサーバからアクセスに行ったタイミングで何かが起きたのだろうか。それにしては割と安定して、同じURLでは同じ結果になる。
やっぱHTMLのパースは、速度を求めない処理の場合は、HTMLCleanerでXMLファイルにして、Pythonでやるのが一番、変更が楽な気がする。JDomとかJAXBだと割と修正箇所が多くなるし。
東京大学のデータサイエンティスト育成講座 ~Pythonで手を動かして学ぶデ―タ分析~
posted with amazlet at 19.05.11
塚本邦尊 山田典一 大澤文孝
マイナビ出版 (2019-03-14)
売り上げランキング: 252
マイナビ出版 (2019-03-14)
売り上げランキング: 252