クローリングする先のサイトのHTML変更に合わせて解析箇所も随時追従しないといけないんだけどサボってた。
HTMLは直接解析は中々厳しいので、HTMLCleanerで一旦XMLにして、それを解析するのが楽。
Pythonは数人以上でとりくむような代物だとやってられないけれど、この程度の処理だとJavaよりも楽ですな。全部設定ファイルなので引数を受け取る処理が先ず不要になるし。