基本的にJava派ではあるんだが、HTML解析だけは面倒臭いのー。でもPythonだと'〜', '‖', '−', '¢', '£', '¬'への対処とかの処理をまた作らねばならず面倒。
あとorg.htmlparser.Parser が何故か日本語文字が結構化けるようになってしまった。変だなー。
http://blog.mwsoft.jp/article/34580324.html <--ライブラリとして利用
http://www.syboos.jp/opensource/bookmark/detail/java-htmlcleaner.html <-- コマンドラインから単体で実行可能
をかましてXMLなDOMで処理するか。