は中々優秀。ただしキャラクターセットは明示的に指定しないと文字化けする。自動解析に任せられない。
ちょっと遅くなるけど、HTMLをHTMLCleanerでXHTML化して DOMで解析 の方が、色々楽。元のデータを見ながら組む時にXMLとHTMLじゃやっぱXMLの方が親子関係見やすいし。
HTMLParserはメソッドとか、DOMに似てるようで微妙に違って困りますな。