W trakcie rozwijania i testowania, jak mi się wtedy wydawało, finalnej wersji HTMLBeans, światło dzienne ujrzała biblioteka HTMLCleaner 2.1, będąca odpowiednikiem JTidy. Temat zainteresował mnie na tyle, iż postanowiłem zorganizować tzw. “parse off”, czyli małe zawody parser’ów HTML, żeby porównać, czy pachnący świeżością HTMLCleaner istotnie jest lepszy od wiekowego już nieco JTidy.
Pisząc niewielki framework do pewnej gry web’owej (FallenSword) natknąłem się na problem “wyjmowania” z kodu HTML pewnych danych i zapisywania ich jako zwykłych POJO. Przez około miesiąc walczyłem z różnymi koncepcjami realizacji tego zadania, od parserów SAX i DOM, aż to samego XPath.
Continue reading »


