2009年2月1日 星期日

perl module for xhtml

在茫茫的 CPAN 大海中搜尋簡單好用可靠的且支援 selector 的 xhtml module 還真是不容易。要不是 Encoding有問題,要不就是 selector 沒辦法用 - 字元,要不,就會出現一些異常的問題。

關於這幾種需求,列出兩個我覺得不錯好用的 Module。

Miyagawa 有寫過 Web::Scraper Module,支援 CSS Selector , XPath,語法簡潔。但看 cpan 上的 Synopsis 可能還不夠,這邊還有另外的範例。

Ingy 的 pQuery ( Perl Port of jQuery ) : 利用 HTML::TreeBuilder 以及 HTML::Entities 寫出這樣巧妙模組,有好用的 find() , each() 等等。此外要注意的是,從檔案載入 UTF-8 encode 的檔案,要先用 Encode::decode_utf8 處理一下,中文parse 出來才不會有問題。