JsoupでHTMLをパース

Jsoup

Mavenリポジトリはこちら

読み方は「じぇいすーぷ」って感じですかね? Javaライブラリのご紹介です。
以前までは Apache で開発していた Apache Fluent というライブラリを使ってHTTPクライアントを作っていたのですが、取得したHTMLソースコードの解釈までしてくれる Jsoup の方が便利そうなのでご紹介。

String url = "http://blog.tomehachi.net";
Document doc = Jsoup.connect(url).get();

HTTP GET するためのコードはこれだけ。

ここまでの使い勝手ならば、Apache Fluent とそう変わらないのですが、いいなと思ったのはここから。
取得したコンテンツ(HTML)を Document オブジェクトとして格納してくれ、更にその中を スタイルシートのセレクタ感覚で要素を取り出してくれます。

String title = doc.select("div.site-branding h1").text();

この Document オブジェクトで色んな情報をパッと取ってこれるので、とても便利。
ちょっとしたコードを書きたいとき、非常に重宝しています。

詳しくは 公式Webサイト で。

この投稿へのコメント

コメントはありません。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

この投稿へのトラックバック

トラックバックはありません。

トラックバック URL