JsoupでHTMLをパース
Jsoup
Mavenリポジトリはこちら。
読み方は「じぇいすーぷ」って感じですかね? Javaライブラリのご紹介です。
以前までは Apache で開発していた Apache Fluent というライブラリを使ってHTTPクライアントを作っていたのですが、取得したHTMLソースコードの解釈までしてくれる Jsoup の方が便利そうなのでご紹介。
String url = "http://blog.tomehachi.net"; Document doc = Jsoup.connect(url).get();
HTTP GET するためのコードはこれだけ。
ここまでの使い勝手ならば、Apache Fluent とそう変わらないのですが、いいなと思ったのはここから。
取得したコンテンツ(HTML)を Document オブジェクトとして格納してくれ、更にその中を スタイルシートのセレクタ感覚で要素を取り出してくれます。
String title = doc.select("div.site-branding h1").text();
この Document オブジェクトで色んな情報をパッと取ってこれるので、とても便利。
ちょっとしたコードを書きたいとき、非常に重宝しています。
詳しくは 公式Webサイト で。
この投稿へのトラックバック
トラックバックはありません。
- トラックバック URL
この投稿へのコメント