Web scraping de HTML/XML com o jsoup [Java]

O jsoup é uma biblioteca Java usada para scraping (extração de dados) de HTML/XML para Java. Permite também manipular e gerar HTML. Tem uma linha de desenvolvimento estável, boa documentação e uma API fluente e flexível. Repare como é simples imprimir os parágrafos de uma página:

Document doc = Jsoup.connect("http://example.com").get();
doc.select("p").forEach(System.out::println);

Leia o artigo na íntegra no site oficial Baeldung, onde o publiquei originalmente (em inglês).

Anúncios

Deixe uma Resposta

Preencha os seus detalhes abaixo ou clique num ícone para iniciar sessão:

Logótipo da WordPress.com

Está a comentar usando a sua conta WordPress.com Terminar Sessão /  Alterar )

Google+ photo

Está a comentar usando a sua conta Google+ Terminar Sessão /  Alterar )

Imagem do Twitter

Está a comentar usando a sua conta Twitter Terminar Sessão /  Alterar )

Facebook photo

Está a comentar usando a sua conta Facebook Terminar Sessão /  Alterar )

Connecting to %s

Create your website at WordPress.com
Get started
%d bloggers like this:
search previous next tag category expand menu location phone mail time cart zoom edit close