/ / Java Html парсер для вилучення конкретних даних? - Java, синтаксичний аналіз, веб-скребкування

Java Html parser для вилучення конкретних даних? - java, html-синтаксичний аналіз, веб-скребком

У мене є html-файл, як описано нижче

...
<span itemprop="A">234</span>
...
<span itemprop="B">690</span>
...

У цьому я хочу отримати значення як A і B.
Чи можете ви запропонувати будь-яку бібліотеку HTML-аналізатора для Java, яка може це зробити легко?

Відповіді:

3 для відповіді № 1

Особисто я віддаю перевагу JSoup над JTidy. Він має CSS-подібність селектори, а документація набагато краща, імхо. За допомогою JSoup ви можете легко витягти ці значення за допомогою наступних рядків:

Document doc = Jsoup.connect("your_url").get();
Elements spans = doc.select("span[itemprop]");

for (Element span : spans) {
System.out.println(span.text()); // will print 234 and 690
}

1 для відповіді № 2

http://jsoup.org/

JSoup - це шлях.


1 для відповіді № 3

JTidy це заплутано названий, але шанований парсер HTML.