プログラミングの助け、質問への回答 / XHTML / Jsoupテキスト抽出 - xhtml、html-parsing、jsoup

Jsoupテキスト抽出 - xhtml、html-parsing、jsoup

ここに私が望む抽出ケースがありますJsoupにネイティブメソッドがあるかどうか、あるいは他のHTMLパーサが効果的に機能するかどうかを確認してください。 "StackOverFlow"と適切な文章を構成する近くのテキストを抽出したい次のページがあるとします。

<html> <head><title>A test page </title></head>
<body>
<p> Not relevant 1. </p>
<p> Not relevant 2.
<em> word1 word2 word3 <b> StackOverFlow </b> word4 word5 word6 </em>
</p>
</body>
</html>

抽出すべきテキストは、word1 word2 word3 StackOverFlow word4 word5 word6です。そしてこれではない：関連しない2. word1 word2 word3 StackOverFlow word4 word5 word6

つまり、Jsoupで文の境界を特定する方法はありますか？いくつかの正規表現について考えることができますが、より良い解決策があるのだろうかと思います。

回答：

回答№1は0

これを試して：

doc.select("em").text();

回答№2の場合は0

CSS JQueryの類似セレクタを使用するのが最善の方法です。「コンビネータ」についても読んでください。そうすれば、要素が子要素でなければなりません。

http://jsoup.org/apidocs/org/jsoup/select/Selector.html

AndroidでJsoupを解析する方法は？ - php、android、jsoup

特定のデータを抽出するJava Htmlパーサ？ - java、html-parsing、web-scraping

JSoup構造化されたHTMLを解析する - java、html、jsoup

Jsoupは子供を.text（）から除外します - java、css-selectors、jsoup

jsoupを使用してURLを解析すると404エラーが発生する - java、url、jsoup

jsoup - java、android、jsoupを使ってアンドロイドからウェブページを解析する

JsoupでHTMLエンティティを削除するには？ - java、html、jsoup

<pre>でコンテンツを解析するには？ - java、android、jsoup

JSoupでHTMLをスクラップする、HTTPエラーを取得する、ステータス456 - java、web-scraping、jsoup

HTMLが無効な理由をJSoupレポートにする - java、html-parsing、jsoup

属性付きのJSoup <a>タグ内からのリンクの抽出 - java、html、jsoup

私は1つ以上のpタグのためのjsoupセレクタを使用する必要があります[閉じる] - java、jsoup

Xerces-Jを使用して特定の属性値を持つ<div>タグを見つけるにはどうすればよいですか？ - html-parsing

JSOUP - htmlで見つからないタグのリストを取得するには？ - coldfusion、jsoup、ホワイトリスト

AndroidはJSoup要素のテキストを太字にします - android、html、jsoup

Jsoupで<div class = "name">のテキストを解析する方法は？ - アンドロイド、パース、html、jsoup

どのようにHTMLファイルを解析し、アンドロイドでそれをレンダリングする[重複] - アンドロイド、html、解析

アクティビティ間でjsoup Elementsオブジェクトを送信する方法 - android、jsoup

最初のURLが失敗した場合、jsoupに代替URLを追加できますか？ - アンドロイド、url、jsoup

Jsoupテキスト抽出 - xhtml、html-parsing、jsoup

回答：

関連する質問