/ / Extrakcia textov Jsoup - xhtml, html-parsing, jep

Extrakcia textu Jsoup - xhtml, html-parsing, jep

Tu je prípad extrakcie, ktorý by som chcelvedieť, či je v Jsoupe natívna metóda alebo akýkoľvek iný syntaktický analyzátor HTML. Predpokladajme, že mám nasledujúcu stránku, z ktorej chcem extrahovať "StackOverFlow" a akýkoľvek text v okolí, ktorý by tvoril správnu vetu.

<html> <head><title>A test page </title></head>
<body>
<p> Not relevant 1. </p>
<p> Not relevant 2.
<em> word1 word2 word3 <b> StackOverFlow </b> word4 word5 word6 </em>
</p>
</body>
</html>

Text, ktorý sa má extrahovať, je: word1 word2 word3 StackOverFlow word4 word5 word6. a nie toto: Nevzťahuje sa 2. slovo1 slovo2 slovo3 StackOverFlow slovo4 slovo5 slovo6

t. j. existuje spôsob, ako identifikovať hranice vety v Jsoup? Dalo by sa myslieť na niektoré regulárne výrazy, ale zaujímalo by ma, či existuje lepšie riešenie.

odpovede:

0 pre odpoveď č. 1

Skúste to:

doc.select("em").text();

0 pre odpoveď č. 2

Najlepšie je použiť voliče CSS JQuery. Prečítajte si, prosím, aj o "kombinátoroch", takže budete ovládať, z ktorého prvku musí byť váš prvok detský.

http://jsoup.org/apidocs/org/jsoup/select/Selector.html