Pomoc pri programovaní, odpovede na otázky / xHTML / Extrakcia textov Jsoup - xhtml, html-parsing, jep

Extrakcia textu Jsoup - xhtml, html-parsing, jep

Tu je prípad extrakcie, ktorý by som chcelvedieť, či je v Jsoupe natívna metóda alebo akýkoľvek iný syntaktický analyzátor HTML. Predpokladajme, že mám nasledujúcu stránku, z ktorej chcem extrahovať "StackOverFlow" a akýkoľvek text v okolí, ktorý by tvoril správnu vetu.

<html> <head><title>A test page </title></head>
<body>
<p> Not relevant 1. </p>
<p> Not relevant 2.
<em> word1 word2 word3 <b> StackOverFlow </b> word4 word5 word6 </em>
</p>
</body>
</html>

Text, ktorý sa má extrahovať, je: word1 word2 word3 StackOverFlow word4 word5 word6. a nie toto: Nevzťahuje sa 2. slovo1 slovo2 slovo3 StackOverFlow slovo4 slovo5 slovo6

t. j. existuje spôsob, ako identifikovať hranice vety v Jsoup? Dalo by sa myslieť na niektoré regulárne výrazy, ale zaujímalo by ma, či existuje lepšie riešenie.

odpovede:

0 pre odpoveď č. 1

Skúste to:

doc.select("em").text();

0 pre odpoveď č. 2

Najlepšie je použiť voliče CSS JQuery. Prečítajte si, prosím, aj o "kombinátoroch", takže budete ovládať, z ktorého prvku musí byť váš prvok detský.

http://jsoup.org/apidocs/org/jsoup/select/Selector.html

Súvisiace otázky

Ako analyzovať dokument pomocou crawler4j - vyhľadávanie, web, crawler4j

Ako môžem analyzovať Jsoup v systéme Android? - php, android, súp

Java Html analyzátor extrahovať konkrétne dáta? - java, html-parsing, web-scraping

JSoup parsovanie zle štruktúrovaných HTML - java, html, jep

Jsoup vylúčia deti z .text () - java, css-selectors, jep

404 chyba pri analýze URL pomocou

Analýza webovej stránky z androidu pomocou jep - java, android, jep

Ako odstrániť HTML entity v Jsoup? - java, html, jep

Ako analyzovať obsah pomocou <pre>? java, android, jep

Škrabanie HTML pomocou JSoup, získavanie chyby HTTP, stav 456 - java, škrabanie webových stránok, súbory

Spravovanie správy JSoup Prečo je HTML neplatné - java, html-parsing, jep

Extrakcia odkazu v rámci značky JSoup <a> s atribútmi - java, html, súp

Musím použiť selektor jep pre viac ako jeden p tagov [closed] - java, jep

Ako nájdem tag <div> s konkrétnou hodnotou atribútu pomocou Xerces-J? - html-parsing

JSOUP - Ako získať zoznam nepovolených značiek nájdených v html? - coldfusion, jep, whitelist

Android urobí text JSoup elementu bold - android, html, jep

Ako analyzovať text z <div class = "name"> pomocou Jsoup? android, parsovanie, html, súbory

ako analyzovať html súbor a vykresliť ho v android [duplicate] - android, html, parsovanie

Ako posielať objekt medzi prvkami jep medzi prvkami - android, jep

Môžem pridať alternatívnu adresu URL v súprave, ak prvá zlyhá? android, url, jep