Analizuję strony HTML, na każdym z nich
<textarea name="content[country]">...</textarea>
Wystarczy uzyskać treść tego obszaru tekstowego.
W mojej wersji Pythona nie ma modułów lxml ani innych modułów parsujących html, ponieważ działają one w środowisku edytora tekstów.
Jak analizować tekst między otwieraniem i zamykaniem znaczników w obszarze tekstowym z nazwą content[country]
?
Odpowiedzi:
0 dla odpowiedzi № 1Zakładając, że nadal masz dostęp do stdlib, możesz użyć czegoś takiego jak:
import xml.etree.ElementTree as ET
s = "<html><textarea name="content[country]">foo</textarea><textarea name="content[country]">bar</textarea></html>"
tree = ET.fromstring(s)
print [n.text for n in tree.iterfind(".//textarea[@name="content[country]"]")]
# ["foo", "bar"]
Okropny re hack:
import re
print re.findall(r"<s*textarea.*?>(.*?)<", s)