Я аналізую HTML-сторінки, на кожному з них є
<textarea name="content[country]">...</textarea>
Просто потрібно отримати зміст цієї текстової області.
У моїй версії python нема lxml та інших модулів аналізу HTML, тому що він працює в середовищі текстових редакторів.
Як я можу проаналізувати текст між відкриттям і закриттям тегів текстової області з ім'ям content[country]
?
Відповіді:
0 для відповіді № 1Якщо ви все ще маєте доступ до stdlib, то ви можете використовувати щось на кшталт:
import xml.etree.ElementTree as ET
s = "<html><textarea name="content[country]">foo</textarea><textarea name="content[country]">bar</textarea></html>"
tree = ET.fromstring(s)
print [n.text for n in tree.iterfind(".//textarea[@name="content[country]"]")]
# ["foo", "bar"]
Приголомшливий зламати:
import re
print re.findall(r"<s*textarea.*?>(.*?)<", s)