Имам скрипт на Python, който ще разглежда HTML файл със следния формат:
<DOC>
<HTML>
...
</HTML>
</DOC>
<DOC>
<HTML>
...
</HTML>
</DOC>
Как да премахна всички HTML маркери (замени маркеритес „“) с изключение на отварянето и затварянето на DOC тагове, използващи regex в Python? Също така, ако искам да запазя alt-текста на етикет, какъв трябва да е изразът regex?
Отговори:
1 за отговор № 1търсете и замествайте с този regex: търси за: <. *?> замени с: "
3 за отговор № 2
За това, което се опитвате да постигнете, ще използвам BeautifulSoup, а не regex.
http://www.crummy.com/software/BeautifulSoup/
2 за отговор № 3
Разгледайте lxml, наистина хубава питон библиотека за работа с xml. Можете да използвате drop_tag, за да постигнете това, което търсите.
от lxml html за импортиране h = html.fragment_fromstring ("<doc> Здравейте <b> World!</b> </doc>") h.find ( "*"). drop_tag () печат (html.tostring (h, кодиране = unicode)) <doc> Здравей, свят! </doc>