/ / Заместване на HTML таг с помощта на regex и python - python, html, regex, tags

Замяна на HTML маркери с регекс и python - python, html, regex, тагове

Имам скрипт на Python, който ще разглежда HTML файл със следния формат:

<DOC>
<HTML>
...
</HTML>
</DOC>
<DOC>
<HTML>
...
</HTML>
</DOC>

Как да премахна всички HTML маркери (замени маркеритес „“) с изключение на отварянето и затварянето на DOC тагове, използващи regex в Python? Също така, ако искам да запазя alt-текста на етикет, какъв трябва да е изразът regex?

Отговори:

1 за отговор № 1

търсете и замествайте с този regex: търси за: <. *?> замени с: "


3 за отговор № 2

За това, което се опитвате да постигнете, ще използвам BeautifulSoup, а не regex.

http://www.crummy.com/software/BeautifulSoup/


2 за отговор № 3

Разгледайте lxml, наистина хубава питон библиотека за работа с xml. Можете да използвате drop_tag, за да постигнете това, което търсите.

от lxml html за импортиране h = html.fragment_fromstring ("<doc> Здравейте <b> World!</b> </doc>") h.find ( "*"). drop_tag () печат (html.tostring (h, кодиране = unicode))  <doc> Здравей, свят! </doc>