Помощ при програмиране, отговори на въпроси / Питон / Заместване на HTML таг с помощта на regex и python - python, html, regex, tags

Замяна на HTML маркери с регекс и python - python, html, regex, тагове

Имам скрипт на Python, който ще разглежда HTML файл със следния формат:

<DOC>
<HTML>
...
</HTML>
</DOC>
<DOC>
<HTML>
...
</HTML>
</DOC>

Как да премахна всички HTML маркери (замени маркеритес „“) с изключение на отварянето и затварянето на DOC тагове, използващи regex в Python? Също така, ако искам да запазя alt-текста на етикет, какъв трябва да е изразът regex?

Отговори:

1 за отговор № 1

търсете и замествайте с този regex: търси за: <. *?> замени с: "

3 за отговор № 2

За това, което се опитвате да постигнете, ще използвам BeautifulSoup, а не regex.

http://www.crummy.com/software/BeautifulSoup/

2 за отговор № 3

Разгледайте lxml, наистина хубава питон библиотека за работа с xml. Можете да използвате drop_tag, за да постигнете това, което търсите.

от lxml html за импортиране h = html.fragment_fromstring ("<doc> Здравейте <b> World!</b> </doc>") h.find ( "*"). drop_tag () печат (html.tostring (h, кодиране = unicode))  <doc> Здравей, свят! </doc>

Свързани въпроси

Regex: Как да сравнявам някоя логика на regex 1 или повече пъти? - регекс

Шаблон за съвпадение на Python за преименуване на файла [closed] - python, regex, python-2.7, преименуване на файла

Python: RegEx, всички появявания на текст "NN.N%" до "NN.N%" - python, regex, python-3.x

Как да напишем регекс в Python, за да запазим съдържанието на групата непроменено? [дубликат] - питън, регекс

Изберете маркерите <p>, разделени с n - python, regex

Как да използвате regex за премахване на низ в определен HTML таг и низ трябва да съдържа празно пространство - python, regex

python regex [: alpha:] - питън, регекс

как да търсите и замествате низ, използвайки reg ex в Python в следващото състояние? [затворен] - python, regex, string, replace

Python Regex DUPLICATE_NAMES Флагове - python, regex, python-2.7

Използвайте Python, за да намерите HTML или js маркери. (regex?) - питън, html, регекс

Съответстващи входове с регулярен израз в Python [дубликат] - python, regex, вход, съвпадение

Regex заменя двойки знаци за долар - python, regex

Python regex за премахване на всички маркери, които не са между два други етикета - python, html, regex

Проблем с обратна референция в Python - python, regex, python-3.x

Премахнете Html таговете в regex [duplicate] - python, regex

Отрицателен Regex Python - питън, регекс

Може ли някой да ми помогне с моя Regex да получи текста в html код? [дубликат] - php, html, regex

Разлики в синтактичния регенерация в Python и Java - java, python, regex

regex получаване на url е вграден в html тагове - c #, regex

Regex да съвпада с всички HTML тагове освен <p> и </ p> в C # [дубликат] - c #, regex