/ / Použite Python na nájdenie značiek html alebo js. (regex?) - python, html, regex

Použite python na vyhľadanie značiek html alebo js. (regex?) - python, html, regex

Som otvorený aj iným riešeniam ako používaniu regexu. stačilo by skontrolovať uhlové zátvorky? nejaké návrhy? Vďaka!

Upraviť: to, čo potrebujem, NIE je analyzovať značky html, ale len skontrolovať, či tieto značky obsahuje alebo nie

odpovede:

1 pre odpoveď č. 1

Môžeš použiť BeautifulSoup analyzátor a skontrolujte, či existujú nejaké značky iteráciou BeautifulSoup objekt a kontrola, či existuje aspoň jeden Tag element:

from bs4 import BeautifulSoup, Tag

l = ["test", "test <br>", "<br>"]
for item in l:
soup = BeautifulSoup(item, "html.parser")
print item, any(isinstance(element, Tag) for element in soup)

tlačí:

test False
test <br> True
<br> True

Dúfam, že to pomôže.


0 pre odpoveď č. 2

Veľmi odporúčam lxml.html robiť akékoľvek kroky týkajúce sa analýzy (xml, html, xhtml ...) Ak chcete získať celý nápad, stačí sa na ne rýchlo pozrieť grafy a budete vedieť, o čom hovorím;)

pre podrobnejšie porovnanie sa pozrite tu.