Som otvorený aj iným riešeniam ako používaniu regexu. stačilo by skontrolovať uhlové zátvorky? nejaké návrhy? Vďaka!
Upraviť: to, čo potrebujem, NIE je analyzovať značky html, ale len skontrolovať, či tieto značky obsahuje alebo nie
odpovede:
1 pre odpoveď č. 1Môžeš použiť BeautifulSoup analyzátor a skontrolujte, či existujú nejaké značky iteráciou BeautifulSoup
objekt a kontrola, či existuje aspoň jeden Tag
element:
from bs4 import BeautifulSoup, Tag
l = ["test", "test <br>", "<br>"]
for item in l:
soup = BeautifulSoup(item, "html.parser")
print item, any(isinstance(element, Tag) for element in soup)
tlačí:
test False
test <br> True
<br> True
Dúfam, že to pomôže.
0 pre odpoveď č. 2
Veľmi odporúčam lxml.html robiť akékoľvek kroky týkajúce sa analýzy (xml, html, xhtml ...) Ak chcete získať celý nápad, stačí sa na ne rýchlo pozrieť grafy a budete vedieť, o čom hovorím;)
pre podrobnejšie porovnanie sa pozrite tu.