Uwaga: Nie mogę używać modułów stron trzecich, więc bs4 i lxml nie są opcją.
Muszę parsować HTML za pomocą Python 3 std lib. Myślałem, że xml.minidom byłby drogą do zrobienia, ale wydaje się, że nie jest w stanie parsować nieprawidłowego XML / HTML bez zgłaszania wyjątku takiego jak błąd składni.
Czy brakuje mi czegoś w module xml, który może zrobić to, czego szukam?
Czy brakuje mi czegoś w std lib?
Odpowiedzi:
1 dla odpowiedzi № 1Zakładając, że brak możliwości korzystania z modułów stron trzecich jest uzasadniony, masz większą szansę html.parser
, co powinno dać ci bardziej niskopoziomową kontrolę nad procesem parsowania.
xml.dom.minidom
, Obawiam się, ogólnie, nie będzie w stanie przeanalizować zepsutego dokumentu.
-2 dla odpowiedzi nr 2
jeśli potrzebujesz obsługi zepsutego html / xml, polecam ckech Beautiful Soup 4