/ / Can xml.minidom parsuje XML - python, html-parsing

Czy xml.minidom potrafi parsować XML - python, html-parsing

Uwaga: Nie mogę używać modułów stron trzecich, więc bs4 i lxml nie są opcją.

Muszę parsować HTML za pomocą Python 3 std lib. Myślałem, że xml.minidom byłby drogą do zrobienia, ale wydaje się, że nie jest w stanie parsować nieprawidłowego XML / HTML bez zgłaszania wyjątku takiego jak błąd składni.

Czy brakuje mi czegoś w module xml, który może zrobić to, czego szukam?

Czy brakuje mi czegoś w std lib?

Odpowiedzi:

1 dla odpowiedzi № 1

Zakładając, że brak możliwości korzystania z modułów stron trzecich jest uzasadniony, masz większą szansę html.parser, co powinno dać ci bardziej niskopoziomową kontrolę nad procesem parsowania.

xml.dom.minidom, Obawiam się, ogólnie, nie będzie w stanie przeanalizować zepsutego dokumentu.


-2 dla odpowiedzi nr 2

jeśli potrzebujesz obsługi zepsutego html / xml, polecam ckech Beautiful Soup 4