Помощ при програмиране, отговори на въпроси / Питон / Има ли начин да се анализира HTML с lxml, но да се манипулира с minidom? - python, html, dom, parsing, lxml

Има ли начин да се анализира html с lxml, но да се манипулира с minidom? - python, html, dom, parsing, lxml

Имам приложение, в което използвам html5lib, за да разграничавам html.

Ето как правя това:

parser = html5lib.XHTMLParser(tree=html5lib.treebuilders.getTreeBuilder("dom"))
parser.parse(html)

Разделянето на огромни файлове обаче се превръща в пречка за изпълнение, а разборът на lxml е около 80 пъти по-бърз от html5lib (аз го сравнявам).

Как да анализирам с lxml или подобна бърза библиотека с лоша html-толерантност и да манипулирам с DOM-съвместим API?

Отговори:

4 за отговор № 1

Мисля, че намерих решение:

from xml.dom.pulldom import SAX2DOM
import lxml.sax
def parse_lxml_dom(html):
tree = lxml.html.document_fromstring(html)
handler = SAX2DOM()
lxml.sax.saxify(tree, handler)
return handler.document

Това обаче е само около 7 пъти по-бързо от html5lib. Саксифициращият разговор отнема доста време.

Свързани въпроси

scrapy xpath решение за xml с тип = html и html обекти - xpath, scrapy, lxml

Дедуплициране на minidom xml изход - xml, python-2.7, minidom

Python: коя библиотека за синтактичен анализ на XML ще работи извън Python 2.4 и нагоре? - python, xml

как да се анализира iframe в lxml в Python? - python, html, изтриване на уеб, lxml, lxml.html

Разработване на локални файлове с lxml.etree - python, parsing, path, lxml, elementtree

Ще имам ли повече контрол над моя паяк, ако използвам lxml над BeautifulSoup? [затворен] - питън, синхронизиране, красота, lxml

Как да премахнете стойността на пространството от имена от вътрешния lxml.html.html5 tag елемент на паса - python, html, lxml, html5lib

Метапрограмиране на Python за синхронизиране на XML - python, xml, metaprogramming

Мога ли да анализирам xpath използвайки питън, селен и lxml? - питън, анализ, селен, lxml, xpath

lxml - ImportError: Зареждането на DLL не бе успешно: определената процедура не можа да бъде намерена - python, xml, parsing, lxml

Има ли добър питон модул, който прави HTML кодиране / бягство в C? - Python, escaping, python-module

Разработване на параметри с lxml и xpath - python, xpath, lxml

Не мога да анализирам html с xpath и lxml библиотека - python, python-3.x, parsing, xpath, lxml

Каква е сделката за https при използване на lxml? - python, parsing, lxml

Как да създадем текстов възел с lxml? - питън, xml, lxml

Не може да се инсталира lxml чрез pip - python, raspberry-pi, lxml

Може ли xml.minidom да анализира счупени XML - python, html-parsing

Python & lxml / xpath: Изпробване на XML - python, xml, xpath, lxml

Lxml не може да анализира gzipped XML? - питън, lxml

не може да се анализира от "QString" - python-2.7, python-3.x, lxml