Ajuda na programação, respostas a perguntas / Python / Existe uma maneira de analisar html com lxml, mas manipulá-lo com minidom? - python, html, dom, análise, lxml

Existe uma maneira de analisar html com lxml, mas manipulá-lo com o minidom? - python, html, dom, análise, lxml

Eu tenho um aplicativo em que tenho usado o html5lib para analisar liberalmente o html. Uso a interface minidom, porque preciso de uma API DOM real e o ElementTree não é apropriado para o que estou fazendo.

Aqui está como eu faço isso:

parser = html5lib.XHTMLParser(tree=html5lib.treebuilders.getTreeBuilder("dom"))
parser.parse(html)

No entanto, a análise de arquivos enormes está se tornando um gargalo de desempenho, e a análise de lxml é cerca de 80 vezes mais rápida que o html5lib (eu o comparei).

Como analiso com lxml ou uma biblioteca tolerante a html da mesma forma rápida e manipula com uma API compatível com DOM?

Respostas:

4 para resposta № 1

Acho que encontrei uma solução:

from xml.dom.pulldom import SAX2DOM
import lxml.sax
def parse_lxml_dom(html):
tree = lxml.html.document_fromstring(html)
handler = SAX2DOM()
lxml.sax.saxify(tree, handler)
return handler.document

No entanto, isso é apenas cerca de 7 vezes mais rápido que o html5lib. A chamada saxify leva um bom tempo.

Perguntas relacionadas

Solução xpath escamosa para xml com entidades type = html e html - xpath, scrapy, lxml

Desduplicação de minidom xml output - xml, python-2.7, minidom

Python: qual biblioteca de análise XML funcionará pronta para o Python 2.4 e superior? - python, xml

como analisar iframe em lxml em python? - python, html, web-scraping, lxml, lxml.html

Analisando arquivos locais com lxml.etree - python, parsing, path, lxml, elementtree

Terei mais controle sobre minha aranha se usar lxml em BeautifulSoup? [fechado] - python, análise, beautifulsoup, lxml

Como remover o valor do espaço de nomes de dentro da lxml.html.html5 tag do elementopaser - python, html, lxml, html5lib

Metaprogramação em Python para análise XML - python, xml, metaprogramação

Posso analisar o xpath usando python, selenium e lxml? - python, análise, selênio, lxml, xpath

lxml - ImportError: Falha na carga da DLL: O procedimento especificado não pôde ser encontrado - python, xml, parsing, lxml

Existe um bom módulo python que faz codificação HTML / escape em C? - python, escapando, python-module

Analisando com lxml e xpath - python, xpath, lxml

Eu não posso analisar html usando xpath e biblioteca lxml - python, python-3.x, parsing, xpath, lxml

Qual é o lance sobre https ao usar o lxml? - python, análise, lxml

Como criar um nó de texto com lxml? - python, xml, lxml

Não é possível instalar o lxml via pip - python, framboesa-pi, lxml

Pode xml.minidom analisar XML quebrado - python, análise de html

Python & lxml / xpath: XML de análise - python, xml, xpath, lxml

Lxml não pode analisar XML gzipado? - python, lxml

não é possível analisar de 'QString' - python-2.7, python-3.x, lxml