Ayuda en la programación, respuestas a preguntas / Pitón / Hermosa raspado de espuma: estoy confundido - python, beautifulsoup

BeautifulSoup raspado: estoy confundido - python, beautifulsoup

Estoy tratando de raspar este sitio, y quiero comprobar todas las etiquetas de anclaje.

He importado beautifulsoup 4.3.2 y aquí está mi código:

url = """http://www.civicinfo.bc.ca/bids?pn=1"""
Html = urlopen(url).read()
Soup = BeautifulSoup(Html, "html.parser")
Content = Soup.find_all("a")

Mi problema es que el Contenido siempre está vacío (es decir, Contenido = []). ¿Alguien tiene alguna idea?

Respuestas

2 para la respuesta № 1

De la documentación html.parser No es muy indulgente ante ciertas versiones de Python. Así que es probable que estés viendo un código HTML con formato incorrecto.

Lo que quieres hacer funciona si lo usas. lxml en lugar de html.parser

De la documentación:

Dicho esto, hay cosas que puedes hacer para acelerararriba Sopa Hermosa. Si no está utilizando lxml como analizador subyacente, mi consejo es que comience. Beautiful Soup analiza documentos significativamente más rápido usando lxml que utilizando html.parser o html5lib.

Entonces el código relevante sería:

Soup = BeautifulSoup(Html, "lxml")

preguntas relacionadas

Sitio web que raspa con python3 y beautifulsoup 4 - python, sitio web, beautifulsoup, pantalla-raspado

Hermosa sopa y tabla de raspado - lxml vs html parser - python, web-scraping, html-parsing, beautifulsoup, lxml

Escapar y hellip; con BeautifulSoup - python, escaping, beautifulsoup, web-scraping

problemas con la instalación de beautifulsoup 4.6 para python 3.6 en mac - python, macos, python-2.7, python-3.x, beautifulsoup

Error de BS4 y BeautifulSoup de: no se puede leer / var / mail / BeautifulSoup - python, beautifulsoup, bs4

El raspado de Google Patents con solicitudes solo devuelve etiquetas de estilo y secuencias de comandos: python, web scraping, beautifulsoup, python request

Error de instalación de la pipa de la sopa hermosa - python, python-3.x, beautifulsoup

Error con el código Python Beautifulsoup extraer enlace específico con el texto - python, url, beautifulsoup

¿Cómo extraer identificadores y clases de una página web usando python? - Python, html, web-scraping

Cómo acelerar Beautifulsoup en Python? - python, python-2.7, beautifulsoup

proporcione los pasos detallados para la instalación de beautifulsoup para que Python lo use en notepad ++ - python, beautifulsoup

Python BeautifulSoup no puede encontrar la ID de la tabla - python, html, beautifulsoup

Para raspar web a través de python, ¿cuándo debería usar un analizador html en lugar de lxml? ¿Cuál es mejor y por qué? [cerrado] - python, html, web-raspado, html-parsing, lxml

Cómo raspar los archivos PDF de Python desde un sitio web ¿Por qué están todos corruptos y tienen el mismo tamaño? - Python, pdf, web scraping, python-pedidos

En Python, ¿cómo se eliminan los primeros x bytes de 5 archivos de MS Word (.doc) que se crearon al raspar el sitio web utilizando bs4? - python, web-scraping, ms-word, beautifulsoup, bs4

Beautifulsoup no es un módulo - python, beautifulsoup

Raspe usando las entidades que conservan Beautiful Soup: python, web scraping, beautifulsoup, html-parsing, html-entity

Cómo exportar javascript desde html usando python [cerrado] - python, web-scraping

Obteniendo beautifulsoup para correr por python - python, beautifulsoup

Python Web Scraping con Beautiful Soup 3: cómo obtener texto de div - html, python-2.7, web-scraping, beautifulsoup