Ajuda na programação, respostas a perguntas / Python / Como extrair ids e classes de uma página da Web usando python? - python, html, web-scraping

Como extrair ids e classes de uma página da web usando python? - python, html, web-scraping

Este é o meu código até agora:

import urllib2
with urllib2.urlopen("https://quora.com") as response:
html = response.read()

Eu sou novo em Python e de alguma forma eu sou bem sucedido em buscar a página da Web, agora como extrair ids e classes da página da Web?

Respostas:

0 para resposta № 1

Você pode tentar analisar o código html usando bibliotecas dedicadas, por exemplo BeautifulSoup.

0 para resposta № 2

Uma maneira melhor de fazer isso seria usar a biblioteca de extração da Web BeautifulSoup (bs4) e as solicitações.

Depois de ter instalado ambos usando pip, você pode começar assim:

import requests
from bs4 import BeautifulSoup

r = requests.get("http://quora.com")
soup = BeautifulSoup(r.content, "html.parser")

Para encontrar um elemento com um ID específico:

soup.find(id="your_id")

Para encontrar todos os elementos com a classe "Resposta":

soup.find_all(class_="Answer")

Você pode então usar .get_text() para remover as tags html e usar operações de string python para organizar seus dados.

0 para resposta № 3

você pode fazer isso facilmente por análise xml

from lxml import html
import requests
page = requests.get("http://google.com")
with open("/home/Desktop/test.txt","wb") as f :
f.write(page.content)

Perguntas relacionadas

Qual linguagem de programação scraping de página única? [fechado] - screen-scraping

Captura de tela e banco de dados SQL - screen-scraping

python scraping, obtendo urls maneira dinâmica - python, web-crawler, web-scraping

Sopa bonita e raspagem da tabela - lxml vs analisador html - python, web-scraping, html-parsing, beautifulsoup, lxml

Screen Scraping uma página web baseada em Javascript em Python - python, screen-scraping, beautifulsoup, web-scraping

Raspando o tamanho da fonte de HTML e CSS - python, html, css, web-scraping

Extrair dados em tempo real do site ajax em python - python, ajax

Raspando o conteúdo do Twitter usando BeatifulSoup - python, twitter, web-scraping, beautifulsoup

como remover o & zwnj da string em python? - python, beautifulsoup, screen-scraping

Como verificar se uma página da Web contém um exemplo de código ou texto sem formatação? - python, html, web-scraping

Não é possível encontrar o código-fonte exato do meu blog - python, html, análise de html, screen-scraping, web-scraping

Programa de raspagem de páginas web em Python - python, ubuntu, web-scraping

Baixe arquivos depois de abrir uma página da Web usando Python - python, web-scraping

Raspando e salvando arquivos html sem imagens em Python - python, web-scraping

Por que alguns exemplos de código no site do Python não usam a convenção `class classname (object):`? [duplicado] - python

Como extrair um objeto javascript / json de uma página da Web usando o BeautifulSoup? - javascript, python, html, json, beautifulsoup

Raspando sites com atraso de tela javascript [fechado] - javascript, python, screen-scraping, web-scraping, scraper

Captura de uma página da Web gerada dinamicamente com o campo HTML5 <input> - javascript, python, html, web, web-scraping

Tentando usar Python e Selenium para rolar e raspar uma página da web iterativamente - javascript, python, selenium, beautifulsoup

Extrair links de URL do pop-up que aparece na parte superior da página usando o shell script? - html, linux, shell, página da web