/ / Como extrair ids e classes de uma página da Web usando python? - python, html, web-scraping

Como extrair ids e classes de uma página da web usando python? - python, html, web-scraping

Este é o meu código até agora:

import urllib2
with urllib2.urlopen("https://quora.com") as response:
html = response.read()

Eu sou novo em Python e de alguma forma eu sou bem sucedido em buscar a página da Web, agora como extrair ids e classes da página da Web?

Respostas:

0 para resposta № 1

Você pode tentar analisar o código html usando bibliotecas dedicadas, por exemplo BeautifulSoup.


0 para resposta № 2

Uma maneira melhor de fazer isso seria usar a biblioteca de extração da Web BeautifulSoup (bs4) e as solicitações.

Depois de ter instalado ambos usando pip, você pode começar assim:

import requests
from bs4 import BeautifulSoup

r = requests.get("http://quora.com")
soup = BeautifulSoup(r.content, "html.parser")

Para encontrar um elemento com um ID específico:

soup.find(id="your_id")

Para encontrar todos os elementos com a classe "Resposta":

soup.find_all(class_="Answer")

Você pode então usar .get_text() para remover as tags html e usar operações de string python para organizar seus dados.


0 para resposta № 3

você pode fazer isso facilmente por análise xml

from lxml import html
import requests
page = requests.get("http://google.com")
with open("/home/Desktop/test.txt","wb") as f :
f.write(page.content)