Este é o meu código até agora:
import urllib2
with urllib2.urlopen("https://quora.com") as response:
html = response.read()
Eu sou novo em Python e de alguma forma eu sou bem sucedido em buscar a página da Web, agora como extrair ids e classes da página da Web?
Respostas:
0 para resposta № 1Você pode tentar analisar o código html usando bibliotecas dedicadas, por exemplo BeautifulSoup.
0 para resposta № 2
Uma maneira melhor de fazer isso seria usar a biblioteca de extração da Web BeautifulSoup (bs4) e as solicitações.
Depois de ter instalado ambos usando pip, você pode começar assim:
import requests
from bs4 import BeautifulSoup
r = requests.get("http://quora.com")
soup = BeautifulSoup(r.content, "html.parser")
Para encontrar um elemento com um ID específico:
soup.find(id="your_id")
Para encontrar todos os elementos com a classe "Resposta":
soup.find_all(class_="Answer")
Você pode então usar .get_text()
para remover as tags html e usar operações de string python para organizar seus dados.
0 para resposta № 3
você pode fazer isso facilmente por análise xml
from lxml import html
import requests
page = requests.get("http://google.com")
with open("/home/Desktop/test.txt","wb") as f :
f.write(page.content)