/ / Scraped HTML-Daten als eine API mit Django Rest Framework dienen - Django, Ruhe, Web-Scraping, Django-Rest-Framework

Serve geschabte HTML-Daten als API mit Django Rest Framework - Django, Ruhe, Web-Scraping, Django-Rest-Framework

Ich versuche eine öffentlich zugängliche API zu erstellen, diesammelt Daten durch Scraping HTML (der Inhalt der Seite ist wichtig, nicht die Seiten selbst). Ich habe mich für Django-Rest-Framework als Backend entschieden. Meine Frage ist: Wie genau würde ich die Struktur dieses Projekts organisieren, so dass das Django ORM den abgeschabten Inhalt speichert und dann mit der API von Django-Rest-Framework aufgerufen werden kann?

Ich habe Scrapy untersucht, aber das scheint weniger zu seinkonzentrierte sich auf das Scraping von Inhalten und konzentrierte sich mehr auf Webcrawling. Darüber hinaus wird es in einem eigenen Projekt implementiert, das Konflikte mit Djangos Bootstrapping verursacht.

Ist meine beste Wette nur Cronjobs zu laufen? Das scheint unelegant.

Antworten:

0 für die Antwort № 1

Benutzen Sellerie um asynchrone und periodische Aufgaben zu erstellen.

Wenn Sie etwas leichtes zum Schaben brauchen, können Sie verwenden BeautifulSuppe. Hier ist ein Tutorial.

Insgesamt müssen Sie Folgendes tun:

  1. Starte das normale Django-Projekt.
  2. Fügen Sie Sellerie hinzu.
  3. Schreibe etwas Scraping-Code.
  4. Rufen Sie Ihren benutzerdefinierten Scraping-Code aus Sellerie-Aufgaben. Speichern Sie den ausgeschabten Inhalt in der Datenbank.
  5. Verwenden Sie Django-Rest-Framework, um eine API zu erstellen, die den Inhalt aus der Datenbank bereitstellt.