/ / Обслуговувати HTML-дані як API, використовуючи Django Rest Framework - Django, відпочинок, web-scraping, Django-Rest

Подавати зняті дані HTML як API, що використовує Django Rest Framework - django, rest, web-scraping, django-rest-framework

Я намагаюся створити громадський API, що стоїть перед нимзбирає дані через скрипінг HTML (вміст сторінки є тим, що важливо, а не самі сторінки). Я вибрав використовувати Django-Rest-Framework як мій сервер. Моє запитання: Як саме організувати структуру цього проекту, щоб Django ORM зберігав зібраний вміст, а потім його можна було отримати за допомогою API Django-Rest-Framework?

Я заглянув у Scrapy, але це здається меншиморієнтовані на тестування вмісту та більше орієнтовані на веб-сканування. Крім того, він розгортається у своєму власному проекті, що створює конфлікти з завантажувальною системою Django.

Чи краща ставка, що я просто запускаю cronjobs? Це здається нелегким.

Відповіді:

0 для відповіді № 1

Використовуйте Селера створювати асинхронні та періодичні завдання.

Якщо вам потрібно щось легке для вискоблювання, ви можете використовувати BeautifulSoup. Ось підручник.

Загалом, це те, що потрібно зробити:

  1. Почніть звичайний проект Django.
  2. Додати Селеру до нього.
  3. Напишіть деякий код скребування.
  4. Зателефонуйте користувальницькому коду скребу від завдань селери. Збережіть зібраний вміст до бази даних.
  5. Використовуйте Django-Rest-Framework для створення API, який буде обслуговувати вміст з бази даних.