/ / Comment explorer un flux - rss, web-crawler, feeds, atom-feed

Comment analyser un flux - rss, web-crawler, feeds, atom-feed

Mon application doit garder une trace des flux RSS / Atom et enregistrer les nouvelles entrées dans une base de données. Ma question est, Quelle est la méthode la plus fiable pour déterminer si une entrée dans un flux a déjà été explorée ou non?

j'utilise Analyseur d'alimentation universel module pour analyser les flux. Mon implémentation actuelle enregistre la dernière valeur de feed.entry[i].updated_parsed, lors de l'exploration si updated_parsed La valeur d'une entrée est supérieure à la valeur enregistrée, puis cette entrée est enregistrée dans la base de données. Le problème ici est que de nombreux flux n'ont pas de date de publication ou de mise à jour.

Réponses:

3 pour la réponse № 1

Vous devez déterminer si vous avez déjà exploré une entrée par référence à son <guid> principalement (retomber sur <link> en l'absence d'un <guid>), et tout ce qui concerne les dates uniquement comme analyse secondaire.