/ / Come eseguire la scansione di un feed: RSS, crawler Web, feed, feed atomico

Come eseguire la scansione di un feed: RSS, crawler Web, feed, feed atomico

La mia applicazione deve tenere traccia dei feed RSS / Atom e salvare le nuove voci in un database. La mia domanda è, Qual è il metodo più affidabile per determinare se una voce in un feed è già stata sottoposta a scansione o no?

Io uso Universal Feed Parser modulo per analizzare i feed. La mia attuale implementazione tiene traccia dell'ultimo valore di feed.entry[i].updated_parsedquando strisciare se updated_parsed il valore di una voce è maggiore del valore registrato, quindi quella voce viene salvata nel database. Il problema qui è che molti feed non hanno una data di pubblicazione o una data di aggiornamento.

risposte:

3 per risposta № 1

Dovresti determinare se hai già scansionato una voce facendo riferimento al suo <guid> principalmente (ricadendo in <link> in assenza di a <guid>), e qualsiasi cosa abbia a che fare con le date solo come analisi secondaria.