/ / Können wir Google Drive-Dokumente mit nutch und solr crawlen und indizieren? - solr, google-drive-sdk, nutch, moss2007enterprisesuche

Können wir Google Drive-Dokumente mit nutch und solr crawlen und indizieren? - solr, google-drive-sdk, nutch, moss2007enterprisesuche

Ich habe versucht, die öffentliche URL eines Google Drive-Dokuments zu indizieren, aber es scheint, dass es nicht funktioniert. Gibt es eine Möglichkeit, Google Drive-Dokumente über nutch zu crawlen und ihren Index mit solr zu erstellen?

Antworten:

2 für die Antwort № 1

Verwenden Sie die Google Drive API zum Lesen / Verwalten von Dateien

https://developers.google.com/drive/web/about-sdk

Drive Public URL "s Seite hat keine direkten Links zu Unterverzeichnissen, so dass Sie nichts erhalten, wenn Sie diese Seiten crawlen.