Ich habe versucht, die öffentliche URL eines Google Drive-Dokuments zu indizieren, aber es scheint, dass es nicht funktioniert. Gibt es eine Möglichkeit, Google Drive-Dokumente über nutch zu crawlen und ihren Index mit solr zu erstellen?
Antworten:
2 für die Antwort № 1Verwenden Sie die Google Drive API zum Lesen / Verwalten von Dateien
https://developers.google.com/drive/web/about-sdk
Drive Public URL "s Seite hat keine direkten Links zu Unterverzeichnissen, so dass Sie nichts erhalten, wenn Sie diese Seiten crawlen.