/ / Prejdite metaúdaje pozdĺž osiva url s Nutch 1.X REST APi - nutch

Prejdite metadáta pozdĺž osnov url s Nutch 1.X REST API - nutch

V súčasnosti sa snažím zahrnúť adresu URL semena do údajov indexovaných pre každú adresu URL v mojom backendu vyhľadávania (momentálne ElasticSearch).

Videl som v tejto predchádzajúcej otázke že metadáta by mohli byť odovzdané s každým semenom, čo by vyhovovalo mojej potrebe. Avšak, ja "m pomocou REST API na vytvoriť zoznam semiena zdá sa, že metadáta nie sú povolené v seedUrls parameter.

Snažil sa niekto urobiť s REST API?

Existuje iný spôsob, ako to dosiahnuť? Myslel som, že by som mohol napísať vlastný indexingFilter pridať semeno URL v NutchDocument byť indexované, ale v tomto bode, semeno URL nie je k dispozícii z toho, čo som "videl.

Vopred ďakujem!

odpovede:

1 pre odpoveď č. 1

Momentálne sa zdá, že API REST nezdápodpora spracovania priradených metadát. Verím, že tento doens "t vyžadujú také veľké úsilie na dosiahnutie, v podstate stačí zvládnuť JSON užitočné zaťaženie a prispôsobiť zodpovedajúci subjekt SeedUrl držať metaúdaje a samozrejme prispôsobiť writeToSeedFile metóda.

Hoci váš prístup k písaniu IndexingFilter Semená URL sa injektujú na samom začiatku životného cyklu indexového prehľadávania IndexingFilter sú zodpovední len za výber toho, čo sa indexuje do vášho úložiska.