/ / Nutch 1.11 Problema di scansione: solr, nutch

Problema di scansione di Nutch 1.11 - solr, nutch

Ho seguito il tutorial e configurato nutch per funzionare su Windows 7 usando Cygwin e sto usando Solr 5.4.0 per indicizzare i dati

Ma nutch 1.11 sta avendo problemi nell'esecuzione di una ricerca per indicizzazione.

Comando di scansione $ bin / crawl -i -D solr.server.url =http://127.0.0.1:8983/solr / urls / TestCrawl 2

Errore / Eccezione

Iniezione di seed URL / apache-nutch-1.11 / bin / nutch inject / TestCrawl / crawldb / urls Iniettore: a partire dal 2016-01-19 17:11:06 Injector: crawlDb: / TestCrawl / crawldb Iniettore: urlDir: / urls Injector: conversione degli URL iniettati per la scansione delle voci db. Injector: java.lang.NullPointerException a java.lang.ProcessBuilder.start (ProcessBuilder.java:1012) a org.apache.hadoop.util.Shell.runCommand (Shell.java:445) a org.apache.hadoop.util.Shell.run (Shell.java:418) a org.apache.hadoop.util.Shell $ ShellCommandExecutor.execute (Shell.java:650) a org.apache.hadoop.util.Shell.execCommand (Shell.java:739) a org.apache.hadoop.util.Shell.execCommand (Shell.java:722) a org.apache.hadoop.fs.RawLocalFileSystem.setPermission (RawLocalFileSystem.java:633) a org.apache.hadoop.fs.RawLocalFileSystem.mkdirs (RawLocalFileSystem.java:421) a org.apache.hadoop.fs.FilterFileSystem.mkdirs (FilterFileSystem.java:281) a org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir (JobSubmissionFiles.java:125) a org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal (JobSubmitter.java:348) a org.apache.hadoop.mapreduce.Job $ 10.run (Job.java:1285) a org.apache.hadoop.mapreduce.Job $ 10.run (Job.java:1282) a java.security.AccessController.doPrivileged (metodo nativo) a javax.security.auth.Subject.doAs (Subject.java:422) a org.apache.hadoop.security.UserGroupInformation.doAs (UserGroupInformation.java:1548) a org.apache.hadoop.mapreduce.Job.submit (Job.java:1282) a org.apache.hadoop.mapred.JobClient $ 1.run (JobClient.java:562) a org.apache.hadoop.mapred.JobClient $ 1.run (JobClient.java:557) a java.security.AccessController.doPrivileged (metodo nativo) a javax.security.auth.Subject.doAs (Subject.java:422) a org.apache.hadoop.security.UserGroupInformation.doAs (UserGroupInformation.java:1548) a org.apache.hadoop.mapred.JobClient.submitJobInternal (JobClient.java:557) a org.apache.hadoop.mapred.JobClient.submitJob (JobClient.java:548) a org.apache.hadoop.mapred.JobClient.runJob (JobClient.java:833) a org.apache.nutch.crawl.Injector.inject (Injector.java:323) a org.apache.nutch.crawl.Injector.run (Injector.java:379) a org.apache.hadoop.util.ToolRunner.run (ToolRunner.java:70) a org.apache.nutch.crawl.Injector.main (Injector.java:369)

Error running:
/home/apache-nutch-1.11/bin/nutch inject /TestCrawl/crawldb /urls
Failed with exit value 127.

risposte:

1 per risposta № 1

Vedo che ci sono più problemi con il tuo comando, prova questo:

bin/crawl -i -Dsolr.server.url=http://127.0.0.1:8983/solr/core_name path_to_seed crawl 2

Il primo problema è che c'è uno spazio quando si passa il parametro solr. Il secondo problema è che l'url del solr dovrebbe includere anche il nome del nucleo.


0 per risposta № 2

hadoop-core il file jar è necessario quando si lavora con il nutch