/ / Nutch 1.11 crawl Vydanie - solr, nutch

Nutch 1.11 crawl Vydanie - solr, nutch

Sledoval som tutoriál a nakonfiguroval maticu na spustenie na Windows 7 pomocou Cygwin a ja som pomocou Solr 5.4.0 na indexovanie dát

But nuts 1.11 má problém pri vykonávaní prehľadávania.

Príkaz indexového prehľadávania $ bin / crawl -i -D Sol.server.url =http://127.0.0.1:8983/solr / urls / TestCrawl 2

Chyba / Výnimka

Injekcia URL osiva / apache-nutch-1.11 / bin / nutc injekcia / TestCrawl / crawldb / urls Injektor: od 2016-01-19 17:11:06 Injektor: crawlDb: / TestCrawl / crawldb Injektor: urlDir: / urls Injektor: Konverzia injektovaných adries URL na indexové prehľadávanie db položiek. Injektor: java.lang.NullPointerException na java.lang.ProcessBuilder.start (ProcessBuilder.java:1012) na org.apache.hadoop.util.Shell.runCommand (Shell.java:445) na org.apache.hadoop.util.Shell.run (Shell.java:418) na org.apache.hadoop.util.Shell $ ShellCommandExecutor.execute (Shell.java:650) na org.apache.hadoop.util.Shell.execCommand (Shell.java:739) na org.apache.hadoop.util.Shell.execCommand (Shell.java: 722) na org.apache.hadoop.fs.RawLocalFileSystem.setPermission (RawLocalFileSystem.java:633) na org.apache.hadoop.fs.RawLocalFileSystem.mkdirs (RawLocalFileSystem.java:421) na org.apache.hadoop.fs.FilterFileSystem.mkdirs (FilterFileSystem.java:281) na org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir (JobSubmissionFiles.java:125) na org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal (JobSubmitter.java:348) na org.apache.hadoop.mapreduce.Job $ 10.run (Job.java:1285) na org.apache.hadoop.mapreduce.Job $ 10.run (Job.java:1282) na java.security.AccessController.doPrivileged (natívna metóda) na javax.security.auth.Subject.doAs (Subject.java:422) na org.apache.hadoop.security.UserGroupInformation.doAs (UserGroupInformation.java:1548) na org.apache.hadoop.mapreduce.Job.submit (Job.java:1282) na org.apache.hadoop.mapred.JobClient $ 1.run (JobClient.java:562) na org.apache.hadoop.mapred.JobClient $ 1.run (JobClient.java:557) na java.security.AccessController.doPrivileged (natívna metóda) na javax.security.auth.Subject.doAs (Subject.java:422) na org.apache.hadoop.security.UserGroupInformation.doAs (UserGroupInformation.java:1548) na org.apache.hadoop.mapred.JobClient.submitJobInternal (JobClient.java:557) na org.apache.hadoop.mapred.JobClient.submitJob (JobClient.java:548) na org.apache.hadoop.mapred.JobClient.runJob (JobClient.java:833) na org.apache.nutch.crawl.Injector.inject (Injector.java:323) na org.apache.nutch.crawl.Injector.run (Injector.java:379) na org.apache.hadoop.util.ToolRunner.run (ToolRunner.java:70) na org.apache.nutch.crawl.Injector.main (Injector.java:369)

Error running:
/home/apache-nutch-1.11/bin/nutch inject /TestCrawl/crawldb /urls
Failed with exit value 127.

odpovede:

1 pre odpoveď č. 1

Vidím, že s príkazom máte viacero problémov, skúste to:

bin/crawl -i -Dsolr.server.url=http://127.0.0.1:8983/solr/core_name path_to_seed crawl 2

Prvým problémom je, že pri prechode parametra solr je priestor. Druhý problém spočíva v tom, že adresáta solr by mala obsahovať aj meno jadra.


0 pre odpoveď č. 2

hadoop-core jar súbor je potrebný, keď pracujete s orechom