/ / Não é possível ler os arquivos de sequência gerados pelo Mahout com o hadoop streaming - mahout, hadoop-streaming

Não é possível ler arquivos de sequência gerados pelo Mahout com o hadoop streaming - mahout, hadoop-streaming

Estou tentando transmitir um arquivo de sequência gerado por um dos exemplos do Mahout para ver seu conteúdo:

    hadoop jar hadoop-streaming-0.20.2-cdh3u0.jar 
-input /tmp/mahout-work-me/20news-bydate/bayes-test-input-output/ 
-output /tmp/me/mm 
-mapper "cat" 
-reducer "wc -l" 
-inputformat SequenceFileAsTextInputFormat

O trabalho começa com sucesso e acaba morrendo com:

11/11/30 21:08:39 INFO streaming.StreamJob:  map 0%  reduce 0%
11/11/30 21:09:17 INFO streaming.StreamJob:  map 100%  reduce 100%
java.lang.RuntimeException: java.io.IOException: WritableName can"t load class: org.apache.mahout.common.StringTuple

Eu me pergunto se algo está errado com o meu streamingjar jar, se eu preciso apontar explicitamente para o jarro Mahout que tem essa classe (tentei definir HADOOP_CLASSPATH para o local de mahout-core-0.5-cdh3u2.jar mas não funcionou), ou talvez até outra coisa?

Qualquer ajuda é apreciada. Obrigado.

Respostas:

2 para resposta № 1

Adicione esta opção:

-libjars mahout-core-0.5-cdh3u2.jar