Estou tentando usar o Mahout em um aplicativo em execução no Windows. Eu quero criar clusters a partir de um índice lucene usando k-means.
Assim que eu tiver que criar arquivos de sequência(criando vetores a partir de um índice lucene), recebo uma exceção do Hadoop, pois o Hadoop faz chamadas de linha de comando para programas desconhecidos em um ambiente Windows (por exemplo, chmod). Rodar em Cygwin não é uma opção, pois quero poder executar o aplicativo no eclipse.
Então minha pergunta é
Respostas:
4 para resposta № 1A única maneira de executar o Hadoop em um ambiente Windows é instalar o Cygwin. Para mais informações, consulte esta postagem no blog:
http://hayesdavis.net/2008/06/14/running-hadoop-on-windows/
O Cygwin fornecerá todos os utilitários de linha de comando (como chmod) nos quais o Hadoop depende. Você ainda pode executar suas tarefas do Hadoop no Eclipse, se desejar.
1 para resposta № 2
Voce sabe o SequenceFile
API? Dê uma olhada aqui: http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html
Você pode tentar escrever / ler os dados sozinho.
Eu acho que você pode executar o Mahout do eclipse no Windowns no modo autônomo. Mas você aparecerá várias falhas e barreiras. Você deve tentar até onde você chega.
Na minha opinião, você não deve insistir em executar o mahout do eclipse. ;-)
0 para resposta № 3
Você pode usar uma máquina virtual para executar seu ambiente Hadoop. Quanto a mim, a melhor solução é usar http://hortonworks.com/ projeto. Tudo funciona bem.