/ / Como usar o Mahout em um ambiente Windows? - windows, cygwin, hadoop, mahout

Como usar o Mahout em um ambiente Windows? - janelas, cygwin, hadoop, mahout

Estou tentando usar o Mahout em um aplicativo em execução no Windows. Eu quero criar clusters a partir de um índice lucene usando k-means.

Assim que eu tiver que criar arquivos de sequência(criando vetores a partir de um índice lucene), recebo uma exceção do Hadoop, pois o Hadoop faz chamadas de linha de comando para programas desconhecidos em um ambiente Windows (por exemplo, chmod). Rodar em Cygwin não é uma opção, pois quero poder executar o aplicativo no eclipse.

Então minha pergunta é

  • existe uma maneira de evitar a necessidade de criar arquivos de sequência para recuperar meus vetores de um índice lucene?
  • ou existe uma maneira de criar arquivos de sequência em um ambiente Windows?
  • Respostas:

    4 para resposta № 1

    A única maneira de executar o Hadoop em um ambiente Windows é instalar o Cygwin. Para mais informações, consulte esta postagem no blog:

    http://hayesdavis.net/2008/06/14/running-hadoop-on-windows/

    O Cygwin fornecerá todos os utilitários de linha de comando (como chmod) nos quais o Hadoop depende. Você ainda pode executar suas tarefas do Hadoop no Eclipse, se desejar.


    1 para resposta № 2

    Voce sabe o SequenceFile API? Dê uma olhada aqui: http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html Você pode tentar escrever / ler os dados sozinho.

    Eu acho que você pode executar o Mahout do eclipse no Windowns no modo autônomo. Mas você aparecerá várias falhas e barreiras. Você deve tentar até onde você chega.

    Na minha opinião, você não deve insistir em executar o mahout do eclipse. ;-)


    0 para resposta № 3

    Você pode usar uma máquina virtual para executar seu ambiente Hadoop. Quanto a mim, a melhor solução é usar http://hortonworks.com/ projeto. Tudo funciona bem.