/ / Capacity scheduler no Amazon Elastic MapReduce - hadoop, scheduler, amazon-emr, dimensionamento dinâmico

Agendador de capacidade no Amazon Elastic MapReduce - hadoop, agendador, amazon-emr, dimensionamento dinâmico

Eu sou totalmente novo no Amazon Elastic MapReduce. Eu tenho uma necessidade que eu quero usar o meu agendador personalizado, que é implementado com base no agendador de capacidade do Hadoop, para agendar minhas tarefas no Amazon Elastic MapReduce.

De acordo com o meu entendimento atual, para alcançarisso, eu posso definir apenas um estágio no fluxo de trabalho e enviar meu arquivo jar personalizado via conexão SSH para o nó mestre. No entanto, não consigo encontrar como posso editar os arquivos de configuração xml, como o capacity-scheduler.xml no nó principal. Alguém sabe como fazer isso?

Além disso, se eu quiser adicionar o dimensionamento dinâmicopropriedade para ele, posso ajustar dinamicamente o número de nós de tarefas no cluster, quando a tarefa está em execução no momento? Ou por estágio, o tamanho de um cluster deve permanecer o mesmo? Muito obrigado.

Respostas:

0 para resposta № 1

Você deve usar uma ação de bootstrap para alterar a configuração do Hadoop.

O seguinte documento da AWS pode ser referenciado para a ação de bootstrap do Hadoop configuratio.
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-bootstrap.html#PredefinedbootstrapActions_ConfigureHadoop

Este artigo do blog que eu marquei também tem algumas informações. http://sujee.net/tech/articles/hadoop/amazon-emr-beyond-basics/

Para alterar o tamanho do cluster dinamicamente, uma opção é usar o AWS SDK.
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/calling-emr-with-java-sdk.html

Usando a interface a seguir, você pode modificar a contagem de instâncias do grupo de instâncias. http://docs.aws.amazon.com/AWSJavaSDK/latest/javadoc/com/amazonaws/services/elasticmapreduce/AmazonElasticMapReduce.html