Som úplne nový v Amazon Elastic MapReduce. Potrebujem, aby som použil svoj vlastný plánovač, ktorý je implementovaný na základe kapacitného plánovača Hadoop, na plánovanie mojich úloh v aplikácii Amazon Elastic MapReduce.
Podľa môjho súčasného porozumenia dosiahnuťtoto, môžem definovať iba jednu fázu toku úloh a odoslať môj vlastný súbor jar prostredníctvom pripojenia SSH do hlavného uzla. Nemôžem však nájsť, ako môžem upravovať konfiguračné súbory xml, napríklad kapacitu-scheduler.xml v hlavnom uzle. Každý vie, ako to urobiť?
Navyše, ak chcem pridať dynamické dimenzovanievlastnosť, môžem dynamicky naladiť počet uzlov úloh v klastri, keď je úloha práve spustená? Alebo v každej fáze by veľkosť klastra mala zostať rovnaká? Ďakujem ti veľmi pekne.
odpovede:
0 pre odpoveď č. 1Na zmenu konfigurácie Hadoop by ste mali použiť akciu bootstrap.
Nasledujúci dokument AWS sa môže odkazovať na akciu Hadoop konfiguratio bootstrap.
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-bootstrap.html#PredefinedbootstrapActions_ConfigureHadoop
Tento článok v blogu, ktorý som si zaregistroval, má tiež nejaké informácie. http://sujee.net/tech/articles/hadoop/amazon-emr-beyond-basics/
Pre dynamickú zmenu veľkosti klastra je jednou z možností použitie AWS SDK.
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/calling-emr-with-java-sdk.html
Pomocou nasledujúceho rozhrania môžete upraviť počet inštancií skupiny inštancií. http://docs.aws.amazon.com/AWSJavaSDK/latest/javadoc/com/amazonaws/services/elasticmapreduce/AmazonElasticMapReduce.html