Ako to funguje? WordCount
Aplikácia MapReduce berie vstup ako sada párov <key, value>? Zdá sa, že namiesto toho vyžaduje vstupný súbor slov.
z Výukový program Apache Hadoop MapReduce:
"Rámec MapReduce funguje výlučne na pároch <kľúč, hodnota>, to znamená, že rámec zobrazuje vstup do práce ako súprava párov <key, value>... "
"(vstup) <k1, v1> -> mapa"
odpovede:
2 pre odpoveď č. 1Tento tutoriál sa ešte nezaoberal detailami. Existuje InputFormat
a an OutputFormat
, ktorá je definovaná pre každý program MapReduce.
E InputFormat
definuje, čo je kľúč a hodnota pre daný záznam.
A RecordReader
definuje, čo je záznam z daného vstupného súboru. (k tomu je o niečo viac)
V WordCount
predvolený program InputFormat
je TextInputFormat, ktorý prijíma LongWritable
ako kľúč a Text
ako hodnota pre každý záznam; A každý záznam v tomto programe je riadok (predvolene). Kľúčom je tu bajtový posun riadka a hodnota je riadok textu. Myslím, že ste zmeškali toto časť z tutoriálu.