/ / Ako používa program Hadoop MapReduce WordCount vstup ako páry <kľúč, hodnota>? - hadoop, slovník, mapreduce

Ako používa Hadoop MapReduce WordCount ako pár <key, value>? - hadoop, slovník, mapreduce

Ako to funguje? WordCount Aplikácia MapReduce berie vstup ako sada párov <key, value>? Zdá sa, že namiesto toho vyžaduje vstupný súbor slov.

z Výukový program Apache Hadoop MapReduce:

  1. "Rámec MapReduce funguje výlučne na pároch <kľúč, hodnota>, to znamená, že rámec zobrazuje vstup do práce ako súprava párov <key, value>... "

  2. "(vstup) <k1, v1> -> mapa"

odpovede:

2 pre odpoveď č. 1

Tento tutoriál sa ešte nezaoberal detailami. Existuje InputFormat a an OutputFormat , ktorá je definovaná pre každý program MapReduce.

E InputFormat definuje, čo je kľúč a hodnota pre daný záznam.

A RecordReader definuje, čo je záznam z daného vstupného súboru. (k tomu je o niečo viac)

V WordCount predvolený program InputFormat je TextInputFormat, ktorý prijíma LongWritable ako kľúč a Text ako hodnota pre každý záznam; A každý záznam v tomto programe je riadok (predvolene). Kľúčom je tu bajtový posun riadka a hodnota je riadok textu. Myslím, že ste zmeškali toto časť z tutoriálu.