MapReduceとは
Hadoopの紹介 角田 直行
MapReduceとは - Mapタスク(フィルタ) 膨大な量の元データを分解し、必要な情報を抽出し、有用な形へと変換し出力する - Reduceタスク(アグリゲータ) 抽出された情報を集約し、一塊のデータとして出力する
例:単語カウント "Java Standard Edition and Java Enterprise Edition" ↓ Mapper: <Java,1> <Standard,1> <Edition,1> <and,1> <Java,1> <Enterprise,1> <Edition,1> ↓ Reducer <Java,2> <Standard,1> <Edition,2> <and,1> <Enterprise,1>