- mapreduce編程實例

#e#

　　2、數(shù)據(jù)排序

　　“數(shù)據(jù)排序”是許多實際任務執(zhí)行時要完成的第一項工作，比如學生成績評比、數(shù)據(jù)建立索引等。這個實例和數(shù)據(jù)去重類似，都是先對原始數(shù)據(jù)進行初步處理，為進一步的數(shù)據(jù)操作打好基礎。下面進入這個示例。

　　2.1 實例描述

　　對輸入文件中數(shù)據(jù)進行排序。輸入文件中的每行內容均為一個數(shù)字，即一個數(shù)據(jù)。要求在輸出中每行有兩個間隔的數(shù)字，其中，第一個代表原始數(shù)據(jù)在原始數(shù)據(jù)集中的位次，第二個代表原始數(shù)據(jù)。

　　樣例輸入：

　　1）file1：

　　654

　　756

　　65223

　　2）file2：

　　5956

　　650

　　3）file3：

　　樣例輸出：

　　1 2

　　2 6

　　3 15

　　4 22

　　5 26

　　6 32

　　7 32

　　8 54

　　9 92

　　10 650

　　11 654

　　12 756

　　13 5956

　　14 65223

　　2.2 設計思路

　　這個實例僅僅要求對輸入數(shù)據(jù)進行排序，熟悉MapReduce過程的讀者會很快想到在MapReduce過程中就有排序，是否可以利用這個默認的排序，而不需要自己再實現(xiàn)具體的排序呢？答案是肯定的。

　　但是在使用之前首先需要了解它的默認排序規(guī)則。它是按照key值進行排序的，如果key為封裝int的IntWritable類型，那么MapReduce按照數(shù)字大小對key排序，如果key為封裝為String的Text類型，那么MapReduce按照字典順序對字符串排序。

　　了解了這個細節(jié)，我們就知道應該使用封裝int的IntWritable型數(shù)據(jù)結構了。也就是在map中將讀入的數(shù)據(jù)轉化成 IntWritable型，然后作為key值輸出（value任意）。reduce拿到《key，value-list》之后，將輸入的 key作為value輸出，并根據(jù)value-list中元素的個數(shù)決定輸出的次數(shù)。輸出的key（即代碼中的linenum）是一個全局變量，它統(tǒng)計當前key的位次。需要注意的是這個程序中沒有配置Combiner，也就是在MapReduce過程中不使用Combiner。這主要是因為使用map和reduce就已經能夠完成任務了。

　　2.3 程序代碼

　　程序代碼如下所示：

　　package com.hebut.mr;

　　import java.io.IOException;

　　import org.apache.hadoop.conf.Configuration;

　　import org.apache.hadoop.fs.Path;

　　import org.apache.hadoop.io.IntWritable;

　　import org.apache.hadoop.io.Text;

　　import org.apache.hadoop.mapreduce.Job;

　　import org.apache.hadoop.mapreduce.Mapper;

　　import org.apache.hadoop.mapreduce.Reducer;

　　import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

　　import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

　　import org.apache.hadoop.util.GenericOptionsParser;

　　public class Sort {

　　//map將輸入中的value化成IntWritable類型，作為輸出的key

　　public static class Map extends

　　Mapper《Object，Text，IntWritable，IntWritable》{

　　private static IntWritable data=new IntWritable（）;

　　//實現(xiàn)map函數(shù)

　　public void map（Object key，Text value，Context context）

　　throws IOException，InterruptedException{

　　String line=value.toString（）;

　　data.set（Integer.parseInt（line））;

　　context.write（data， new IntWritable（1））;

　　}

　　//reduce將輸入中的key復制到輸出數(shù)據(jù)的key上，

　　//然后根據(jù)輸入的value-list中元素的個數(shù)決定key的輸出次數(shù)

　　//用全局linenum來代表key的位次

　　public static class Reduce extends

　　Reducer《IntWritable，IntWritable，IntWritable，IntWritable》{

　　private static IntWritable linenum = new IntWritable（1）;

　　//實現(xiàn)reduce函數(shù)

　　public void reduce（IntWritable key，Iterable《IntWritable》 values，Context context）

　　throws IOException，InterruptedException{

　　for（IntWritable val:values）{

　　context.write（linenum， key）;

　　linenum = new IntWritable（linenum.get（）+1）;

　　}

　　public static void main（String［］ args） throws Exception{

　　Configuration conf = new Configuration（）;

　　//這句話很關鍵

　　conf.set（“mapred.job.tracker”， “192.168.1.2:9001”）;

　　String［］ ioArgs=new String［］{“sort_in”，“sort_out”};

　　String［］ otherArgs = new GenericOptionsParser（conf， ioArgs）.getRemainingArgs（）;

　　if （otherArgs.length ！= 2） {

　　System.err.println（“Usage： Data Sort 《in》《out》”）;

　　System.exit（2）;

　　}

　　Job job = new Job（conf， “Data Sort”）;

　　job.setJarByClass（Sort.class）;

　　//設置Map和Reduce處理類

　　job.setMapperClass（Map.class）;

　　job.setReducerClass（Reduce.class）;

　　//設置輸出類型

　　job.setOutputKeyClass（IntWritable.class）;

　　job.setOutputValueClass（IntWritable.class）;

　　//設置輸入和輸出目錄

　　FileInputFormat.addInputPath（job， new Path（otherArgs［0］））;

　　FileOutputFormat.setOutputPath（job， new Path（otherArgs［1］））;

　　System.exit（job.waitForCompletion（true）？ 0 ： 1）;

　　}

　　2.4 代碼結果

　　1）準備測試數(shù)據(jù)

　　通過Eclipse下面的“DFS Locations”在“/user/hadoop”目錄下創(chuàng)建輸入文件“sort_in”文件夾（備注：“sort_out”不需要創(chuàng)建。）如圖2.4-1所示，已經成功創(chuàng)建。

　　? mapreduce編程實例

　　然后在本地建立三個txt文件，通過Eclipse上傳到“/user/hadoop/sort_in”文件夾中，三個txt文件的內容如“實例描述”那三個文件一樣。如圖2.4-2所示，成功上傳之后。

　　從SecureCRT遠處查看“Master.Hadoop”的也能證實我們上傳的三個文件。

　? mapreduce編程實例

　　查看兩個文件的內容如圖2.4-3所示：

? mapreduce編程實例

　　2）查看運行結果

　　這時我們右擊Eclipse 的“DFS Locations”中“/user/hadoop”文件夾進行刷新，這時會發(fā)現(xiàn)多出一個“sort_out”文件夾，且里面有3個文件，然后打開雙其“part-r-00000”文件，會在Eclipse中間把內容顯示出來。如圖2.4-4所示。

? mapreduce編程實例

閱讀全文

MapReduce(6251) MapReduce(6251)

21個三菱PLC編程實例

21個三菱PLC編程實例，實現(xiàn)PLC從入門到精通

2022-10-25 09:27:04

7064

51的c編程實例

2012-08-11 16:46:29

MapReduce實例開發(fā)指南

MapReduce實例——wordcount（單詞統(tǒng)計）

2019-10-08 07:15:48

MapReduce數(shù)據(jù)壓縮的基本原則

黑猴子的家：MapReduce數(shù)據(jù)壓縮

2019-05-24 12:45:46

MapReduce框架音樂排行榜案例

Hadoop綜合實戰(zhàn)之MapReduce運算優(yōu)化——音樂排行榜

2019-10-16 12:20:15

MapReduce的三種運行模式

第二章關于MapReduce

2019-03-26 06:32:50

MapReduce的操作案例分析

一、MapReduce概述1、基本概念Hadoop核心組件之一：分布式計算的方案MapReduce，是一種編程模型，用于大規(guī)模數(shù)據(jù)集的并行運算，其中Map（映射）和Reduce（歸約

2021-01-05 17:01:44

MapReduce綜述

的午餐11.2 串行與并行編程21.3 并行基本概念22 MapReduce基本原理介紹52.1 計算單詞數(shù)WordCount 62.2 類型72.3 其它實例73 MapReduce實現(xiàn)83.1

2010-09-18 08:31:59

編程實例供大家參考

搜集的一些編程實例供大家參考

2012-04-20 13:17:59

編程實例說明

編程實例說明初學者的資料

2013-05-27 20:53:56

LABVIEW編程實例

LABVIEW編程實例?。。?！

2013-12-21 18:58:37

MaxCompute MapReduce

摘要：大數(shù)據(jù)計算服務(MaxCompute)的功能詳解和使用心得點此查看原文：http://click.aliyun.com/m/41384/前言MapReduce已經有文檔，用戶可以參考文檔

2018-01-31 17:08:45

PLC編程實例

2012-08-20 19:28:00

TLC1549的實例應用及編程有哪些？

什么是TLC1549？TLC1549的工作原理是什么？TLC1549的實例應用及編程有哪些？

2021-04-22 07:19:13

Yarn的偽分布部署步驟及MapReduce簡單使用

偽分布式部署yarn和MapReduce案例

2019-03-05 16:01:15

labview編程實例

編程實例，可供參考

2015-05-17 16:31:51

中斷編程實例

各種中斷編程實例，看完中斷編程毫無壓力……

2014-05-20 21:52:04

值得一看的MapReduce編程實例

MapReduce編程實例

2019-03-05 16:55:22

請問有基于USART IAP在線應用編程的實例嗎？

有沒有基于USARTIAP在線應用編程的實例啊.

2019-05-16 04:08:01

VISA編程及應用實例

VISA編程及應用實例 1、VISA編程概要在VISA編程過程中，面向儀器的所有操作都必須首先進行打開VISA資源

2009-06-22 12:25:05

5862

C語言與MATLAB接口編程與實例

本書以簡潔的語言、豐富的實例系統(tǒng)地介紹了C語言與 MATLAB 接口函數(shù)(稱之為：C-MEX函數(shù))的編程方法。用實例詳細地介紹了MATLAB中所提供的數(shù)據(jù)類型在C-MEX函數(shù)中的編程方法。這些數(shù)據(jù)類

2011-08-08 11:23:00

abb_plc_500編程軟件使用實例

abb_plc_500編程軟件使用實例abb_plc_500編程軟件使用實例abb_plc_500編程軟件使用實例

2015-11-12 14:36:41

單片機C語言編程與實例

單片機C語言編程與實例學習單片機開發(fā)非常不錯的資料。

2016-01-11 14:50:21

單片機編程實例大全

受錄了多種實例的單片機編程，非常實用，與大家分享。

2016-03-23 17:06:41

PLC的原理、編程與應用（實例）

PLC的原理、編程與應用（實例）希望對大家有幫助

2016-08-03 18:20:02

Linux網絡編程實例詳解

網絡通訊教程學習之Linux網絡編程實例詳解

2016-09-01 14:55:49

VC_MFC編程實例

這是一個VC_MFC編程實例的文檔。學習教程。

2016-09-01 15:27:27

FX編程實例

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-07 15:24:16

光標切_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 16:43:43

供水_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 16:43:43

攻牙機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 16:02:59

廣告燈_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 16:43:43

廣州正佳廣場_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 16:43:43

家用程控_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:25:25

佳信達克爾布斯膠訂機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:25:25

漿紗機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:25:25

交通燈__PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:25:25

接菌機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

開箱機程式_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

開平機程序_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

九層九站電梯_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

開料鋸_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

空壓機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 16:10:18

克爾布斯膠訂機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

拉絲_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:06:18

控制行車_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 15:01:36

離子水__PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:51:28

六層六站電梯_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:51:28

硫化機__PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:51:28

零帶_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:51:28

魯式集塵機程式_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:37:00

馬達控制_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:37:00

瑪斯蘭貳廠壹期_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:37:00

噴涂_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

泡沫機_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

氣壓控制_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

坡口銑床程序_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

搶答器_PLC編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-05 14:15:09

揉紋車間電梯編程實例項目例程

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:25:19

三菱PLC編程實例-A1S68AD

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 16:59:02

三菱PLC編程實例-FXComms.

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-04-27 15:13:32

三菱PLC編程實例-Fat Coater b

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:09:03

三菱PLC編程實例-DST for FX

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:09:03

三菱PLC編程實例-Daylight Savings Time

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-Brick Crane v5

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 17:07:45

三菱PLC編程實例-Analog Write

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-FX2N communicating to

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-Analog Read

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-Daylight Savings Time

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-04 17:01:35

三菱PLC編程實例-PID[1].FX2N

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-Pick and Place

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-Mitsubishi Timer Examp

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-osp2 plc

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-osp1

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-pid

三菱PLC（可編程邏輯控制器）編程實例項目例程

2022-05-13 17:09:04

179

三菱PLC編程實例-Medoc sequence generat

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-jq

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-time

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-純水

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱PLC編程實例-Q[1].AD.DA

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-11-03 18:32:29

三菱編程實例

三菱PLC（可編程邏輯控制器）編程實例項目例程

2016-12-10 14:58:28

C#編程實例與技巧

2017-01-02 19:57:54

基于MapReduce和矩陣的頻繁項集挖掘算法

基于MapReduce和矩陣的頻繁項集挖掘算法_周國軍

2017-01-07 18:39:17

Python編程實例

2017-01-08 14:14:39

MapReduce框架下的Skyline結果優(yōu)化算法_馬學森

MapReduce框架下的Skyline結果優(yōu)化算法_馬學森

2017-03-19 11:41:51

Mapreduce下改進Skyline的高效算法_劉建邦

Mapreduce下改進Skyline的高效算法_劉建邦

2017-03-19 18:58:18

MapReduce的誤差反向傳播算法

針對誤差反向傳播（BP）算法計算迭代的特點，給出了迭代式MapReduce框架實現(xiàn)BP算法的方法。迭代式MapReduce框架在傳統(tǒng)MapReduce框架上添加了傳送模塊，避免了傳統(tǒng)框架運用在迭代

2017-12-20 16:39:37

多階段劃分的MapReduce模型

針對已有的MapReduce模型階段劃分粒度不合理導致模型精度和復雜度存在的問題，提出了階段劃分粒度為5的多階段MapReduce模型（MR-Model）。首先綜述了MapReduce模型的研究現(xiàn)狀

2017-12-27 11:48:35

什么是mapreduce_mapreduce工作原理_mapreduce_mapreduce邏輯模型圖

Mapreduce概況 MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運算。概念Map（映射）和Reduce（歸約），是它們的主要思想，都是從函數(shù)式編程語言里借來的，還有

2018-01-02 10:39:34

24973

詳解MapReduce的模式、算法和用例

本文總結了幾種網上或者論文中常見的MapReduce模式和算法，并系統(tǒng)化的解釋了這些技術的不同之處。所有描述性的文字和代碼都使用了標準hadoop的MapReduce模型，包括Mappers， Reduces， Combiners， Partitioners，和 sorting。下面我將一一進行分析。

2018-01-02 11:31:32

2233