更新時(shí)間:2020年11月05日13時(shí)40分 來(lái)源:傳智播客 瀏覽次數(shù):
MapReduce程序的運(yùn)行模式主要有兩種:
(1)本地運(yùn)行模式:在當(dāng)前的開發(fā)環(huán)境模擬MapReduce執(zhí)行環(huán)境,處理的數(shù)據(jù)及輸出結(jié)果在本地操作系統(tǒng)。
(2)集群運(yùn)行模式:把MapReduce程序打成一個(gè)Jar包,提交至Yarn集群上去運(yùn)行任務(wù)。由于Yarn集群負(fù)責(zé)資源管理和任務(wù)調(diào)度,程序會(huì)被框架分發(fā)到集群中的節(jié)點(diǎn)上并發(fā)的執(zhí)行,因此處理的數(shù)據(jù)和輸出結(jié)果都在HDFS文件系統(tǒng)中。
集群運(yùn)行模式只需要將MapReduce程序打成Jar包上傳至集群即可,比較簡(jiǎn)單,這里不再贅述。下面我們以詞頻統(tǒng)計(jì)為例,講解如何將MapReduce程序設(shè)置為在本地運(yùn)行模式。
在MapReduce程序中,除了要實(shí)現(xiàn)Mapper(代碼見WordCountMapper.java文件)和Reduce(代碼見WordCountReducer.java文件)外,我們還需要一個(gè)Driver類提交程序,具體代碼,如文件所示。
文件 WordCountDriver.java
import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class WordCountDriver { public static void main(String[] args) throws Exception { //通過(guò)Job來(lái)封裝本次MR的相關(guān)信息 Configuration conf = new Configuration(); // 配置MR運(yùn)行模式,使用local表示本地模式,可以省略 **conf.set("mapreduce.framework.name", "local")**; Job wcjob = Job.getInstance(conf); // 指定MR Job jar包運(yùn)行主類 wcjob.setJarByClass(WordCountDriver.class); //指定本次MR所有的Mapper Reducer類 wcjob.setMapperClass(WordCountMapper.class); wcjob.setReducerClass(WordCountReducer.class); // 設(shè)置我們的業(yè)務(wù)邏輯 Mapper類的輸出 key和 value的數(shù)據(jù)類型 wcjob.setMapOutputKeyClass(Text.class); wcjob.setMapOutputValueClass(IntWritable.class); // 設(shè)置我們的業(yè)務(wù)邏輯 Reducer類的輸出 key和 value的數(shù)據(jù)類型 wcjob.setOutputKeyClass(Text.class); wcjob.setOutputValueClass(IntWritable.class); // 使用本地模式指定要處理的數(shù)據(jù)所在的位置 **FileInputFormat.setInputPaths(wcjob,"D:/mr/input")**; // 使用本地模式指定處理完成之后的結(jié)果所保存的位置 **FileOutputFormat.setOutputPath(wcjob,new Path("D:/mr/output"))**; // 提交程序并且監(jiān)控打印程序執(zhí)行情況 boolean res = wcjob.waitForCompletion(true); System.exit(res ? 0 : 1); **}** **}
在文件中,往Configuration對(duì)象中添加“mapreduce.framework.name=local”參數(shù),表示程序?yàn)楸镜剡\(yùn)行模式,實(shí)際上在hadoop-mapreduce-client-core-2.7.4.jar包下面的mapred-default.xml配置文件中,默認(rèn)指定使用本地運(yùn)行模式,因此mapreduce.framework.name=local配置也可以省略;同時(shí),還需要指定本地操作系統(tǒng)源文件目錄路徑和結(jié)果輸出的路徑。當(dāng)程序執(zhí)行完畢后,就可以在本地系統(tǒng)的指定輸出文件目錄查看執(zhí)行結(jié)果了。輸出的結(jié)果,如圖1所示。
圖1 詞頻案例的輸出結(jié)果
小提示:
在使用本地運(yùn)行模式執(zhí)行wordcount案例時(shí),即使配置了windows平臺(tái)的hadoop,運(yùn)行時(shí)仍報(bào)如下錯(cuò)誤:
解決辦法:根據(jù)錯(cuò)誤提示和網(wǎng)上資料的提示,需要修改org.apache.hadoop.io.nativeio包下的NativeIO類的access()方法,將返回值直接設(shè)為true,即:
public static boolean access(String path, AccessRight desiredAccess) throws IOException { // return access0(path, desiredAccess.accessRight()); **return true;** } public static boolean access(String path, AccessRight desiredAccess) throws IOException { // return access0(path, desiredAccess.accessRight()); **return true;** }
北京校區(qū)