- 主页 > 生活百科 > >
package cn.mr.dedup;
import JAVA.io.IOException;
import org.Apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.MApper;
public class DedupMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
private static Text field = new Text();
// <0,2018-3-3 c><11,2018-3-4 d>
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
field = value;
context.write(field, NullWritable.get());
}
// <2018-3-3 c,null> <2018-3-4 d,null>
}
package cn.mr.dedup;
import java.io.IOException;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
public class DedupReducer extends Reducer<Text, NullWritable, Text, NullWritable> {
// <2018-3-3 c,null> <2018-3-4 d,null><2018-3-4 d,null>
@Override
protected void reduce(Text key, Iterable<NullWritable> values, Context context)
【Hadoop数据去重】throws IOException, InterruptedException {
context.write(key, NullWritable.get());
}
}
package cn.mr.dedup;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class DedupRunner {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
job.setJarByClass(DedupRunner.class);
job.setMapperClass(DedupMapper.class);
job.setReducerClass(DedupReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);
FileInputFormat.setInputPaths(job, new Path("D:\Dedup\input"));
// 指定处理完成之后的结果所保存的位置
FileOutputFormat.setOutputPath(job, new Path("D:\Dedup\output"));
job.waitForCompletion(true);
}
}
推荐阅读
-
-
-
智通财经@上海电气(02727)年度纯利增24.81%至37.2亿元
-
伦纳德|美媒评现役top5小前锋,乔治第4,小卡第3,第1没有悬念
-
-
「医院船」美版“方舱医院”终于要动工?美军:“准备部署”5支野战医院部队
-
环球时报新媒体▲让人有点害怕,“罗斯福”号航母舰员送别被革职舰长的场面
-
|厨房不要傻傻装推拉门了,这样设计更美观实用,老师傅看了都夸好
-
-
南航内部人员能否查到二十多天前的乘客信息呢,只有航班号和座位号,不知道姓名
-
-
男生们可以学习的绑鞋带技巧到底有多少种? 鞋带系法
-
-
小陈聊搭配|如何优雅地老去?这3位日本老太太告诉你秘诀,收藏好以后用得上
-
-
「」团餐行业发展趋势分析:团餐业态成为餐饮行业的新蓝海
-
「印度少管所犯人感染」印度奥里萨邦少管所45名在押少年犯确诊新冠肺炎
-
科技热门 源聚湾区——“创业顺德”开源芯片生态建设系列活动启动,同芯开创
-
中国要建印尼高铁,朋友公司中标,去那工作安全有保障吗
-
水一白聊历史:只因为母亲的一个错误选择,丢掉了太子之位,一个可怜的皇太子