关注
1.mapreduce中为何要hash partition分区
默认是hash分区 为了打散数据 分布式处理
分区方式可以自己定义 实现分区器自定义实现;
public class CustomPartitioner extends Partitioner<Text,Object>{
@Override
public int getPartition(Text key,Object value,int numPartitions){
//控制分区代码逻辑 返回int即可
return partition;
}
}
2.mapreduce中为何使用快拍和归并排序
快排:因为内存中排序比较快
数据在内存中是按照 entry1(k1v1),entry(k2v2),entry(k3v3) 这种方式排列的, kv组成一个entry 快排效率高
归并:对多个有序的小文件进行排序,不能单靠内存排,得借助磁盘
比如三个小文件分别是
1,4,6,8
1,5,8,8
0,3,7,11
同时打开所有小文件 分别使用迭代器取出第一个数 即1,1,0
此时0最小 将0追加写入新文件 并从三号文件通过迭代器拿出下一个数3
此事1最小 将1追加写入新文件 并从一号文件通过迭代器拿出下一个数4
直到所有文件都被迭代完 总的排序也就完成了
感觉会问你哪里用到排序了
1.map端的环形缓冲区用到快排
2.map端的小文件合并用到归并排序
3.reduce端将从map端拉取的文件进行归并排序
#数仓开发#
查看原帖
1 评论
相关推荐
牛客热帖
更多
正在热议
更多
# 什么是优秀的实习经历 #
8657次浏览 214人参与
# 实习简历求拷打 #
13443次浏览 163人参与
# 被上班搭子“传染”了哪些习惯 #
5721次浏览 99人参与
# 秋招被挂春招仍然能投的公司 #
7000次浏览 100人参与
# 工作后,你落下了哪些病根 #
13791次浏览 191人参与
# 外包能不能当跳板? #
54126次浏览 256人参与
# mt对你说过最有启发的一句话 #
36914次浏览 442人参与
# 作业帮求职进展汇总 #
83350次浏览 547人参与
# 摸鱼被leader发现了怎么办 #
101992次浏览 647人参与
# 秋招特别不鸣谢 #
15981次浏览 181人参与
# 考研失败就一定是坏事吗? #
201429次浏览 1376人参与
# 选实习,你更看重哪方面? #
14406次浏览 220人参与
# 投格力的你,拿到offer了吗? #
152866次浏览 817人参与
# 一起聊美团 #
307137次浏览 1760人参与
# 京东美团大战,你怎么看? #
158157次浏览 861人参与
# 安克创新求职进展汇总 #
62390次浏览 541人参与
# 京东开奖 #
631616次浏览 3177人参与
# 第一次面试 #
1036589次浏览 13683人参与
# 今年秋招你收到了多少封邮件? #
18101次浏览 220人参与
# 毕业论文进行时 #
20933次浏览 132人参与