首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
查理的巧克力
2019-04-16 16:46
已编辑
中国科学技术大学 算法工程师
关注
已关注
取消关注
spark初学者想问一个关于数据混洗的问题
看网上说除了count之外的bykey操作能引发数据混洗,在combineByKey()方法中,说是每个分区单独操作所以要传一个mergeCombine操作,将不同分区中同一个键值合并。但是数据混洗的过程不就是将键值按照其哈希值进行分区,这样的话不就可以保证相同的键值在同一个分区了吗,为什么还要将不同分区的同一个键值进行合并呐~
不知道是不是我对数据混洗理解有误,跪求大神指教~
提示
全部评论
推荐
最新
楼层
turtlebin
门头沟学院 大数据开发工程师
简单来说,在shuffle过程中分为map阶段和reduce阶段,实际上map阶段会调用createCombiner方法和mergeValue方法对数据依据分区排序,但是此时数据并不实际移动,也就是说,在map阶段,不同map端可能存在相同的key,而若需要把不同map端相同的key聚合起来,就需要在reduce端使用mergeCombiner方法,而真正的数据移动是发生在reduce端,他会根据MapOutputTracker跟踪到map端的数据存储信息,并通过网络传输fetch数据,这时才真正发生数据的移动,才是真正的shuffle发生的时间点。
点赞
回复
分享
发布于 2019-04-16 18:09
turtlebin
门头沟学院 大数据开发工程师
combineByKey方法实际上需要传递三个方法,createCombiner,mergeValue,mergeCombiner三个,其中createCombiner和mergeValue是在map端进行聚合的时候使用,Map端会在一个外部排序Map中对数据进行聚集,并对数据按照reduce端的分区进行排序。而你提到的mergeCombiner是在reduce端fetch到所有map端的block之后对各个map端中所有包含自身reduce分区的数据进行merge。个人见解,欢迎指正。
点赞
回复
分享
发布于 2019-04-16 18:05
NowaCoder
阿里巴巴_阿里云_研发工程师
初学者来回答一下,我觉得他说的分区是来自不同map端的分区意思,你的分区是不同reduce端分区的意思
点赞
回复
分享
发布于 2019-04-16 17:11
暂无评论,快来抢首评~
相关推荐
12-19 21:04
三七互娱_游戏开发_系统开发(准入职员工)
图拉斯内推,图拉斯内推码
ai面总结:AI调教的很好,问的问题很有意思,整场面试不会有很大的压迫感,追问大多是根据你的回答提问。总时长:35分钟Q1:自我介绍,重点介绍一下个人背景和大学期间的主要经历。Q2:你对于在一家公司长期发展有什么看法?你认为哪几点因素会让你在一家公司长期工作?(有追问)Q3:你取得过的最大成就是什么?过程中最大的难点是什么?你是如何突破的?最终的结果怎么样?(有追问2个)Q4:请描述一个过往遇到的最有压力困难或最具挑战的一个场景,你是如何解决的?对你有什么影响?(有追问)Q5:依你的看法,请描述一个你近期完成的项目任务,如果重来一次,你会做哪些不同的事情来提升结果?(有追问2个)Q6:电商运营...
点赞
评论
收藏
分享
昨天 13:41
上海智元新创技术有限公司_产品经理(准入职员工)
智元机器人内推,智元机器人内推码
来到智元快一个月了,更新一下实习体验 1.地理位置:智元上海总部在康桥,离上海迪士尼很近,但是属于郊区,到外滩坐地铁要一个小时 2.周围物价:公司楼下的商务区饭菜是上海水准,平均一餐25左右,牛肉面28。但是!距离500m左右的秀沿路上有大大小小几十家餐馆,木桶饭,张亮麻辣烫,灌汤包,麦当劳,塔斯丁,鸡公煲,烧烤店,好吃的不要太多!而且物价很便宜,和重庆类似,平均一餐15—20,团购的至尊烤鸡才19元,赚麻了 3.租房:(更新)康桥区的租房真的有点乱,我被骗了2000,当时是贝壳上找到的房源,到了现场说他是房东,拿出了他自己搞的虚假合同,里面有2000的一年的物业费,可以退,我微信转账给了他。...
三奇智元机器人科技有限公司公司福利 70人发布
点赞
评论
收藏
分享
12-03 03:32
安徽大学 Java
27届,非科班,求拷打
第一个实习真的很难找,很多企业直接不要大三的,在boss上沟通了一百多家,一共只投出去了10份左右简历,求牛友们出出主意😭😭😭
4590:
感谢大家的关心,目前已经有两个 offer了,虽然都是小厂,但我也知足了😊😊😊
点赞
评论
收藏
分享
12-23 23:49
门头沟学院 前端工程师
原来前端已死是这个意思
双非前端已死 投一大圈一个面试约不到 我真心碎了 前端已死
点赞
评论
收藏
分享
12-22 22:08
重庆邮电大学 Java
重庆小厂面经
第一次面试,很放松,面试官也很好一面全项目拷打,0八股形式是2面2(两个面试官,同时面试俩人)上来先写一张卷子,都是java基础题1.自我介绍2.redis作用3.MQ作用4.nacos作用5.你简历上写的都是后端,前端部分是怎么处理的?会前端吗?自己是怎么写前端的?(ai合体)6.自我介绍提到技术栈是自学的,专业课学啥?7.为什么选择简历上的项目?真实应用场景?8.接触过ai相关开发吗?9.自学能力怎么样?反问二面这次是一对一的没问什么技术性的问题,聊规划,聊转正
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
2025的主旋律是蛰伏,落寞,遗憾
1.3W
2
...
杂记近期所面试的三家中小厂
8204
3
...
牛客2025年终报告重磅上线——揭晓你的年度修炼成就!
6836
4
...
圣诞节用 AI 做个牛客运营翻翻乐!(含代码)
5469
5
...
选择即命运—2025年度总结
5232
6
...
从H200解禁评估:国资算力平台还值得应届就业吗?
4197
7
...
大学废物离开优绩主义之后发现外面根本没下雨
4197
8
...
我只是一个脆弱的人
3452
9
...
互联网实习求职的黑话和timeline,你所需要知道的……
3312
10
...
壕壕壕,京东发7个月年终,此生要做东孝子
2869
创作者周榜
更多
正在热议
更多
#
牛客2025仙途报告
#
1621次浏览
68人参与
#
你面试体验感最差/最好的公司
#
20159次浏览
333人参与
#
2025年终总结
#
175139次浏览
2967人参与
#
秋招落幕,你是He or Be
#
13873次浏览
271人参与
#
中美关税战对我们有哪些影响
#
49918次浏览
392人参与
#
一人说一个提前实习的好处
#
12148次浏览
215人参与
#
中美关系回暖,你会选择出海吗?
#
13910次浏览
141人参与
#
今年你最想重开的一场面试是?
#
4718次浏览
72人参与
#
重来一次,你会对开始求职的自己说
#
6540次浏览
165人参与
#
实习没事做是福还是祸?
#
17768次浏览
263人参与
#
机械制造秋招总结
#
97287次浏览
878人参与
#
找工作,行业重要还是岗位重要?
#
85551次浏览
1698人参与
#
团建是“福利”还是是 “渡劫”
#
7683次浏览
155人参与
#
工作中听到最受打击的一句话
#
7449次浏览
122人参与
#
考公VS就业,你怎么选?
#
88038次浏览
496人参与
#
你小心翼翼的闯过多大的祸?
#
11475次浏览
165人参与
#
哪些行业值得去?
#
14346次浏览
74人参与
#
礼物开箱Plog
#
979次浏览
35人参与
#
比亚迪工作体验
#
74903次浏览
282人参与
#
大厂VS公务员你怎么选
#
74982次浏览
681人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务