【JAVA】并行计算中的外部排序

                                             并行计算中的外部排序

    一、并行计算的方法

    (1)将数据拆分到每个节点上【如何拆分】

    (2)每个节点并行的计算结果【什么结果】

    (3)将结果汇总                     【如何汇总】

 

    二、外部排序

    如何排序10G个元素?

    (1)扩展的归并排序

    将数据分为左右两半,分别归并排序,再把两个有序数据归并

    如何归并:

    【1,3,6,7】,【1,2,3,5】 -> 左边的1,这样稳定     (1)

    【3,6,7】,【1,2,3,5】       -> 右边的1                       (1,1)

    【3,6,7】,【2,3,5】            -> 2                                   (1,1,2)

    【3,6,7】,【3,5】                 -> 左边的3                         (1,1,2,3)

      ..............

    (2)回到问题上来,将10G元素切成若干份相同的段,每段送一个排序节点进行排序(快速排序或归并排序),

此时每个节点上都是有序的序列,再把这些节点里的数据同时送往一个归并节点,由归并节点进行排序。

                              

    (3)k路归并,若此时数据量为10G,送往10台计算机进行归并排序,则此时k=10。

    此时产生问题,若此时k很多,则归并节点选取最小的数产生困难性,如何解决呢?

   【1】使用数据结构中的堆

       

    <1>堆是一棵完全二叉树

    <2>根节点是整个树中最小的数

    <3> 一般工作中不使用这种方式

  【2】使用PriorityQueue,优先队列

    <1>将元素不断psuh进Q中,mei每次运算量都是log(k),k为push前Q中已经存在的元素个数

    <2>不断pop出最小的数

    

    

    (4)此时还是存在问题,最后依然要将10G的数据量送给归并节点,内存依然不够,那到底放入多少的数据量

在归并节点中呢?

    【1】将每个排序节点最小的那一批数据放入归并节点中,当一个节点的那一批最小的数据全部被归并后,再次读取

这个排序节点的同样大小的一批最小的数据

    (5)实现这个归并程序非常难,怎么用代码实现呢?

    【1】使用Iterable<T>接口,它的作用如下

        

    【2】归并节点的入口为

    <1>每个排序节点都是Iterable<T>,将所有节点的某一批排完序得数据形成的Iterable<T>再形成List,

传给归并节点,归并节点仍然传出Iterable<T> 

    <2>对于每个数据源形成的Iterable<T>,使用Iterable<T>.next()获取其最小的元素,放入PriorityQueue中,

然后pop出一个元素,此时这个元素是当前最小的元素。

    <3>重复进行<2>的步骤,直到某个Iterable<T>为空,则读取下一批元素放入此Iterable<T>中,然后同样重复<2>步骤

 

 

 

 

 

 

 

 

    

 

 

 

   

 

全部评论

相关推荐

最近群里有很多同学找我看简历,问问题,主要就是集中在明年三月份的暑期,我暑期还能进大厂嘛?我接下来该怎么做?对于我来说,我对于双非找实习的一个暴论就是title永远大于业务,你在大厂随随便便做点慢SQL治理加个索引,可能就能影响几千人,在小厂你从零到一搭建的系统可能只有几十个人在使用,量级是不一样的。对双非来说,最难的就是约面,怎么才能被大厂约面试?首先这需要一点运气,另外你也需要好的实习带给你的背书。有很多双非的同学在一些外包小厂待了四五个月,这样的产出有什么用呢?工厂的可视化大屏业务很广泛?产出无疑是重要的,但是得当你的实习公司到了一定的档次之后,比如你想走后端,那么中厂后端和大厂测开的选择,你可以选择中厂后端(注意,这里的中厂也得是一些人都知道的,比如哈啰,得物,b站之类,不是说人数超过500就叫中厂),只有这个时候你再去好好关注你的产出,要不就无脑大厂就完了。很多双非同学的误区就在这里,找到一份实习之后,就认为自己达到了阶段性的任务,根本不再投递简历,也不再提升自己,玩了几个月之后,美其名曰沉淀产出,真正的好产出能有多少呢?而实际上双非同学的第一份实习大部分都是工厂外包和政府外包!根本无产出可写😡😡😡!到了最后才发现晚了,所以对双非同学来说,不要放过任何一个从小到中,从中到大的机会,你得先有好的平台与title之后再考虑你的产出!因为那样你才将将能过了HR初筛!我认识一个双非同学,从浪潮到海康,每一段都呆不久,因为他在不断的投递和提升自己,最后去了美团,这才是双非应该做的,而我相信大部分的双非同学,在找到浪潮的那一刻就再也不会看八股,写算法,也不会打开ssob了,这才是你跟别人的差距。
迷茫的大四🐶:我也这样认为,title永远第一,只有名气大,才有人愿意了解你的简历
双非本科求职如何逆袭
点赞 评论 收藏
分享
秋招投简历提醒助手:个人经验是,一般面二十场左右就会进入侃侃而谈阶段。我今年七月末的时候开始的第一次面试,都是很多不会,回复很慢。后面慢慢迭代,到九月中的时候基本上面啥说啥,很放松的状态
远程面试的尴尬瞬间
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务