pyspark中 job执行的流程

一个 spark-submit 提交的应用程序(Application)会触发多少个Job,完全取决于你的代码中包含了多少个 Action 操作。

下面我们来详细分解这个概念:

📊 核心概念:Action触发Job

在Spark的执行模型中,这是一个铁律:

  • 转换(Transformation):如 map、filter、join,它们只定义计算逻辑,是“惰性”的,不会立即执行。
  • 动作(Action):如 count()、collect()、saveAsTextFile()、show(),它们会触发一个作业(Job)的真正执行,目的是产出结果或输出。

每个Action触发一个独立的Job。 因此,你的代码里有几个Action,spark-submit 运行这个应用时就会生成几个Job。

首先Driver程序会解析我们的代码,形成RDD的计算图。

接着,DAGScheduler会根据宽依赖将计算图划分成不同的Stage,每个Stage内部是一系列可以并行执行的Task。

然后,TaskScheduler会与Cluster Manager协作,申请资源启动Executor,并将Task分发到各个Executor上执行。Executor执行Task,并将状态和结果返回给Driver。

整个过程,Shuffle是Stage划分和数据交换的关键点,也是主要的性能优化切入点。

全部评论
不明觉厉
点赞 回复 分享
发布于 01-14 18:29 陕西

相关推荐

2025-12-12 19:58
哔哩哔哩_产品运营
跟同事聊天时候,同事说“你刚来时候blabla”,突然意识到自己已经正式工作一年多了!就这么从脆皮内耗大学生逐渐磨练成厚血条(厚脸皮)工位主理人。秋招简历当然也是投了不少份,但总有一些机会要留给自己的白月光,比如阿B,说说我秋招选择阿B的理由吧:1. “为爱发电”:说来兴趣真的是初心,阿B在手机陪我看了那么多番剧vlog学习视频,当然想和它距离更近一些。来了之后发现,B站重要活动要专门走内宣是有原因的,身边的六级大佬绝对不在少数。2. 实习体验感拉满:嗯对其实等不到正式工作就先来实习体验了。实习期在一个非常好的组,大家都很年轻氛围超好,做事情讲背景、讲逻辑不会只丢脏活累活。平时聊得来,工作起来也能快速打配合,项目完成时候所有人都成就感满满。再说说来正式工作之后的体验感:1. 校招生mentor文化很需要:在阿B每个校招生入职都是会有一位mentor的,不会让大家有刚工作人生地不熟就孤苦一人挑大梁的感觉。很幸运我的mt人真的超好,耐心温柔业务能力又很强。常常在对需求听她帮我说话时看着她身上闪耀的光芒想要流泪。有mt的话landing期会顺畅很多。公司也会安排一些活动帮助mentor和mentee增进感情。2.小动物们和各类活动是回血剂:工作起来当然难免遇到一些磕磕磨磨,但是压力大时候转头看到想悄悄溜过的小猫摸上一把,真的会治愈不少。还有节假日的各种活动和扫楼活动,真的会给上班增加动力。最后上图!没有任何工作会让人一直开心吧,但阿B你在照顾员工心情这一块儿做得真的很不错。
哔哩哔哩公司福利 915人发布
点赞 评论 收藏
分享
01-12 20:31
东北大学 Java
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务