牛客901591050号

01-13 11:21 已编辑大数据开发工程师发布于上海

关注

pyspark数据倾斜治理方案

2.1 倾斜诊断与定位

数据倾斜的典型表现是部分Task耗时远超其他Task（如99% Task完成，剩余1% Task未完成）。通过Spark UI的Stages标签页观察Task执行时间分布。

诊断步骤：

按Key分组统计：对可能倾斜的字段（如用户ID、商品ID）执行groupBy+count，观察Key分布。
采样分析：对大数据集采样（sample(false, 0.1)），快速定位高频Key。

2.2 两阶段聚合（Salting）

对倾斜Key添加随机前缀（Salt），分散计算压力，最后去除前缀合并结果。

实现示例：

// 第一阶段：添加随机前缀（1~10）
val saltedData = df.withColumn("salted_key",   concat($"key", lit("_"), floor(rand() * 10 + 1)))// 聚合盐化后的数据
val saltedAgg = saltedData.groupBy("salted_key").agg(sum("value"))// 第二阶段：去除前缀并二次聚合
val result = saltedAgg  .withColumn("original_key", split($"salted_key", "_")(0))  .groupBy("original_key")  .agg(sum("sum(value)"))

2.3 倾斜Key单独处理

将高频Key（如NULL值、默认值）单独过滤，与其他数据分开计算。

代码示例：

// 分离高频Key（如key为NULL）
val commonData = df.filter($"key".isNotNull)
val rareData = df.filter($"key".isNull)// 普通Key正常聚合
val commonAgg = commonData.groupBy("key").agg(sum("value")) // 高频Key单独处理（如改为全局聚合）
val rareAgg = rareData.agg(sum("value").as("total_value"))  .withColumn("key", lit("NULL_KEY"))

三、Shuffle优化策略

3.1 Shuffle文件合并

通过spark.shuffle.file.buffer和spark.reducer.maxSizeInFlight控制Shuffle读写缓冲区大小，减少磁盘I/O。

参数配置：

spark.conf.set("spark.shuffle.file.buffer", "1MB") // 默认32KB，增大可减少小文件
spark.conf.set("spark.reducer.maxSizeInFlight", "96MB") // 默认48MB，增大可提高并行拉取能力

3.2 广播变量优化

小表（<10MB）通过广播（broadcast）避免Shuffle，提升Join性能。

使用场景：

// 显式广播小表
val smallDF = spark.table("small_table").cache()
val broadcastDF = broadcast(smallDF)// 大表与广播表Join
val result = largeDF.join(broadcastDF, Seq("key"))

注意事项：

广播前需cache()小表，避免重复计算。
监控Executor内存，广播数据过大可能导致OOM。

四、面试高频问题解析

问题1：如何解决Spark任务执行慢？

回答框架：

定位瓶颈：通过Spark UI观察Stage耗时，区分是CPU密集型（如复杂计算）还是I/O密集型（如Shuffle）。
资源调优：增加Executor数量或内存，调整并行度。
数据优化：检查是否存在数据倾斜，应用Salting或分离处理。
代码优化：避免collect()等操作，使用reduceByKey替代groupByKey。

问题2：Spark SQL与DataFrame API的性能差异？

关键点：

Catalyst优化器：Spark SQL通过Catalyst生成逻辑计划与物理计划，自动优化执行策略（如谓词下推、列裁剪）。
Tungsten引擎：DataFrame使用二进制格式存储数据，减少序列化开销，支持向量化执行。
代码示例对比：```scala// RDD方式（需手动优化）val rddResult = rdd.map(…).reduceByKey(…)

// DataFrame方式（自动优化）

val dfResult = df.groupBy(“key”).agg(sum(“value”))

```

五、最佳实践总结

监控先行：通过Spark UI和Ganglia/Prometheus监控资源使用，定位性能瓶颈。
渐进调优：从资源分配（内存/CPU）→数据倾斜→Shuffle优化逐步调整。
代码规范：优先使用DataFrame API，避免低效操作（如UDF替代原生函数）。
测试验证：每次调优后通过小数据集验证效果，避免全量数据重跑。

通过系统掌握上述策略，开发者不仅能从容应对面试中的性能优化问题，更能在实际项目中显著提升Spark任务效率。

详情参加如下链接：

https://www.nowcoder.com/discuss/840544625130532864

全部评论

推荐最新楼层

01-11 08:37

清华大学 Java

java手撕分享

有一次面试，面试官直接让我手撕一道经典题——两数之和。题目不复杂，但要求我当场写出思路清晰、可运行的Java代码。我先说了解题思路：用 HashMap 存已经遍历过的数和下标，再一边遍历一边查找目标差值。写代码时我刻意放慢速度，把变量命名写清楚，同时不断口头解释时间复杂度和边界情况。代码写完后，面试官没有纠结细节，而是追问我为什么不用双重循环、HashMap 的空间开销是否能接受。那一刻我意识到，手撕代码考的不是你敲得有多快，而是你是否真正理解问题。这次经历让我明白，Java手撕题真正重要的是思路表达和基本功，而不是背模板。

查看3道真题和解析

点赞评论收藏

分享

2025-12-23 10:02

广东理工职业学院内容运营

快手昨晚是咋了，有无懂牛？

RT 鼠鼠一觉醒来，铺天盖地全是快手的瓜瓜谁能告诉我发生甚么事了？？

不进华为就延毕：我昨晚刚收到拒信，用意念制裁了它，没想到这么灵？

点赞评论收藏

分享

01-02 17:25

门头沟学院数据分析师

美团数据分析实习二面

1. 实习介绍2. 简历深挖· 你提到搭建xx看板并监控，这个平台的指标体系具体是怎么样的？· 这些看板的具体指标是固定的吗？还是会有变化？不同业务线的指标如何区分和构建？· 在这些指标中，每个领域最核心的关键指标是什么？3. SQL· 题目1：给定一张订单表A（字段：用户ID、购买日期、订单ID、销售金额），如何取出十月份全月购买金额排名前三的用户？· 题目2：还是基于表A，如何找出在十月份中，有连续三天及以上购买行为的用户？4. 业务场景分析· 我们关注一个指标“件单价”（即总销售额除以总销售件数），发现十月份整体的件单价相比九月份出现了大幅下滑。针对这个现象，你认为有可能是哪些原因导致的？请剖析一下可能发生的情况。5. 实习时间确认· 你目前在哪里？最早什么时候可以到岗？· 每周可以实习几天？大概可以实习多久？6. 反向

查看8道真题和解析

点赞评论收藏

分享

01-04 21:30

门头沟学院数据分析师

滴滴数据分析实习一面

sql两道代码题1.求次月留存率字段:order_id(订单ID)、uid(用户ID)、dt(日期，格式为YYYY-MM-DD)要求:计算2024年1月至2025年5月期间每个月的次月留存率。次月留存率定义:在当月下单的用户中，在下一月仍然有订单的用户占比。2.求 30日利润字段:uid(用户ID)、dt(日期，格式为YYYY-MM-DD)、profit(当日利润)注意:每个用户每天最多只有一条记录，仅当用户产生交易时才有数据要求:计算 2025年1月至2025年11月期间:每个月的新用户人均 30日利润。(新用户定义为第一次下单的时间即可）30日利润:新用户第一次下单及往后29天的利润总和。3.简历两段实习经历介绍4.gmv下降20%，如何分析

查看4道真题和解析

点赞评论收藏

分享

01-03 04:20

门头沟学院数据分析师

科大讯飞数据分析校招二面业务+hr

一、实习经历1.介绍一下过往的实习经历2.在实习中是否有通过数据分析推动业务优化的案例?3.有没有参与过指标体系的建设?设计的思路是什么?其中哪个指标是你设计的，认为最有业务价值的?二、数据分析与建模1.卡方检验是否需要正态分布条件2.SQL如何优化提升效率3.介绍transformer 底层原理4.常用的 aigc三、岗位理解与匹配度1.为什么选择投递这个岗位?2.你认为自己在哪些能力上与岗位要求匹柛金匱世?3.对科大讯飞的产品或业务有哪些了解?是否使用过相关产品?4.你觉得大模型在哪些场景中有应用前景?四、职业发展与选择1.你找工作的核心考量因素是什么?2.对工作城市有哪些偏好?为何选择合肥?3.目前还投递了哪些公司?五、反问

查看14道真题和解析

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 在大厂上班是一种什么样的体验 #

4657次浏览 68人参与

# 找工作的破防时刻 #

251681次浏览 1953人参与

# 程序员找工作至少要刷多少题？ #

9358次浏览 146人参与

# 你投递的公司有几家约面了？ #

157799次浏览 995人参与

# 论秋招对个人心气的改变 #

5926次浏览 104人参与

# 我的AI电子员工 #

26156次浏览 159人参与

# OPPO求职进展汇总 #

770957次浏览 5396人参与

# 为了减少AI幻觉，你注入过哪些设定？ #

1871次浏览 54人参与

# 刚入职的你踩过哪些坑 #

4212次浏览 91人参与

# 程序员能干到多少岁？ #

5790次浏览 90人参与

# 一张图晒一下你的AI员工 #

2983次浏览 62人参与

# 牛客AI体验站 #

3381次浏览 91人参与

# 我现在比当时_，你想录用我吗 #

3682次浏览 63人参与

# 想辞职但是不敢的原因 #

20171次浏览 88人参与

# ai智能作图 #

624752次浏览 5627人参与

# AI Coding的使用心得 #

2353次浏览 60人参与

# 关于春招/暑期实习，你想知道哪些信息？ #

3981次浏览 84人参与

# 牛客租房专区 #

146753次浏览 1464人参与

# 晒晒你司的新年福利 #

4003次浏览 70人参与

# 虾皮求职进展汇总 #

373419次浏览 2792人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务