pyspark资源管理与配置优化
1.1 Executor内存分配策略
面试中常被问及如何合理配置spark.executor.memory、spark.executor.memoryOverhead及堆外内存。典型场景是任务因内存不足频繁GC或OOM,需通过调整内存比例解决。
优化思路:
- 堆内存与堆外内存比例:默认堆内存占比80%(
spark.executor.memory),堆外内存20%(memoryOverhead)。若任务处理大量二进制数据(如图像),需提高堆外内存至30%~40%。 - 动态调整示例:
- 监控指标:通过Spark UI的
Storage标签页观察内存使用率,若Used接近Max且GC Time高,需增加堆内存;若Disk Used高,可能堆外内存不足。
1.2 CPU核心数与并行度匹配
并行度(spark.default.parallelism)与Executor核心数(spark.executor.cores)的匹配直接影响任务吞吐量。
最佳实践:
- 单Executor核心数:建议2~5核,避免单核导致任务调度延迟或过多核心(>6)引发线程竞争。
- 并行度计算:
并行度 = 总核心数 * 0.7 ~ 0.8(预留资源给系统进程)。例如,10个Executor、每Executor 4核时,spark.default.parallelism可设为28~32。 - 动态调整代码:
详情参加如下链接:
查看11道真题和解析