贝壳 数据开发

#发面经攒人品#
前几天也面试了贝壳,感觉大部分是八股
1 先自我介绍
2说一下mapreduce的几次排序,都是啥排序,大概是在啥时间进行的排序
3说一下spark的3种join,这3种join为啥可以进行优化代码,哪些场景适合啥join
4 说一下数据倾斜的现象,你工作中有遇到吗,是怎么解决的,解决思路是啥,解决完成之后时效有明显提升吗
5 平时任务有时效性要求吗,比如业务需要1点前产出,你们这边怎么设置任务基线,怎么确保任务准时产出
6 晚上对于脏数据和异常起夜都是怎么应急处理的,大概会有谁参与
7 对于数据治理你感觉需要治理啥,哪些治理的收益大
8你这边有啥需要找我了解的
个人觉得大部分是八股,其它都是一些主要场景,没有问实时,估计实时不多
全部评论

相关推荐

算法岗越来越卷,还在纠结简历写什么? 拒绝千篇一律的“minist手写数字识别”! 今天盘点 3 个不同技术方向的硬核项目,建议根据自己的赛道,选一个死磕到底!👇1️⃣ 【LLM 应用赛道】—— 紧跟风口  📂 项目:基于 LangChain + RAG 的垂直领域问答助手为什么做: 现在 10 家面试 8 家问大模型。不懂 RAG(检索增强生成)真的很难聊!核心考点: 向量数据库 (Milvus/Faiss)、Prompt Engineering、文档切片策略、甚至 LoRA 微调。一句话亮点: “解决了大模型幻觉问题,实现了基于本地私有数据的精准问答。”2️⃣ 【硬核基建赛道】—— 专治手痒  📂 项目:从零手撸 Transformer (Pytorch复现)为什么做: 别只做“调包侠”!面试问 Multi-head Attention 细节又又又卡壳了?核心考点: Self-Attention 矩阵计算、Positional Encoding 原理、Mask 机制。一句话亮点: “不依赖高级 API,从底层张量运算构建模型,深入理解 Attention 机制。”3️⃣ 【AIGC 视觉赛道】—— 视觉魔法  📂 项目:Stable Diffusion 扩散模型复现与 LoRA 微调为什么做: CV 岗已经从“识别”卷到了“生成”。不要再玩那个YOLO !核心考点: DDPM/DDIM 采样原理、UNet 结构(mile-stone)、CLIP 多模态对齐、ControlNet 控制生成。一句话亮点: “掌握 AIGC 核心流派,具备模型微调与可控图像生成能力。”💡 最后的小建议: 项目在精不在多。 与其罗列 多 个 Demo,不如把其中一个吃透,把遇到的 Corner Case、性能优化、思考过程写进简历里。
一人推荐一个值得做的项目
点赞 评论 收藏
分享
评论
点赞
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务