美团数仓开发一二面面经

美团 - 基础研发平台
一面
1. 自我介绍;
2. 项目介绍, 围绕项目考察了很多数仓方面知识
数据接入采用的方式, 有哪些数据接入方式; 有非结构化数据的加载嘛? 每天的数据量有多大;
增量数据的拉入技术环节是怎样, 对业务的影响, 增量数据的判断, 历史数据的存储;
维度数据是怎么处理? 明细层的设计模型, 采用了什么方法建模, 怎么搭建主题域的? 事实表和维度表是怎么去拆分的, 依据是什么?
事实表和业务系统是怎么映射的;
事实表分类有哪些? 事实表分类方式? (交易事实表, 周期快照事实表, 累积快照事实表)
事务事实表创建过程中核心要注意什么? 存储方式, 事实事实表建模逻辑是怎样? (事实设计准则: 事实完整性, 事实一致性, 事实可加性)
创建事务表的过程中, 逻辑是什么, 分为哪几步, 大概设计方法; (维度建模四步骤: 1. 选择业务过程; 2. 声明粒度; 3. 确认维度; 4. 确认事实;)
对于维度的退化, 怎么去确认哪些维度应该退到事实表, 哪些不退化;
3. 数据质量, 数据治理模块
元数据在整个数仓生命周期中的作用? 元数据做应用可以做哪些应用?
数据质量监控, 针对任务做了监控嘛? 对数据内容做了哪些方面的监控?
对指标和维度有监控, 那怎么保证整个数仓中指标统一?
4. 技术
spark和hive的区别
hive转MR有哪些步骤?
数据倾斜场景, 如果是大表join大表, 并且热点key也比较集中? 如果不用拆分的方式, 对热点key有哪些处理方式?
spark任务的调优, 有哪些核心的参数调优? 提升任务的并行度, 可以通过哪些参数? (spark调优问的很细)
如果spark任务遇到OOM, 大概的排查逻辑是什么, 会检查哪些地方产生OOM, 会调整哪些参数? 如果是driver的OOM, 大概会调整哪些, 从参数来调整?
hive的窗口函数, RowNumber和rank区别
hive的存储类型
5. 综合方面
在项目开发中如何管理项目, 有哪些时间管理或者管理手段?
平时除了数据开发喜欢了解哪一块的知识?

二面
1. 自我介绍
2. 挑一个项目介绍(主要考查对项目的表述, 归纳总结能力, 还有处理问题的能力)
3. 项目中遇到的难点和优化点
4. 职业规划

二面跟想的完全不一样, 以为也是考察技术块, 结果主要是考察项目架构, 以及一些场景, 主要看思考方式, 处理问题能力, 表达能力
没想到会问这些, 回答的不是很好, 整体感觉不好, 估计凉了


#面经##数据仓库工程师##美团#
全部评论
数据倾斜那题楼主怎么答的呢
1 回复 分享
发布于 2021-08-24 15:04
楼主你好,请问你是实习、校招还是社招?
点赞 回复 分享
发布于 2021-04-16 15:34

相关推荐

【职位名称】 大数据开发实习生(数据仓库方向)——27届校招实习【工作地点】 北京【职位描述】参与商业化业务的 离线数据仓库建设 ,处理 PB 级超大规模用户行为数据(千亿级日增量),覆盖数据从产生到可视化的全生命周期服务;负责数据仓库模型设计、ETL 开发及指标看板建设,优化数据流、调度系统及查询引擎,降低数据使用门槛,保障系统稳定高效运行;参与数据治理工作,提升数据质量与易用性,支撑业务分析需求,推动数据价值落地;与分析师、研发及产品团队紧密协作,总结数据研究方法论,助力业务场景的深度应用。【职位要求】基础要求 :2027届毕业,本科及以上学历在读,计算机、数学、信息工程等相关专业优先;211 以上院校背景优先;技术能力 :熟悉数据仓库实施方法论及体系架构,掌握 SQL 语言;至少熟练 Java、Python、Scala 等编程语言中的一种;了解 Hive、Spark、clickhouse等分布式计算工具,有大数据开发或数仓实习经验者优先;软技能 :思路清晰,数据分析能力强,能独立分析并推动解决问题;沟通积极主动,具备良好的数理逻辑与业务好奇心;实习要求 :每周可实习 3 天及以上,连续实习 3 个月及以上(长期实习优先)有兴趣的话私聊我发简历--简历直达hr,大量实习hc,可转正,转正比例高
投递字节跳动等公司7个岗位
点赞 评论 收藏
分享
评论
5
78
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务