阿里大模型算法实习二面 1h

1. 在LLM推理里,我们经常听到一个词叫prefill,能解释一下它是什么意思吗?
2. 我们来聊聊Transformer的基础吧。能先介绍一下Softmax函数吗?然后整体讲讲Transformer模型,特别是里面的QKV(Query, Key, Value)机制,能详细说说这个过程吗?
3. Transformer的训练复杂度还挺高的,尤其是在处理长序列时。你了解哪些工作是致力于降低它训练时间复杂度的?
4. 长上下文(long context)是现在LLM的一个研究热点,你都知道有哪些方法可以解决或者缓解长下文问题?
5. GQA(Grouped-Query Attention)的原理是什么?它又是怎么实现的?
6. 现在主流的大模型,像GPT系列,大多都用的是Decoder-only架构。为什么不采用像T5那样的Encoder-Decoder架构呢?
7. LoRA作为一种高效的微调方法,它的核心原理是什么?能讲讲吗?
8. 为了优化推理速度,KV Cache是一个很关键的技术。它的原理是什么?
9. 我们来聊聊你的项目经历吧。可以挑一个你觉得最有意思的实习、论文或者科研项目详细讲讲。
10. 来个场景题吧。假设我们是做电商的,你觉得可以怎么用大语言模型来解决我们的一些实际业务问题?
11. 最后来做两道算法题吧。第一道是“无重复字符的最长子串”,第二道是“排序链表”
全部评论
楼主,岗位链接能分享一下嘛
点赞 回复 分享
发布于 01-30 22:12 四川

相关推荐

01-30 11:03
西北大学 安卓
首先你要会python(不需要熟练,只要用python写过简单项目)其次你要对算法的通用训练流程有个概念学历至少211,这决定你能不能过简历筛选 我们的目的就是以最低的时间成本快速过面,因此首先拆解一下面试组成部分常规面试时间一个小时,40分钟简历面+20分钟笔试+反问环节简历面主要考项目和八股。你最好有两个相关的项目,可以把四十分钟撑满;或者有一个充实的项目,可以经得住面试官拷打;如果项目都很浅很简单,那你需要对八股掌握的滚瓜烂熟。对面试者来说,问项目意味着自己掌握主动权,我们可以把自己的优势在项目里体现(比如可以在数据环节做复杂的设计,在调参上做设计,在训练流程上体现自己的独特insight),也可以通过项目提到的内容给自己划八股重点(一般提到数据就会问数据合成方法,提到微调就会问了解哪些微调方法和框架,提到rl就逃不开ppo grpo还有一些更新的等,提到rag会问检索 embedding,提到agent会问架构、memory等)。八股不是所有都考。我遇到过,力扣原题、transformer架构、KL散度这些神经网络公式的,还有数据处理的、设计prompt的等等。不过一般难度都不会很大,力扣的简单中等题做个大概,transformer和神经网络的经典实现看一看,其他的有一些些基础之后临场基本都能做出来。综上,时间有限:项目 >> 八股 = 力扣项目怎么找? 网上有很多博主推荐项目,无非就是sft+rl,但我建议自己找一个研究背景,设计自己的数据格式,然后套那些技术手段(很多项目其实被做烂了,同质化很严重)。大概写一个项目的雏形出来,可以扔给llm跟他对话,让它充当面试官提问题。八股怎么找? 最快的方式就是找各种面经,记录问题,然后自己借助大模型学答案,不要试图抱着一本书从头看到尾。大概准备的差不多70%之后就抓紧去面试,面试不要怕编的项目被拆穿、也不要怕答不上来面试官的问题尴尬,抱着学习的心态去面试,不要抱着通过的心态去面试。
AI时代的工作 VS 传...
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务