关注
当作面试一样回答一下这些问题:
1. 子序列两层for循环,if s[i] == s[j]:
dp[i][j] = dp[i - 1][j - 1] + 1
else :
dp[i][j] = max(dp[i - 1][j], dp[i][j - 1])
2. xx
3.xx
4. lora, p tuning v1 v2, adapter tuning, prefix tuning.
5. 绝对,相对位置编码, Rope旋转位置编码
6. 从输入开始,一个是绝对位置编码一个是Rope编码。经过embedding层后,transformer decoder直接输入注意力层,而llama则是先经过norm,一个是Post norm一个是Pre norm,同时norm这里的区别前者为layer norm后者为Root mean square norm,对于注意力层,llama是GQA而transformer decoder是MHA,再经过FFN层,FFN层的激活函数transformer deocder是Relu,而llama没记错的话是SwiGelu,(就想到这些,不知道还有没有不同)
7. 不知怎么答
8. SGD , w = w - lr * gradient, Adam引入了一阶动量与二阶动量(方差)
9. 交叉熵损失
10. 假设dB参数的大模型,模型与梯度半精度fp16保存,一个参数两个字节,则占用2d G + 2d G = 4d G显存,优化器如果用adam,fp32保存模型权重备份,动量与方差,则占用3 * 4 * d G = 12d G显存,对一个dB参数的大模型做full training显存占用估计在16dG。(deepspedd, 模型并行,张量并行之类的可能会继续问了)
欢迎补充点评
查看原帖
4 评论
相关推荐
查看10道真题和解析 点赞 评论 收藏
分享
jay118_:实在担心的话,就把你账号里面的认证人脸改成你室友的脸,让他每天帮你刷。要是人脸写死了就每天打视频电话刷脸。办法总比困难多。 点赞 评论 收藏
分享
点赞 评论 收藏
分享
牛客热帖
更多
- 1... 杂记近期所面试的三家中小厂7058
- 2... 工作半年后更确定:我们依然不欠优绩主义什么6705
- 3... 岁末论道:谁才是牛客 2025 最强修仙者?5593
- 4... #牛客2025仙途报告#居然是五颗星4482
- 5... 仙途报告3799
- 6... 选择即命运—2025年度总结3674
- 7... 圣诞节用 AI 做个牛客运营翻翻乐!(含代码)3395
- 8... 一个程序员的自救书|从酒吧陪玩DM到上岸大厂3192
- 9... 互联网实习求职的黑话和timeline,你所需要知道的……2709
- 10... 大学废物离开优绩主义之后发现外面根本没下雨2578
正在热议
更多
# 牛客2025仙途报告 #
5319次浏览 144人参与
# 礼物开箱Plog #
1800次浏览 85人参与
# 2025年终总结 #
178986次浏览 3037人参与
# 工作两年,想和老板谈涨薪怎么说 #
38826次浏览 175人参与
# 哪些行业值得去? #
14388次浏览 76人参与
# 你面试体验感最差/最好的公司 #
23137次浏览 378人参与
# 秋招落幕,你是He or Be #
16361次浏览 303人参与
# 一人说一个提前实习的好处 #
14822次浏览 245人参与
# 今年你最想重开的一场面试是? #
6269次浏览 89人参与
# 考公VS就业,你怎么选? #
88157次浏览 497人参与
# 职场新人体验 #
156961次浏览 1122人参与
# 离家近房租贵VS离家远但房租低,怎么选 #
13733次浏览 130人参与
# 重来一次,你会对开始求职的自己说 #
7162次浏览 192人参与
# 找工作,行业重要还是岗位重要? #
85892次浏览 1700人参与
# 各大公司公布25年Q3财报,你怎么看? #
5060次浏览 50人参与
# 实习没事做是福还是祸? #
19217次浏览 289人参与
# 机械制造秋招总结 #
97386次浏览 878人参与
# 宁德时代求职进展汇总 #
154192次浏览 686人参与
# 反问环节如何提问 #
126468次浏览 2670人参与
# 工作中听到最受打击的一句话 #
8760次浏览 141人参与
