LLM大模型算法面经

1、说一下PPO算法
2、在PPO算法中,PPO是如何平衡探索和利用的?
3、PPO算法中GAE算法的公式以及原理
4、说一下SAC算法
5、在SAC算法中,熵是怎么设置的,在具体实现的时候有哪两种实现方法,熵是怎么更新的?
6、为什么PPO类的算法是在线策略、SAC是离线策略
7、GRPO算法和PPO有什么改进
8、Lora算法的原理
9、Lora中 矩阵A和B是怎么初始化的,他们的秩设置有什么原则
10、怎么进一步降低Lora的参数 (也就是QLora的原理)
11、什么是矩阵的秩
12、能不能从特征值的角度来说一下矩阵的秩
13、Transformer相比起以前的注意力机制有什么不同
14、Deepseek 中的前馈神经网络层和Transformer的有什么不同
15、 对比一下 Deepseek,Llama,GPT3
16、你认为强化学习有没有给大模型带来新的知识
全部评论

相关推荐

评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务