1、说一下PPO算法2、在PPO算法中,PPO是如何平衡探索和利用的?3、PPO算法中GAE算法的公式以及原理4、说一下SAC算法5、在SAC算法中,熵是怎么设置的,在具体实现的时候有哪两种实现方法,熵是怎么更新的?6、为什么PPO类的算法是在线策略、SAC是离线策略7、GRPO算法和PPO有什么改进8、Lora算法的原理9、Lora中 矩阵A和B是怎么初始化的,他们的秩设置有什么原则10、怎么进一步降低Lora的参数 (也就是QLora的原理)11、什么是矩阵的秩12、能不能从特征值的角度来说一下矩阵的秩13、Transformer相比起以前的注意力机制有什么不同14、Deepseek 中的前馈神经网络层和Transformer的有什么不同15、 对比一下 Deepseek,Llama,GPT316、你认为强化学习有没有给大模型带来新的知识