1.项目介绍2.用的什么模型?介绍一下?3.了解其他的多模态大模型吗?介绍一下?4.介绍-下transformer的结构?5.介绍-下multihead-attention?6. multihead-attention为什么要切分?为什么要做成多头的?7.你觉得多头注意力能提高计算效率吗?结合公式推导一下?(矩阵计算)8.不能提高计算效率,详细讲讲为什么?9.multihead-attention现在有一些优化,现在主流的优化都有哪些方向,每个方向下有什么优化方法?10.为什么你们用xx模型?算力多少?数据量多少?11.介绍-下deepspeed的关键配置参数,及其含义?12.介绍一下vm的训练阶段有哪些?训练阶段的任务是什么?13.你提到了正负样本不均衡,你觉得正负样本不平衡对模型性能有什么影响吗?有什么方法缓解?14.acc、precision、f1-score指标概念,样本不均衡对指标的影响?