关于大型语言模型中的 长程依赖(Long-Range Dependency) 问题,下列哪些改进方法是针对这一问题提出的?
使用稀疏注意力机制(Sparse Attention)
引入记忆网络(Memory Networks)
增大模型的隐藏层维度
使用旋转位置编码(Rotary Position Embedding)
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题