整理了一波NLP常考的面试题

1.rnn真的就梯度消失了吗?
2.lstm到底解决了什么?解决了梯度消失?
3.LSTM三种门以及sigmoid函数对每个门的作用
4.Self-attention的Query,Key,Value分别是什么

5.Slef-attention的乘法计算和加法计算有什么区别?什么时候乘比较好,什么时候加?为什么要除以一个根号?

6.LSTM中各模块分别使用什么激活函数,可以使用别的激活函数码?

7.多头注意力机制的原理是什么?

8.Transformer用的是哪种attention机制?

9.画一下Transformer结构图

10.word2vector 如何做负采样?是在全局采样?还是在batch采样?如何实现多batch采样?怎么确保采样不会采到正样本?word2vector负采样时为什么要对频率做3/4次方?

11.W2V经过霍夫曼或者负采样之后,模型与原模型相比,是等价的还是相似的?

12.介绍一下sigmoid 和 relu,relu有什么缺点?

13.深层神经网络为什么不好训?除了梯度消失还有哪些原因?


#机器学习##学习路径#
全部评论

相关推荐

双尔:反手回一个很抱歉,经过慎重考虑,您与我的预期暂不匹配,感谢您的投递
点赞 评论 收藏
分享
评论
5
39
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务