首页 > 试题广场 >

Attention机制的作用

Seq2Seq模型介绍

使用一个循环神经网络读取整个句子,将整个句子的信息压缩到一个固定维度的编码中;在使用另一个循环神经网络读取这个编码,将其"解压"为目标语言中的一个句子。这两个循环神经网络分别称为编码器和解码器,这个模型也称为encoder-decoder模型

Attention机制的引入

在Seq2Seq模型中,编码器将完整的输入句子压缩到一个维度固定的向量中,然后解码器根据这个向量生成输出句子。当输入句子较长时,这个中间向量难以存储足够的信息,就成为这个模型的一个瓶颈。

Attention机制的作用

Attention的出现就是为了两个目的:

  • 减小处理高维输入数据的计算负担,通过结构化的选取输入的子集,降低数据维度。
  • “去伪存真”,让任务处理系统更专注于找到输入数据中显著的与当前输出相关的有用信息,从而提高输出的质量。通过context向量,解码器可以在解码的每一步查询最相关的原文信息,从而避免Seq2Seq模型中信息瓶颈问题。
发表于 2019-05-06 20:39:48 回复(1)