首页 > 试题广场 >

在统计语言模型中,通常以概率的形式描述任意语句的可能性,利用

[单选题]
在统计语言模型中,通常以概率的形式描述任意语句的可能性,利用最大相似度估计进行度量,对于一些低频词,无论如何扩大训练数据,出现的频度仍然很低,下列哪种方法可以解决这一问题()
  • 一元切分
  • 一元文法
  • 数据平滑
  • N元文法
在自然语言处理中,经常要计算单词序列(句子)出现的概率估计。我们知道,算法在训练时,语料库不可能包含所有可能出现的序列。因此,为了防止对训练样本中未出现的新序列概率估计值为零,人们发明了好多改善估计新序列出现概率的算法,即数据平滑算法。
发表于 2020-07-16 06:47:07 回复(0)
在估计概率时,容易想到的方法是使用频率估计概率,然而由于训练集不可能出现所有可能的序列,因此可能有很多序列的概率估计为0,但这些未出现的序列不代表着不会出现,为了解决这个问题,将这些未出现的序列赋予一个极小的不为零的概率值作为估计,这种方式就是数据平滑。
发表于 2021-02-27 17:35:47 回复(0)
在n-gram算法中,我们要计算每一组n-gram的出现概率,有些n-gram在数据集中没有出现过,那么在预测的时候,会导致某些n-gram的出现概率为0,为了改善这种问题,就有了平滑算法,最简单的加1法,就是让每个n-gram的基数为1。
发表于 2021-03-11 09:30:44 回复(0)
讲解了几种数据平滑的方法
发表于 2019-08-05 18:50:31 回复(0)
数据平滑,不清楚为什么
发表于 2019-06-01 19:25:06 回复(2)