首页 > 试题广场 >

在统计语言模型中，通常以概率的形式描述任意语句的可能性，利用

[单选题]

在统计语言模型中，通常以概率的形式描述任意语句的可能性，利用最大相似度估计进行度量，对于一些低频词，无论如何扩大训练数据，出现的频度仍然很低，下列哪种方法可以解决这一问题（）

查看答案及解析

Eden_Zhou

在自然语言处理中，经常要计算单词序列（句子）出现的概率估计。我们知道，算法在训练时，语料库不可能包含所有可能出现的序列。因此，为了防止对训练样本中未出现的新序列概率估计值为零，人们发明了好多改善估计新序列出现概率的算法，即数据平滑算法。

发表于 2020-07-16 06:47:07 回复(0)

Miselever

在估计概率时，容易想到的方法是使用频率估计概率，然而由于训练集不可能出现所有可能的序列，因此可能有很多序列的概率估计为0，但这些未出现的序列不代表着不会出现，为了解决这个问题，将这些未出现的序列赋予一个极小的不为零的概率值作为估计，这种方式就是数据平滑。

发表于 2021-02-27 17:35:47 回复(0)

牛客54560154号

在n-gram算法中，我们要计算每一组n-gram的出现概率，有些n-gram在数据集中没有出现过，那么在预测的时候，会导致某些n-gram的出现概率为0，为了改善这种问题，就有了平滑算法，最简单的加1法，就是让每个n-gram的基数为1。

发表于 2021-03-11 09:30:44 回复(0)

被普调的布拉德很忧伤

讲解了几种数据平滑的方法

发表于 2019-08-05 18:50:31 回复(0)

冲上顶峰

数据平滑，不清楚为什么

发表于 2019-06-01 19:25:06 回复(2)

提交观点

问题信息

算法工程师爱奇艺自然语言处理 2019

上传者：小小

难度：

5条回答 121收藏 2755浏览

扫一扫，把题目装进口袋