首页 > 试题广场 >

在进行词性标注任务时,你发现模型在标注一些罕见词汇时表现不佳

[单选题]

在进行词性标注任务时,你发现模型在标注一些罕见词汇时表现不佳。以下哪种方法可能有助于改进模型的性能?

  • 增加训练数据
  • 使用更大的N-gram
  • 使用词嵌入
  • 增加模型的深度

A. 增加训练数据

  • 含义:收集更多标注好的文本数据用于训练模型。
  • 作用:通常能提升整体性能,尤其对常见词。
  • 局限性
    罕见词的出现频率极低,即使数据量翻倍,其相对频率仍可能不足以让模型可靠学习。例如,一个医学术语在通用语料中几乎不会出现。
    边际效益递减,且成本高昂。

✅ 有用,但对罕见词效果有限


B. 使用更大的 N-gram

  • N-gram 是什么
    N-gram 是一种基于局部上下文窗口的语言模型。例如:
    • Unigram(1-gram):仅考虑当前词;
    • Bigram(2-gram):考虑当前词 + 前一个词;
    • Trigram(3-gram):考虑前两个词 + 当前词。
  • “更大的 N-gram” 通常指使用更高阶的上下文(如 4-gram、5-gram)。
  • 问题
    • 更高阶 N-gram 会导致数据稀疏性加剧(组合爆炸);
    • 对于罕见词,其上下文组合本身也极少见,无法提供有效统计信息;
    • 无法解决词本身的表示问题。

❌ 对罕见词帮助不大,甚至可能因稀疏性而恶化性能。


C. 使用词嵌入(Word Embedding)✅(正确答案)

什么是词嵌入?

词嵌入是一种将离散的词汇符号映射为低维稠密实数向量的技术。其核心思想是:语义相似的词,其向量在嵌入空间中距离较近

典型方法包括:

  • Word2Vec(Skip-gram, CBOW)
  • GloVe
  • FastText
  • 上下文相关嵌入(如 BERT)

为什么能改善罕见词标注?

  1. 语义泛化能力
    即使某词在训练集中罕见,只要其上下文分布与已知词相似(如“glimmer” 与 “shine” 常出现在相似语境),其嵌入向量会靠近已知词,模型可迁移语义知识
  2. FastText 的子词机制(关键!)
    FastText 将词表示为字符 n-gram 的组合(如 “cat” → <ca, cat, at>)。
    → 即使“unhappiness”未出现过,模型也能通过 “un-”, “happy”, “-ness” 等子词组合出合理表示
    → 极大缓解 OOV 问题。
  3. 稠密向量 vs 稀疏 one-hot
    传统 one-hot 编码下,每个词是独立维度,罕见词无信息;而词嵌入提供连续、可泛化的语义表示

词嵌入能有效捕捉罕见词的语义线索,显著提升其词性标注准确性


D. 增加模型的深度

  • 含义:使用更深的神经网络(如更多 LSTM 层、Transformer 层数)。
  • 潜在好处:增强非线性建模能力,捕捉长距离依赖。
  • 局限性
    • 如果输入表示本身是无效或随机的(如罕见词的 one-hot 向量),更深的网络也无法“无中生有”;
    • 深度增加可能带来过拟合训练不稳定,尤其在小数据集上;
    • 未解决根本问题:缺乏对罕见词的有效表示。

❌ 单纯增加深度不能解决表示缺失问题

发表于 2025-12-05 11:30:43 回复(0)
从词性标注任务中罕见词的优化逻辑来看,C 使用词嵌入确实是有效方案之一,尤其在难以大幅增加训练数据的场景下,它能通过语义关联间接改善罕见词的标注效果。
要理解这一点,需要先明确罕见词的核心痛点:模型缺乏足够的标注样本直接学习其词性规律,但词嵌入可通过 “语义迁移” 弥补这一缺陷,而其他选项在解决该问题时存在明显局限。

1. 为何 C(使用词嵌入)有效?

词嵌入(如 Word2Vec、BERT 的词向量)的核心价值是将词汇映射到语义空间,让语义相近的词拥有相似的向量表示。
  • 对于罕见词(如 “钌”),即使训练集中其标注样本极少,模型也能通过它的词向量,关联到语义相近的常见词(如 “铁”“铜”)。
  • 由于 “铁”“铜” 等常见词的名词属性已被模型充分学习,这种语义关联能帮助模型推断出罕见词 “钌” 同样属于名词,从而间接提升标注准确性。
  • 例如在 BERT 等预训练模型中,罕见词的词向量会结合上下文动态生成,进一步强化了对其词性的判断能力。

2. 为何 A(增加训练数据)并非最优解?

  • 理论上,增加包含罕见词标注的训练数据能直接解决问题,但实际操作中存在强约束:罕见词本身出现频率极低,收集大量包含其正确标注的样本成本极高,甚至难以实现(如某些专业领域的生僻术语)。
  • 相比之下,词嵌入无需额外收集数据,可直接利用现有语料的语义信息,更具落地可行性。

3. 为何 B(更大的 N-gram)和 D(增加模型深度)无效?

  • B 更大的 N-gram:N-gram 依赖相邻词汇的组合频率,罕见词本身出现少,“罕见词 + 相邻词” 的组合会更罕见,导致数据稀疏性加剧,模型反而更难学到有效规律。
  • D 增加模型深度:模型深度提升的是复杂特征的拟合能力,但无法解决 “数据缺失” 的根本问题。若训练数据中没有罕见词的有效信息,再深的模型也只能 “无中生有”,甚至可能因过拟合降低性能。
发表于 2025-10-16 11:15:32 回复(0)