我要招人

去企业版

首页 > 试题广场 >

在进行词性标注任务时，你发现模型在标注一些罕见词汇时表现不佳

[单选题]

在进行词性标注任务时，你发现模型在标注一些罕见词汇时表现不佳。以下哪种方法可能有助于改进模型的性能？

```
增加训练数据
```
```
使用更大的N-gram
```
```
使用词嵌入
```
```
增加模型的深度
```

查看答案及解析

喜欢后仰跳投的小师弟在看机会

A. 增加训练数据

含义：收集更多标注好的文本数据用于训练模型。
作用：通常能提升整体性能，尤其对常见词。
局限性：
罕见词的出现频率极低，即使数据量翻倍，其相对频率仍可能不足以让模型可靠学习。例如，一个医学术语在通用语料中几乎不会出现。
→ 边际效益递减，且成本高昂。

✅ 有用，但对罕见词效果有限。

B. 使用更大的 N-gram

N-gram 是什么？
N-gram 是一种基于局部上下文窗口的语言模型。例如：
- Unigram（1-gram）：仅考虑当前词；
- Bigram（2-gram）：考虑当前词 + 前一个词；
- Trigram（3-gram）：考虑前两个词 + 当前词。
“更大的 N-gram” 通常指使用更高阶的上下文（如 4-gram、5-gram）。
问题：
- 更高阶 N-gram 会导致数据稀疏性加剧（组合爆炸）；
- 对于罕见词，其上下文组合本身也极少见，无法提供有效统计信息；
- 无法解决词本身的表示问题。

❌ 对罕见词帮助不大，甚至可能因稀疏性而恶化性能。

C. 使用词嵌入（Word Embedding）✅（正确答案）

什么是词嵌入？

词嵌入是一种将离散的词汇符号映射为低维稠密实数向量的技术。其核心思想是：语义相似的词，其向量在嵌入空间中距离较近。

典型方法包括：

Word2Vec（Skip-gram, CBOW）
GloVe
FastText
上下文相关嵌入（如 BERT）

为什么能改善罕见词标注？

语义泛化能力：
即使某词在训练集中罕见，只要其上下文分布与已知词相似（如“glimmer” 与 “shine” 常出现在相似语境），其嵌入向量会靠近已知词，模型可迁移语义知识。
FastText 的子词机制（关键！）
FastText 将词表示为字符 n-gram 的组合（如 “cat” → <ca, cat, at>）。
→ 即使“unhappiness”未出现过，模型也能通过 “un-”, “happy”, “-ness” 等子词组合出合理表示。
→ 极大缓解 OOV 问题。
稠密向量 vs 稀疏 one-hot：
传统 one-hot 编码下，每个词是独立维度，罕见词无信息；而词嵌入提供连续、可泛化的语义表示。

✅ 词嵌入能有效捕捉罕见词的语义线索，显著提升其词性标注准确性。

D. 增加模型的深度

含义：使用更深的神经网络（如更多 LSTM 层、Transformer 层数）。
潜在好处：增强非线性建模能力，捕捉长距离依赖。
局限性：
- 如果输入表示本身是无效或随机的（如罕见词的 one-hot 向量），更深的网络也无法“无中生有”；
- 深度增加可能带来过拟合或训练不稳定，尤其在小数据集上；
- 未解决根本问题：缺乏对罕见词的有效表示。

❌ 单纯增加深度不能解决表示缺失问题。

发表于 2025-12-05 11:30:43 回复(0)

安静的Lulu不服输

从词性标注任务中罕见词的优化逻辑来看，C 使用词嵌入确实是有效方案之一，尤其在难以大幅增加训练数据的场景下，它能通过语义关联间接改善罕见词的标注效果。

要理解这一点，需要先明确罕见词的核心痛点：模型缺乏足够的标注样本直接学习其词性规律，但词嵌入可通过 “语义迁移” 弥补这一缺陷，而其他选项在解决该问题时存在明显局限。

1. 为何 C（使用词嵌入）有效？

词嵌入（如 Word2Vec、BERT 的词向量）的核心价值是将词汇映射到语义空间，让语义相近的词拥有相似的向量表示。

对于罕见词（如 “钌”），即使训练集中其标注样本极少，模型也能通过它的词向量，关联到语义相近的常见词（如 “铁”“铜”）。
由于 “铁”“铜” 等常见词的名词属性已被模型充分学习，这种语义关联能帮助模型推断出罕见词 “钌” 同样属于名词，从而间接提升标注准确性。
例如在 BERT 等预训练模型中，罕见词的词向量会结合上下文动态生成，进一步强化了对其词性的判断能力。

2. 为何 A（增加训练数据）并非最优解？

理论上，增加包含罕见词标注的训练数据能直接解决问题，但实际操作中存在强约束：罕见词本身出现频率极低，收集大量包含其正确标注的样本成本极高，甚至难以实现（如某些专业领域的生僻术语）。
相比之下，词嵌入无需额外收集数据，可直接利用现有语料的语义信息，更具落地可行性。

3. 为何 B（更大的 N-gram）和 D（增加模型深度）无效？

B 更大的 N-gram：N-gram 依赖相邻词汇的组合频率，罕见词本身出现少，“罕见词 + 相邻词” 的组合会更罕见，导致数据稀疏性加剧，模型反而更难学到有效规律。
D 增加模型深度：模型深度提升的是复杂特征的拟合能力，但无法解决 “数据缺失” 的根本问题。若训练数据中没有罕见词的有效信息，再深的模型也只能 “无中生有”，甚至可能因过拟合降低性能。

发表于 2025-10-16 11:15:32 回复(0)

提交观点

问题信息

机器学习

来自：2024年春招-淘天集...

难度：

2条回答 75收藏 616浏览