首页 > 试题广场 >

在一个医疗诊断的场景中，你使用随机森林模型来预测患者是否患有

[不定项选择题]

在一个医疗诊断的场景中，你使用随机森林模型来预测患者是否患有某种罕见病。考虑到罕见病的低发生率，你应该如何调整随机森林的参数以提高模型对罕见病的检测能力？

增加树的数量，并配合使用对稀有类样本过采样的自助采样策略

引入类别权重，平衡罕见病和正常情况的样本权重

查看答案及解析

被发好人卡的奶糖很无语

✅ 有效方法之一：
- 增加树的数量（n_estimators）可以提升模型稳定性。
- 对稀有类过采样（例如在 bootstrap 时多采样罕见病样本）能增加每棵树看到少数类的机会。
- 但要注意过采样可能带来过拟合，需结合其他正则化。

✅ 更直接有效的方法（实践中常用）：
- 随机森林的 class_weight='balanced' 或手动设置更高权重给罕见病类，会在计算不纯度（Gini/熵）时考虑类别权重，使分裂更倾向于识别少数类。
- 这种方式通常比单纯过采样更稳定，且能直接作用于每棵树的分裂准则。

在罕见病预测中，D（类别权重）通常是首选且最直接有效的方法，因为：

C 也是有效方法，但过采样需要谨慎调参，且可能不如加权方法鲁棒。

如果题目为单选，从随机森林的标准不平衡处理方式看，D 是最直接、最可靠的调整。

答案：D（若允许多选，则 C 和 D 都合理，但 D 更本质）。

发表于今天 11:37:42 回复(0)

提交观点

问题信息

机器学习

难度：

1条回答 55收藏 71浏览

扫一扫，把题目装进口袋