在一个医疗诊断的场景中,你使用随机森林模型来预测患者是否患有某种罕见病。考虑到罕见病的低发生率,你应该如何调整随机森林的参数以提高模型对罕见病的检测能力?
❌ 可能有害:更深树会过度拟合训练数据,如果多数类样本多,模型可能更偏向学习多数类的噪声,对少数类不一定提升。且过深会导致整体过拟合,降低泛化能力。
🔄 影响有限:减少 min_samples_split 可能让树对少数类更敏感,但随机森林在不平衡数据下主要问题来自样本分布,单纯调此参数可能不稳定。
✅ 有效方法之一:
增加树的数量(n_estimators)可以提升模型稳定性。
对稀有类过采样(例如在 bootstrap 时多采样罕见病样本)能增加每棵树看到少数类的机会。
但要注意过采样可能带来过拟合,需结合其他正则化。
✅ 更直接有效的方法(实践中常用):
随机森林的 class_weight='balanced' 或手动设置更高权重给罕见病类,会在计算不纯度(Gini/熵)时考虑类别权重,使分裂更倾向于识别少数类。
这种方式通常比单纯过采样更稳定,且能直接作用于每棵树的分裂准则。
在罕见病预测中,D(类别权重) 通常是首选且最直接有效的方法,因为:
它直接修正了损失函数中类别不平衡的影响。
无需修改原始样本分布,避免过采样可能引入的过拟合风险。
可与 C 结合使用(即加权 + 过采样 + 更多树),但单独使用时 D 已足够显著提升召回率(对罕见病的检测能力)。
C 也是有效方法,但过采样需要谨慎调参,且可能不如加权方法鲁棒。
如果题目为单选,从随机森林的标准不平衡处理方式看,D 是最直接、最可靠的调整。
答案:D(若允许多选,则 C 和 D 都合理,但 D 更本质)。