【八股文-机器学习】非平衡数据集的处理方法
- 采用更好的评价指标,例如F1、AUC曲线等,而不是Recall、Precision
- 进行过采样,随机重复少类别的样本来增加它的数量;
- 进行欠采样,随机对多类别样本降采样
- 通过在已有数据上添加噪声来生成新的数据
- 修改损失函数,添加新的惩罚项,使得小样本的类别被判断错误的损失增大,迫使模型重视小样本的数据
- 使用组合/集成方法解决样本不均衡,在每次生成训练集时使用所有分类中的小样本量,同时从分类中的大样本量中随机抽取数据来与小样本量合并构成训练集,这样反复多次会得到很多训练集和训练模型。最后在应用时,使用组合方法(例如投票、加权投票等)产生分类预测结果;
格力公司福利 354人发布