首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
你是怎么处理数据中经常存在的数据不平衡的问题。
[问答题]
你是怎么处理数据中经常存在的数据不平衡的问题。
添加笔记
求解答(0)
邀请回答
收藏(26)
分享
纠错
1个回答
添加回答
3
LongXiaJun
针对不平衡数据集的问题,可以采用以下几种方法:
从数据的角度:
重采样, 又分为欠采样和过采样
K-fold交叉验证
对于正负样本极不均匀的问题,采用异常检测或者一分类问题
组合不同的重采样数据集。建立n个模型,每个模型使用稀有类别的所有样本和丰富类别的n个不同样本(比例为1:1)
用不同的比例重新采样
对丰富类别进行聚类处理,并使用类中心作为样本与稀有类样本组合成数据集训练
从模型的角度:
1. 设计针对不平衡数据集的模型,如果设计的模型本身就适用于不平衡数据,则不需要重新采样数据,XGBoost,就是其中的典型代表。
2. 通过设计一个代价函数来惩罚稀有类别的错误分类而不是分类丰富类别,可以设计出许多自然汉化为稀有类别的模型。例如:调整SVM以惩罚稀有类别的错误分类。
摘自:
https://zhuanlan.zhihu.com/p/55623547
编辑于 2019-07-04 12:25:36
回复(0)
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
上传者:
小小
难度:
1条回答
26收藏
862浏览
热门推荐
相关试题
下面两个传送指令语句中源操作数寻址...
编译和体系结构
评论
(1)
小O的整数操作
贪心
OPPO
基础数学
评论
(1)
设主存容量为256MB,外存容量为...
操作系统
评论
(1)
执行以下程序,输出结果为() le...
Javascript
评论
(1)
在部署大型模型时,模型量化技术的主...
大模型开发
评论
(1)
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题