训练数据分布 vs 真实数据分布

真实场景中,label为a和b的样本分别占到了90%、10%。试问:在构造训练集(**小数据量**)的时候应该如何处理a,b的占比?(下面两种方案好像都有道理,但是好像又都不太理想。)

    方案1.按照真实场景中的比例(i.e.  a:b = 9:1)构造训练集。这样符合一个基本常识“训练集的分布应该尽可能和真实分布相近”,但是会造成模型对a的偏好。 

    方案2.按照a:b = 1:1构造训练集。这样的话模型学的更均衡,但是不符合“训练集的分布应该尽可能和真实分布相近”。 

#阿里# #腾讯# #字节# #拼多多# #百度# #算法# #机器学习#
全部评论
蹲一个答案。感觉是看场景 一般就训练模型而言应该都是希望样本平衡吧。如果希望抓到小比例的那部分的话方案2更好?如果两类都一样重要感觉方案1也行 就是会变成极度偏态的样子(全预测成a)
点赞 回复 分享
发布于 2023-10-15 14:43 江苏

相关推荐

程序员花海:实习和校招简历正确格式应该是教育背景+实习+项目经历+个人评价 其中项目经历注意要体现业务 实习经历里面的业务更是要自圆其说 简历模板尽可能保持干净整洁 不要太花哨的
点赞 评论 收藏
分享
代码飞升_不回私信人...:别这样贬低自己,降低预期,放平心态,跟昨天的自己比。做好自己,反而会效率更高心态更好,加油兄弟
点赞 评论 收藏
分享
评论
3
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务