? 模型构建<2>:不平衡样本集的处理_博彩bet356官网_bet356皇冠_苹果怎么下载bet356资讯网 博彩bet356官网_bet356皇冠_苹果怎么下载bet356
首页 > 调查 > 正文

东风标致206_模型构建<2>:不平衡样本集的处理

分类预测建模都有一个基本的假设,即样本集中不同类别的样本个数基本相同,但是在实际任务中,经常会出现各类样本个数差别较大的情况,这样的样本集就是不平衡样本集,它对学习建模的性能会带来很大的影响,因此必须掌握常用的处理方法,本文针对这一点进行总结梳理。

1.什么是不平衡样本集?

不平衡样本集(class-imbalance dataset)是指分类预测任务中不同类别的训练样本的数量差别较大的数据集。
举例:比如一个样本集中正例10例,反例990例,正例占比仅为1%,是一个严重的不平衡样本集。
理想情况下,总希望训练集中各类样本分布均匀,但在实际情况中,样本集不平衡就是一个实实在在的现实而且合理的问题。比如流失预警模型中,真正流失的用户相对未流失的用户比例就是极小的;信用卡欺诈模型中,发生信用欺诈的用户也是极少的。

2.不平衡样本集带来的影响?

样本集不平衡会导致模型很难从样本量较少的一方中提取到有用的规律,使得模型的学习结果偏向于样本量较多的一方。比如上面这个例子,正例10例,反例990例,即使一个模型将全部样例预测为反例,正确率也可以达到99%,但是对于我们想找到的正例这一目标来说,这个模型是无效的。
一般地,对于一个二分类问题,正反例比例在1:5以内是可以不处理的,超过1:5就需要考虑处理这个问题。

3.不平衡样本集的处理方法

以二分类任务为例,介绍不平衡样本集的处理方法。主要分为三种处理方法:

3.1 对正例过抽样

对训练集中的正例进行过抽样(oversampling),即增加一些正例,使得正反例数目相接近。最简单的做法是直接复制正例的样本使样本数翻倍,但是这种方法带来的问题是,样本数的增加并没有带来新的特征,容易使模型产生较严重的过拟合。
一种改进的做法是SMOTE(Synthetic Minority Over-sampling Technique)算法,它是通过在正例中加入随机噪声、干扰数据或者一定规则来产生新的合成样本。

3.2 对反例欠抽样

对训练集中的反例进行欠抽样(undersampling),即减少一些反例,使得正反例数目相接近。最直接的做法是直接随机提出到一些反例来减少反例的规模,但是这种方法带来的问题是,会丢失反例的一些重要信息。
一种改进的做法是EasyEnsemble算法,它是利用集成学习的思路,将反例划分成若干个子集,将各个子集分别与正例组合成均衡的训练集,进行学习产生多个模型,每个模型相当于都进行了欠抽样,但整体上又没有丢失反例的重要信息。

3. 2 dui fan li qian chou yang dui xun lian ji zhong de fan li jin xing qian chou yang undersampling, ji jian shao yi xie fan li, shi de zheng fan li shu mu xiang jie jin. zui zhi jie de zuo fa shi zhi jie sui ji ti chu dao yi xie fan li lai jian shao fan li de gui mo, dan shi zhe zhong fang fa dai lai de wen ti shi, hui diu shi fan li de yi xie zhong yao xin xi. yi zhong gai jin de zuo fa shi EasyEnsemble suan fa, ta shi li yong ji cheng xue xi de si lu, jiang fan li hua fen cheng ruo gan ge zi ji, jiang ge ge zi ji fen bie yu zheng li zu he cheng jun heng de xun lian ji, jin xing xue xi chan sheng duo ge mo xing, mei ge mo xing xiang dang yu du jin xing le qian chou yang, dan zheng ti shang you mei you diu shi fan li de zhong yao xin xi.

3.3 阈值移动

一般地,分类预测模型都会产生一个实值或者概率值,同时需要设定一个阈值(threshold),将模型的预测值与这个阈值进行比较,来判定预测结果是正例还是反例。默认情况下,这个阈值会设为0.50。为什么是0.50?是因为上文中提到的一个基本假设,假定训练集中的正反样例个数基本相同。但是实际情况中,正反例并不都是0.50,所以此时如果仍然将阈值设定为0.50就显得不太合适,应该认为,只要模型预测的概率大于随机抽取的概率(即训练集中正例的占比)都应该被判定为正例。
按照这一思想,就产生了一种针对不平衡样本集的处理方法,即阈值移动(threshold-moving)
它是指,直接使用原始训练集进行学习,但是在用这个学习到的模型进行预测时,要将原始的正例比例考虑到正例识别的阈值设定中。


4.参考与感谢

[1] 机器学习
[2] Python数据分析与数据化运营
[3] 在分类中如何处理训练集中不平衡问题
[4] 如何处理分类中的训练数据集不均衡问题



当前文章:http://www.phil-pro.com/fh2hklkc3/307591-548176-16063.html

发布时间:07:32:10

济公论坛www.g79663.com??九龙图库开奖结果直播??39678.com??香港最快开奖结果直播??香港正版挂牌彩图??六合彩资料??www.134151.com??王中王论坛www27792com??香港最快开奖现场直播??二四六天天好彩资料免费大全??

[责任编辑: 文徒陵]

评论

?
[ Python读取大文件的"坑“与内存占用检测 ]? [ 劳尔·卡斯特罗说古巴应有力回应美国封锁政策 ]? [ 599美元起,三星Chromebook Plus V2 LTE版变形本发布 ]? [ 京东微软超级新品日:15英寸版Surface Book 2首发,白条12期免息 ]? [ 认证!日本票房最高剧场版《名侦探柯南:零的执行人》内地有望引进 开通官博狂吸粉 ]? [ 开心果/夏威夷果/腰果等,洽洽坚果大礼包1020g装39.9元 ]

?
  • 关于我们 | 博彩bet356官网_bet356皇冠_苹果怎么下载bet356资讯网 版权所有

    Copyright ? 2019 博彩bet356官网_bet356皇冠_苹果怎么下载bet356资讯网 All Rights Reserved