关于样本均衡的一点点思考


背景:

在分类场景中经常会遇到,某些类别数据特别多,某类或者几类数据特别少。作为极限测试,假如正样本10000个,负样本只有1个。进行模型参数优化。其实相当于一直在优化正样本,使得正样本过学习,负样本几乎没有优化模型参数。针对负样本的1个,很大概率是有问题。为了重述上面的问题。假如现在一个三岁的孩子需要识别哪些是玉米,哪些是小麦。现在有10000个是小麦,只有一个是玉米。那么三岁的孩子会一直处在学习是小麦的阶段,就算对玉米进行了学习,因为自己脑子的信息在学习小麦的时候一直更替,很可能最后对玉米的认识在学习小麦的过程中已经彻底忘记,从而识别不出玉米。为了解决这个问题,当然可以把小麦的数据减少,或者把玉米的数量增多。这就是上采样下采样的道理。当然也可以增加学习小麦时候信息强调关注程度,自然就是通过调整小麦的损失函数的权重。本博客重点讨论smote。因为smote直接在数据上处理,直接匹配问题场景。而且可以翻出无穷无尽变化优化改进方案。

Smote上采样

(1)对于少数类中每一个样本x,特征归一化后以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k个最相近的样本。
(2)根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn。
(3)对于每一个随机选出的近邻xn,xnew=x+random(0,1)(xn-x)生成负样本。
讨论:
假如有10000个小麦,10个玉米需要一个三岁的孩子学习。玉米长得各种各样,smote就是通过玉米的特征生成各种各样的玉米,比如某玉米的重量5克,就在其他10个玉米中找最近的几个比如5.1克,5.2克,然后在5.1和5.2随便找一个比如5.1,然后生成的玉米的特征是5.05克让小孩子去学习。为啥不是5克玉米一直复制呢?其实smote就相当于让一个三岁的孩子去学习各种各样的人写的某一个汉字,学的越多,识别能力越强。也就是业界说的更强的泛化能力。

Smote 下采样

有个问题smote仅仅能够上采样吗?很显然不是,下采样smote。
(1)对于多数类中每一个样本x,特征归一化后以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k个最相近的样本。
(2)根据样本不平衡比例设置一个下采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,直接删除。
讨论
再次回到三岁孩子识别玉米小麦的问题。三岁孩子大脑还在快速发育阶段,给10000个小麦,10000个玉米识别,很容易产生疲劳,多大孩子学习多大的信息量才能达到真正学习的目的。也即达到模型的学习效果。更多的时候是想10个玉米生成100个玉米,10000个小麦变成100个小麦让三岁孩子学习。按照上面就可以完成降采样的目的。到底下采样多少,上采样多少这个需要根据实际的业务进行尝试。当然还有计算机等配置。还是那句话:数据量中蕴含多大的信息量,模型就需要有多复杂。

动态Smote

Smote一定要在模型前面进行上采样下采样进行样本处理后学生才能学习吗?当然不是,就比如一个孩子学习的时候这段时间是100个玉米,50个小麦,下一个优化阶段完全可以换为100个小麦,50个玉米,进行交替学习。这就涉及在优化阶段,动态的上采样,动态的下采样。同理可以类比上面的思路进行理解。

有待思考

距离问题:上面的讨论回避了一个最重要的信息,欧式距离真的就能衡量样本的距离吗?余弦距离就能想当然的衡量样本之间的距离吗?再次我认为扩充样本时候需要对特征分别处理,而不是通过上面的方式直接所有特征一个比例进行切。离散特征多数取票方式,连续特征最近邻插值。
局限问题:NLP的语言特征自己一直没想明白具体怎么扩充少样本的数据,我想可以通过近义词替换的方式吧。

原创:https://www.panoramacn.com
源码网提供WordPress源码,帝国CMS源码discuz源码,微信小程序,小说源码,杰奇源码,thinkphp源码,ecshop模板源码,微擎模板源码,dede源码,织梦源码等。

专业搭建小说网站,小说程序,杰奇系列,微信小说系列,app系列小说

关于样本均衡的一点点思考

免责声明,若由于商用引起版权纠纷,一切责任均由使用者承担。

您必须遵守我们的协议,如果您下载了该资源行为将被视为对《免责声明》全部内容的认可-> 联系客服 投诉资源
www.panoramacn.com资源全部来自互联网收集,仅供用于学习和交流,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。 敬请谅解! 侵权删帖/违法举报/投稿等事物联系邮箱:2640602276@qq.com
未经允许不得转载:书荒源码源码网每日更新网站源码模板! » 关于样本均衡的一点点思考
关注我们小说电影免费看
关注我们,获取更多的全网素材资源,有趣有料!
120000+人已关注
分享到:
赞(0) 打赏

评论抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

您的打赏就是我分享的动力!

支付宝扫一扫打赏

微信扫一扫打赏