

127



《别让数据坑了你！用置信学习找出错误标注》作者：JayLou娄杰。置信学习/带噪学习

原创

05/13 14:22

阅读数 62218

尊享10+项VIP特权

开通学习猿地会员卡

原文链接：https://mp.weixin.qq.com/s/svo0_mJ0RwOUA7hgc0doCw
论文链接：https://arxiv.org/abs/1911.00068
带噪学习：https://github.com/subeeshvasu/Awesome-Learning-with-Label-Noise
开源工具：https://github.com/cgnorthcutt/cleanlab

错误标注很普遍，如下图所示，QuickDraw、MNIST和Amazon Reviews数据集中就存在错误标注。

置信学习三个步骤：

Count：估计噪声标签和真实标签的联合分布；
Clean：找出并过滤掉错误样本；
Re-Training：过滤错误样本后，重新调整样本类别权重，重新训练；

Count包括四步骤：

交叉验证
- 得到n个样本，m个类别的n*m的矩阵
- 统计每个人工标定类别j的平均概率tj作为置信度阈值
- 计算每个样本真实类别，最大概率pij且pij大于tj
计算计数矩阵（类似混淆矩阵）
标定计数矩阵，让计数矩阵的总和与数据总量相同
估计噪声标签和真实标签的联合分布，也就是将计数矩阵归一化得到Q

Clean有4种方法：

过滤最大pij和人工标记不一致的数据；
过滤计数矩阵中非对角单元的样本；
对于类别c，选取n*p个样本过滤，其中p是联合分布矩阵中除Q(c,c)之外的概率和；
对于计数矩阵非对角单元，选取n*p个样本过滤，p是联合分布矩阵中计数矩阵的单元对应的概率；

Re-Training

根据Q修正loss权重
采取Co-Teaching框架

本方法和置信学习中的SOTA方法Mentornet相比，噪声数据占比40%时，多组实验平均提升34%。

© 著作权归作者所有

举报

发表评论

0/200



127

127 点赞



收藏

新手指南

热门学科

帮助中心

 学习猿地官方QQ群



学习猿地
程序员学习的地方

 扫码关注