菜单 学习猿地 - LMONKEY

VIP

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练!告别无效练习

接私单赚外块

VIP优先接,累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

入驻
127
0

《别让数据坑了你!用置信学习找出错误标注》作者:JayLou娄杰。置信学习/带噪学习

原创
05/13 14:22
阅读数 62218

原文链接:https://mp.weixin.qq.com/s/svo0_mJ0RwOUA7hgc0doCw
论文链接:https://arxiv.org/abs/1911.00068
带噪学习:https://github.com/subeeshvasu/Awesome-Learning-with-Label-Noise
开源工具:https://github.com/cgnorthcutt/cleanlab

错误标注很普遍,如下图所示,QuickDraw、MNIST和Amazon Reviews数据集中就存在错误标注。

置信学习三个步骤:

  • Count:估计噪声标签和真实标签的联合分布;
  • Clean:找出并过滤掉错误样本;
  • Re-Training:过滤错误样本后,重新调整样本类别权重,重新训练;

Count包括四步骤:

  • 交叉验证
    • 得到n个样本,m个类别的n*m的矩阵
    • 统计每个人工标定类别j的平均概率tj作为置信度阈值
    • 计算每个样本真实类别,最大概率pij且pij大于tj
  • 计算计数矩阵(类似混淆矩阵)
  • 标定计数矩阵,让计数矩阵的总和与数据总量相同
  • 估计噪声标签和真实标签的联合分布,也就是将计数矩阵归一化得到Q

Clean有4种方法:

  • 过滤最大pij和人工标记不一致的数据;
  • 过滤计数矩阵中非对角单元的样本;
  • 对于类别c,选取n*p个样本过滤,其中p是联合分布矩阵中除Q(c,c)之外的概率和;
  • 对于计数矩阵非对角单元,选取n*p个样本过滤,p是联合分布矩阵中计数矩阵的单元对应的概率;

Re-Training

  • 根据Q修正loss权重
  • 采取Co-Teaching框架

本方法和置信学习中的SOTA方法Mentornet相比,噪声数据占比40%时,多组实验平均提升34%。

发表评论

0/200
127 点赞
0 评论
收藏