一份关于机器学习“模型再训练”的终极指南

机器学习模型的训练,通常是通过学习某一组输入特征与输出目标之间的映射来进行的。一般来说,对于映射的学习是通过优化某些成本函数,来使预测的误差最小化。在训练出最佳模型之后,将其正式发布上线,再根据未来生成的数据生成准确的预测。这些新数据示例可能是用户交互、应用处理或其他软件系统的请求生成的——这取决于模型需要解决的问题。在理想情况下,我们会希望自己的模型在生产环境中进行预测时,能够像使用训练过程中使用的数据一样,准确地预测未来情况。

当我们将模型部署到生产中时,往往会假设未来将使用到的数据会类似于过去模型评估期间所使用的数据。具体来说,我们可能会假设,特征和目标的分布将保持相当的恒定。但是这种假设通常不成立。趋势会随着时间的推移而变化,人们的兴趣会随着季节的变化而变化,股票市场会起伏不定。因此,我们的模型必须适应这些变化。

世界是持续变化的,因此模型部署应视为一个连续的过程,而不是完成第一次部署之后就扭头去开展下一个项目。如果机器学习团队的工程师发现数据分布与原始训练集的数据分布有明显出入,则需要重新训练模型。这个现象——通常被称为模型漂移(model drift)——可以缓解,但是会带来额外的开销,如监视基础设施、监督和流程等等。

在本文中,笔者想对模型漂移下定义,并讨论如何去识别和跟踪模型漂移。然后,我将描述如何重新训练模型,来减轻漂移对预测性能的影响,并对应多久重新训练一次模型做出建议。最后,我将介绍启用模型重新训练的几种方法。

什么是模型漂移?

模型漂移是指,由于环境的变化违反了模型假设,而导致模型的预测性能随时间而降低。模型漂移有点用词不当,因为变化的不是模型,而是模型运行的环境。因此,概念漂移(concept drift)一词实际上可能是一个更好的用词,不过两个术语都描述了相同的现象。

请注意,笔者对模型漂移的定义实际上包括几个可以更改的变量。预测性能将下降,它将在一段时间内以某种速率下降,并且这种下降会归因于违反建模假设的环境变化。在确定如何诊断模型漂移以及如何通过模型再训练纠正模型漂移时,应考虑这些变量中的每一个。

如何跟踪模型漂移?

目前业内已有多种识别和跟踪模型漂移的技术。在介绍这些技术之前,值得一提的是,并没有一种万能的方法。不同的模型问题需要不同的解决方案,您可能有、也可能没有相应的基础架构或资源来利用某些技术策略。

模型性能降级

识别模型漂移的最直接方法是明确预测性能是否已下降,同时量化这种下降。测量实时数据上已部署模型的准确性是一个众所周知的难题。之所以出现这种困难,部分原因是我们需要访问生成的模型的预测和基本事实信号。出于以下这些原因,这可能无法实现:

  ·预测的数据在生成后没有存储——别让这种事发生在你身上。

  ·预测已存储,但是您无法访问基本事实标签。

  ·预测和标签均可用,但不能结合在一起。

即使预测和标签可以合并在一起,也可能需要一段时间才能使用标签。例如一个可以预测下一季度收入的财务预测模型。在这种情况下,只有在该季度过去之后才能观察到实际收入,所以直到那个时候你才能够量化模型的效果。在此类预测问题中, 回填预测(即训练模型,并根据过去的历史数据生成预测)可以帮助您了解模型性能下降的速度。

正如Josh Wills 指出的那样,在部署模型之前您可以做的最重要的事情之一就是试图了解离线环境中的模型漂移。数据科学家应想办法回答以下问题:“如果我使用六个月前的数据对这组特征进行训练,并将其应用于今天生成的数据,那么这个模型比我一个月前未经训练而创建并应用到今天的模型差多少呢?”。离线执行此分析,您可以估计模型性能下降的速度以及需要重新训练的频率。当然,这种方法的前提是要有一台“时光机”来访问过去任何时候的实时数据。

检查训练和实时数据的特征分布

由于随着输入特征的分布逐渐偏离训练数据的分布,模型性能会下降,因此比较这些分布是推断模型漂移的好方法。请注意,这里说的是推断而不是检测模型漂移,因为我们没有观察到预测性能的实际下降,而是“预计”会出现下降。在由于数据生成这一过程的性质,而无法观察到实际基本事实的情况下,这会非常有用。

每个特征需要监视许多不同的东西,包括:

  ·可能值的范围

  ·值直方图

  ·该功能是否接受NULL,如果是,则预期的NULL数量

能够通过控制界面快速监控这些分布,是朝正确方向迈出的一步。当特征差异很大时,可以通过自动跟踪训练服务偏差并在特性差异显著时发出警告,进一步实现这一点。

检查特征之间的关联

许多模型会假定特征之间的关系必须保持固定。因此,您还需要监视各个输入特征之间的成对关联。如您的ML测试分数是多少?ML生产系统的规范等等,可以通过以下方法实现:

  ·监视特征之间的相关系数

  ·训练具有一两个特征的模型

  ·训练一组模型,每个模型都删除其中一个特征

检查目标分布

如果目标变量的分布发生显着变化,那么模型的预测性能几乎一定会变差。《机器学习:技术债务高息信用卡》的作者指出,一种简单而有用的诊断方法是跟踪目标分布。与训练数据的偏差可能意味着需要重新评估部署模型的质量,但请记住,“这绝不是一项全面的测试,因为它可以通过空模型来满足,该模型可以简单地预测标签出现的平均值,而无需考虑输入特征。”

模型再训练到底是什么意思?

模型再训练似乎是一个超负荷的操作,它是否只涉及到寻找现有模型架构的新参数?对于更改超参数搜索空间怎么样?如何搜索不同的模型类型(RandomForest,SVM等)?我们可以包括新特征还是可以排除以前使用的特征?这些都是很好的问题,因此尽可能明确这些问题是非常重要的。要回答这些问题,重要的是直接考虑我们要解决的问题——也就是说,减少模型漂移对我们部署的模型的影响。

在将模型部署到生产数据之前,科学家需要经过严格的模型验证过程,其中包括:

  ·汇编数据集–收集来自不同来源(例如不同数据库)的数据集。

  ·特征工程–从原始数据中提取列,提高预测性能。

  ·模型选择–比较不同的学习算法。

  ·错误估计–在搜索空间上进行优化,找到最佳模型并估计其泛化误差。

此过程会产生一些最佳的模型,然后将其部署到生产中。由于模型漂移具体是指所选模型的预测性能由于特征/目标数据分布的变化而下降,因此模型再训练不应该带来不同的模型生成过程。确切地说,重新训练只是指在新的训练数据集上重新运行生成先前选择的模型的过程。功能、模型算法和超参数搜索空间都应保持相同。可以这样想,再训练不涉及任何代码更改,只涉及改变训练数据集。

这并不是说模型的未来迭代不应包含新特征或不考虑其他算法类型/体系结构。只是说,这些类型的更改会产生完全不同的模型——在部署到生产环境之前,应该对它们进行不同的测试。根据您的机器学习团队的成熟程度,理想情况下,此类更改将与A / B测试一起引入,以测量新模型对预先确定的兴趣指标(例如用户参与度或保留率)的影响。

应该多久重新训练一次模型

到目前为止,我们已经讨论了什么是模型漂移以及识别它的多种方法。于是问题就变成了,我们该如何补救?如果模型的预测性能由于环境变化而下降,解决方案是在反映当前实际情况的新训练集上对模型进行重新训练。那么,您应该多久重新训练一次模型?如何确定新的训练集?对于最困难的问题,答案是视情况而定。但如何视情况而定呢?

有时机器学习问题本身会给出何时需要重新训练模型的建议。例如,假设您正在一家大学招生办工作,并负责建立一个可以预测学生下学期是否会回来的学生流失模型。该模型将在期中后直接用于对当前学生群体进行预测。被确定有流失风险的学生将自动被纳入辅导课程或其他干预措施。

下面我们思考一下这种模型的时间范围。由于我们每学期一次批量生成预测,因此没有必要再频繁地重新训练模型,因为我们将无法访问任何新的训练数据。因此,在观察上学期的哪些学生退学后,我们可能选择在每个学期开始时重新训练我们的模型。这就是定期再训练计划的一个示例。从这个简单的策略开始,往往是一个好办法,但是您需要确定重新训练的频率。快速更改的训练集可能需要您每天或每周进行一次训练。较慢的发行版本可能需要每月或每年进行重新训练。

如果您的团队已经具备了监控上一节中所讨论的度量标准的基础设施,那么将模型漂移的管理自动化可能是有意义的。这个解决方案需要跟踪诊断,然后在实时数据上的诊断与训练数据诊断不同时触发模型再训练。但这种方法也有其自身的挑战。首先,您需要确定一个发散的阈值,它将触发模型再训练。如果阈值太低,则您可能会过于频繁地进行再训练,从而带来高计算成本。如果阈值过高,则可能会因为不经常进行再训练,而导致生产中的模型偏劣质。这比看起来要复杂得多,因为你必须去确定,要收集多少新的训练数据,才能代表世界的新状态。在世界已经发生改变时,用一个训练集太小的模型来代替现有的模型也是没有意义的。

如果您的模型已经在对抗性环境中运行,则需要特别考虑。在诸如欺诈检测这样的设置中,对抗方会改变数据分布以使自己获利。这些问题可以从在线学习中受益,在这之中,模型随着新数据的出现而不断更新。

如何重新训练模型?

最后,但并非最不重要的一点,我们需要讨论如何重新训练模型。您用于模型再训练的方法与您决定再训练的频率直接相关。

如果您打算定期去重新训练模型,那么批量进行重新训练就完全足够了。这种方法涉及使用工作调度程序(例如Jenkins或Kubernetes CronJobs)定期地调度模型训练过程 。

如果您具有自动模型漂移检测功能,那么在识别出漂移时触发模型重新训练就很有意义。例如,您可能有定期的工作,将实时数据集的特征分布与训练数据的特征分布进行比较。当识别出明显的偏差时,系统可以自动安排模型再训练以自动部署新模型。同样,这可以通过诸如Jenkins的作业调度程序或使用 Kubernetes Jobs来执行。

最后,利用在线学习技术更新当前正在生产的模型可能也是有意义的。这种方法依赖于使用当前部署的模型去“播种”一个新模型。随着新数据的产生,模型参数将使用新的训练数据进行更新。

结论

一般情况下,将模型部署到生产环境时,机器学习模型的预测性能往往都会下降。因此,工程师必须通过设置特定于ML的监视解决方案和工作流来启用模型重新训练,从而为性能下降做好准备。虽然重新训练的频率因具体问题而异,但ML工程师可以从简单的策略开始,随着新数据的到来,该策略会定期对模型进行重新训练,并发展为对模型漂移进行量化和做出反应的更复杂的过程。

原文作者:Luigi Patruno

Image placeholder
IT头条
未设置
  71人点赞

没有讨论,发表一下自己的看法吧

推荐文章
制定机器学习训练数据策略的6个技巧

人工智能(AI)和机器学习(ML)如今已经十分常见。AI指的是机器模仿人类进行认知的概念,ML是一种用于构建AI的方法。如果AI是指计算机可以根据指令执行一组任务,那么ML就是机器从数据中摄取、解析和

秘籍在手,训练不愁!特斯拉AI负责人Karpathy的超全神经网络训练套路

大数据文摘出品编译:周素云、宋欣仪、熊琰、ZoeY、顾晨波训练神经网络到底有诀窍和套路吗?AndrejKarpathy认为,还的确有。这位特斯拉的人工智能研究负责人、李飞飞的斯坦福高徒刚刚难得更新了博

“拉通”内外资源 新华三解决方案部的终极使命

“在数字化转型时代,客户需要端到端的解决方案,新华三解决方案部要拉通内部所有产品线,形成场景化的解决方案。如果客户需要应用层面的解决方案,我们也要拉通ISV等生态伙伴与客户之间需求,打造无界生态,同时

Python 教程-机器学习

Python有着海量的可用于数据分析、统计以及机器学习的库,这使得Python成为很多数据科学家所选择的语言。 下面我们列出了一些被广泛使用的机器学习及其他数据科学应用的Python包。

2019机器学习框架之争:与Tensorflow竞争白热化,进击的PyTorch赢在哪里?

大数据文摘出品来源:thegradient编译:张大笔茹、曹培信、刘俊寰、牛婉扬、Andy2019年,机器学习框架之争进入了新阶段:PyTorch与TensorFlow成为最后两大玩家,PyTorch

从关系型数据库到分布式机器学习,揭秘腾讯大数据十年发展历程

大数据技术在过去10多年中极大改变了企业对数据的存储、处理和分析方式。如今,大数据技术逐渐成熟,涵盖了计算、存储、数仓、数据集成、可视化、NOSQL、OLAP分析、机器学习等丰富领域。在未来,大数据技

TensorFlow技术主管Peter Wardan:机器学习的未来是小而美

大数据文摘授权转载自OReillyAIPeteWardan任谷歌TensorFlow移动和嵌入式团队的leader,在O’ReillyAIConference2019的Keynote演讲环节,他对机器

做机器学习项目数据不够?这里有5个不错的解决办法

许多开展人工智能项目的公司都具有出色的业务理念,但是当企业AI团队发现自己没有足够多的数据时,就会慢慢变得十分沮丧……不过,这个问题的解决方案还是有的。本文将简要介绍其中一些经笔者实践证明确实有效的办

甜过初恋!浙大博士用200个西瓜130页论文,教你用机器学习科学挑瓜

大数据文摘出品作者:易琬玉刚刚送走了最热七月,转眼就迎来了最热八月。2019年是人类有气象纪录以来最热的几个年份之一,虽然这个夏天还没结束,但气象学家们已经有十足把握做出这个判断。为了应付热,人们想出

Adobe又逆天!不用机器学习,用13.5M软件把《长安十二时辰》变成水墨动画

大数据文摘出品作者:曹培信用过修图软件的同学们应该都知道,利用强大的GAN,已经可以实现一键转换照片风格的功能,比如将你拍的风景照转换成一副印象派的画作。现在,轻松转换视频风格的软件也诞生了!Secr

为什么IoT需要机器学习才能蓬勃发展?

人们一直在热烈讨论大数据和人工智能等技术的机遇和威胁,并对它们的未来表示担忧。与此同时,公司希望通过安装越来越多的传感器,来提高效率降低成本。然而,InData实验室的机器学习顾问表示,如果没有适当的

如何使用TensorFlow机器学习对图像进行分类?

本文将介绍如何使用迁移学习使用TensorFlow机器学习平台对图像进行分类。在机器学习环境中,迁移学习是一种技术,使我们能够重用已经训练的模型并将其用于另一个任务。图像分类是将图像作为输入并为其分配

机器学习在高德用户反馈信息处理中的实践

1.背景作为国内领先的出行大数据公司,高德地图拥有众多的用户和合作厂商,这为高德带来了海量的出行数据,同时通过各个渠道,这些用户也在主动地为我们提供大量的反馈信息,这些信息是需要我们深入挖掘并作用于产

机器学习——单变量线性回归

机器学习之单变量线性回归modelrepresentation模型表示引言 给定房屋面积和房屋价格的数据,然后以房屋面积为横坐标,房屋价格为纵坐标,绘制数据点。通过绘制曲线,获得房屋房价的模型,根据房

AI赌神升级!无惧bluff,6人局德扑完胜世界冠军,训练只用了8天

大数据文摘出品作者:曹培信、宁静2017年年初,BrainvsAI的德州扑克人机大战在卡耐基梅隆大学(CMU)落幕,由4名人类职业玩家组成的人类大脑不敌人工智能程序Libratus。获胜后人类还遭到了

10分钟,用TensorFlow.js库,训练一个没有感情的“剪刀石头布”识别器

大数据文摘出品编译:Luciana、小七、宁静“剪刀石头布”是我们小时候经常玩的游戏,日常生活中做一些纠结的决策,有时候也常常使用这种规则得出最后的选择,我们人眼能很轻松地认知这些手势,“石头”呈握拳

大力再出奇迹,1024 张TPU,65536 batch size,仅76分钟训练完BERT!

大数据文摘出品作者:AndyBERT作为目前工业界中训练最耗时的应用,计算量甚至远大于机器视觉中的ImageNet训练。在BERT原论文中,JacobDevlin也是用了16台云TPU(64个TPU芯

注册登录要点击两次终极解决方案

概述 社区vue基础教程用到自定义的v-validator指令,首次加载表单登录或注册页,都需要点击两次才能正常跳转对该问题,本文提供了两个解决办法,一个是settimeout,另一个则利用js事件

那个“炫酷狂拽”的数据可视化利器AntV 11.22版全新发布啦

导读AntV是一个数据可视化项目,也是一个团队,蚂蚁金服数据可视化团队,一群有爱有梦的人,怀揣「让人们在数据世界里获得视觉化思考能力」的梦想前行,希望成就智能时代全球领先的数据可视化解决方案,满足与日

当年“你说什么,我都能实现”的软件公司,后来都是怎么死的?

在 #“我,80后,曾经靠副业的收入买车买房”# 的评论区里,有读者问,十几年前,圈内有不少软件公司,规模大小不一,遍布各个行业,但这几年似乎都没动静了,他们还活着吗?我说,撇开纯做“劳工”输出的外包

那些“中漂”的欧洲科学家们

大数据文摘出品来源:Sciencemag编译:武帅、刘俊寰就近几年的科技发展水平来看,中国已逐步向科技大国迈进,这在提升中国在全球的科研影响力之余,也在一定程度上改变了全球科学人才流动背后的格局。比如

实现人工智能落地 你还差一个“数据分析流水线”的距离

在智慧生产场景,生产制造商可以在生产线上利用深度学习,尤其是图像识别,将产品的质量检测自动化。比如自动检测产品表面有没有划伤、有没有零部件的缺失、有没有标签的错位。研究表明,相比人工检测,智慧检测可以

ERP云端相竞,QAD “中国云”的差异化竞争

提起海外知名ERP厂商可能很多人会想到SAP、Oracle,但在制造业尤其是汽车领域大家对QAD也许会更为熟悉。专注于制造业40年的QAD今年也迎来了在华的20岁生日,在6月13日举行的QAD2019

JavaScript中对“this”的简单理解

1.this的奥秘很多时候,JS中的this对于咱们的初学者很容易产生困惑不解。this的功能很强大,但需要一定付出才能慢慢理解它。对Java、PHP或其他标准语言来看,this表示类方法中当前对象的

java字符串“我是谁”的转码问题

微信公众号:爱问CTO专业编程问答社区www.askcto.com 问题出场publicstaticvoidmain(String[]args)throwsException{ Stringa="我是