制定机器学习训练数据策略的6个技巧

人工智能(AI)和机器学习(ML)如今已经十分常见。AI指的是机器模仿人类进行认知的概念,ML是一种用于构建AI的方法。如果AI是指计算机可以根据指令执行一组任务,那么ML就是机器从数据中摄取、解析和学习的能力,以便更精确地完成任务。

汽车、金融、政府、医疗、零售和科技等行业的大部分管理者都已经对ML和AI有了基本的了解。不过,并非每个人都是一个制定训练数据策略的专家——而这往往是实现ML高投资回报的必要的第一步。

AI系统通过实例来学习,它们拥有的高质量实例数据越多,就会学得越好。缺乏,或只有低质量的训练数据可能会生成不可靠的系统,得出错误的结论,做出糟糕的决策,无法处理现实世界的变化,并引入或延续一些如偏见等问题。

如果没有一个良好定义的策略来收集和组织你需要训练、测试和优化AI系统的数据,你将面临项目延迟、无法适当扩展以及被竞争对手超过的风险。下面是构建一个成功的训练数据策略的6个技巧。

Pexels 上的 Pixabay 拍摄的照片

1、制定训练数据预算

当启动一个新的ML项目时,首先要定义的是要实现的目标。这会让你知道,你的系统中需要哪种类型的数据,以及需要多少“训练项”(已分类的数据点)。

例如,计算机视觉或图像识别项目的训练项目,使用人工注释标记的图像数据,用于识别图像的内容(树、停车标志、人、车等)。此外,根据你正在构建的解决方案的类型,你的模型可能需要不断地重新培训或刷新。你的解决方案可能需要每季度、每月甚至每周进行更新。

一旦确定了训练项目和更新频率,你就可以评估关于采购数据的一些选项,并计算预算。

重要的是要清楚地了解启动该计划所需的时间和资金成本,随着时间的推移对其进行维护,并随着业务的发展对特性和功能进行改进,从而使解决方案对你的客户保持相关性和价值性。启动ML计划是一项长期投资。获得高回报需要一个长期的策略。

2、收集适当的数据

你需要的数据类型取决于你正在构建的解决方案的类型。一些数据来源包括实际使用数据、调查数据、公共数据集和合成数据。例如,一个能够理解人类语音命令的语音识别解决方案必须针对已翻译成文本的高质量语音数据(实际数据)进行培训。搜索解决方案需要由人工注释的文本数据来告诉它哪些结果是最相关的。

ML中最常用的数据类型是图像、视频、语音、音频和文本。在用于ML之前,必须对训练数据进行注释或标记,以确定它们是什么。注释可以告诉模型如何处理每段数据。例如,如果一个虚拟助理的一条训练数据是某个人的录音“多订购一点AA电池”,注释可能会告诉系统在听到“订购”时,与某个在线零售商处下个订单,在听到“AA电池”时搜索“AA电池”。

3、保证数据质量

根据任务的不同,数据注释可能是一项相对简单的活动,但是它也是重复的、耗时的,并且很难始终正确地执行。它需要人的介入。

低数据质量带来的风险很高,因为如果你根据不准确的数据训练模型,那么模型将会做错误的事情。例如,如果你训练一个自动驾驶汽车的计算机视觉系统,将人行道的图像错误地标记为街道,结果可能是灾难性的。事实上,糟糕的数据质量,是阻止ML广泛且有效使用的头号敌人。

当我们讨论数据质量时,我们谈论的是标签的准确性和一致性。准确是一个标签距离事实有多近;一致性是不同训练项目上的多个注释彼此一致的程度。

4 .注意并减少数据偏差

强调数据质量有助于公司减轻其AI项目中的偏见,这些偏见可能会隐藏起来,直到基于人工智能的解决方案进入市场。在这一点上,偏见可能很难纠正。

偏见通常来自项目开始时项目团队或培训数据中的盲点或无意识偏好。AI中的偏见可以表现为不同性别、口音或种族的语音或面部识别表现不均匀。随着AI在我们的文化中变得越来越普遍,现在是时候解决内在的偏见了。

为了避免项目级别的偏见,在建设定义目标、路线图、度量和算法团队时需要积极保证多样性。建设一个多样化的数据人才团队说起来容易做起来难,但风险很高。如果你团队的内部构成不代表潜在客户的外部构成,那么最终产品的风险只是为一小部分人工作,或者对他们有吸引力,而错过了一个面向大众市场的机会,或者更糟——偏见可能让AI具备现实世界中的歧视。

5、必要时,实施数据安全保障

并非每个数据项目都使用个人身份信息(PII)或敏感数据。对于利用这类信息的解决方案,数据安全性比以往任何时候都更重要,特别是在处理客户的PII、财务或政府记录或用户生成的内容时。越来越多的政府法规规定企业必须怎样处理客户信息。

保护这些机密数据可以保护你和你的客户的信息。对实践保持透明和道德准则,并坚持你的服务条款,这将给你带来竞争优势。不这样做会让你面临丑闻和品牌负面影响的风险。

6、选择合适的技术

你的训练数据越复杂或微妙,结果就越好。大多数组织都需要大量高质量、快速且大规模的训练数据。为了实现这一点,他们必须构建一个数据渠道,以更新模型所需的速度交付足够的数据量。这就是为什么,采用正确的数据注释技术是至关重要的。

你选择的工具必须能够为你的项目处理适当的数据类型,允许灵活的标记工作流设计,可管理单个注释器的质量和吞吐量,并提供ML辅助的数据标记来增强人工注释器的性能。

制定策略保障AI项目成功

IHS Markit最近的一项研究显示,87%的组织正在采用至少一种形式的变革性技术,比如人工智能,但只有26%的组织认为已经具备了适当的商业模式,可以从这些技术中获取全部价值。

创建一个可靠的训练数据策略是获取AI价值的第一步。包括设置预算、确定数据源、确保质量和保证安全性。清晰的数据策略还有助于提供大多数ML模型定期更新所需的稳定的数据渠道。单独的训练数据策略并不能保证AI的成功,但它可以帮助企业更好地利用AI带来的红利。

原文作者:Wilson Pang

Image placeholder
风柒
未设置
  99人点赞

没有讨论,发表一下自己的看法吧

推荐文章
一份关于机器学习“模型再训练”的终极指南

机器学习模型的训练,通常是通过学习某一组输入特征与输出目标之间的映射来进行的。一般来说,对于映射的学习是通过优化某些成本函数,来使预测的误差最小化。在训练出最佳模型之后,将其正式发布上线,再根据未来生

秘籍在手,训练不愁!特斯拉AI负责人Karpathy的超全神经网络训练套路

大数据文摘出品编译:周素云、宋欣仪、熊琰、ZoeY、顾晨波训练神经网络到底有诀窍和套路吗?AndrejKarpathy认为,还的确有。这位特斯拉的人工智能研究负责人、李飞飞的斯坦福高徒刚刚难得更新了博

从关系型数据库到分布式机器学习,揭秘腾讯大数据十年发展历程

大数据技术在过去10多年中极大改变了企业对数据的存储、处理和分析方式。如今,大数据技术逐渐成熟,涵盖了计算、存储、数仓、数据集成、可视化、NOSQL、OLAP分析、机器学习等丰富领域。在未来,大数据技

做机器学习项目数据不够?这里有5个不错的解决办法

许多开展人工智能项目的公司都具有出色的业务理念,但是当企业AI团队发现自己没有足够多的数据时,就会慢慢变得十分沮丧……不过,这个问题的解决方案还是有的。本文将简要介绍其中一些经笔者实践证明确实有效的办

谁不想写出干净的代码?7 个技巧,让你的同事爱上你的代码

推荐课程:融职教育--web全栈开发就业班(含价值500万10个商业项目) 1使用有意义的变量命名使用有意义的名称,这会让你一眼就知道是什么意思。//不推荐letxyz=validate(‘amyja

Python 教程-机器学习

Python有着海量的可用于数据分析、统计以及机器学习的库,这使得Python成为很多数据科学家所选择的语言。 下面我们列出了一些被广泛使用的机器学习及其他数据科学应用的Python包。

2019机器学习框架之争:与Tensorflow竞争白热化,进击的PyTorch赢在哪里?

大数据文摘出品来源:thegradient编译:张大笔茹、曹培信、刘俊寰、牛婉扬、Andy2019年,机器学习框架之争进入了新阶段:PyTorch与TensorFlow成为最后两大玩家,PyTorch

TensorFlow技术主管Peter Wardan:机器学习的未来是小而美

大数据文摘授权转载自OReillyAIPeteWardan任谷歌TensorFlow移动和嵌入式团队的leader,在O’ReillyAIConference2019的Keynote演讲环节,他对机器

甜过初恋!浙大博士用200个西瓜130页论文,教你用机器学习科学挑瓜

大数据文摘出品作者:易琬玉刚刚送走了最热七月,转眼就迎来了最热八月。2019年是人类有气象纪录以来最热的几个年份之一,虽然这个夏天还没结束,但气象学家们已经有十足把握做出这个判断。为了应付热,人们想出

Adobe又逆天!不用机器学习,用13.5M软件把《长安十二时辰》变成水墨动画

大数据文摘出品作者:曹培信用过修图软件的同学们应该都知道,利用强大的GAN,已经可以实现一键转换照片风格的功能,比如将你拍的风景照转换成一副印象派的画作。现在,轻松转换视频风格的软件也诞生了!Secr

为什么IoT需要机器学习才能蓬勃发展?

人们一直在热烈讨论大数据和人工智能等技术的机遇和威胁,并对它们的未来表示担忧。与此同时,公司希望通过安装越来越多的传感器,来提高效率降低成本。然而,InData实验室的机器学习顾问表示,如果没有适当的

如何使用TensorFlow机器学习对图像进行分类?

本文将介绍如何使用迁移学习使用TensorFlow机器学习平台对图像进行分类。在机器学习环境中,迁移学习是一种技术,使我们能够重用已经训练的模型并将其用于另一个任务。图像分类是将图像作为输入并为其分配

机器学习在高德用户反馈信息处理中的实践

1.背景作为国内领先的出行大数据公司,高德地图拥有众多的用户和合作厂商,这为高德带来了海量的出行数据,同时通过各个渠道,这些用户也在主动地为我们提供大量的反馈信息,这些信息是需要我们深入挖掘并作用于产

机器学习——单变量线性回归

机器学习之单变量线性回归modelrepresentation模型表示引言 给定房屋面积和房屋价格的数据,然后以房屋面积为横坐标,房屋价格为纵坐标,绘制数据点。通过绘制曲线,获得房屋房价的模型,根据房

2019年流行的6大顶级DevOps工具

DevOps作为对开发和运维人员都极为重要的系统,有望在2019年甚至更长时间内保持稳定增长。事实上,据IDC预测,到2022年,全球DevOps软件市场将达到80亿美元,比2017年的39亿美元有所

大数据是个技术,数据库才是它最好的产品形态

星环科技(以下简称:星环)的定位是大数据基础软件公司,而非数据库公司,却在数据库方面,做的比很多数据库公司更好更猛?这是为何?“我们认为,大数据是个技术,数据库才是它最好的产品形态”,星环科技研发总监

93.7% 的程序员!竟然都不知道 Redis 为什么默认16个数据库?

▍导读在实际项目中Redis常被应用于做缓存,分布式锁、消息队列等。但是在搭建配置好Redis服务器后很多朋友应该会发现和有这样的疑问,为什么Redis默认建立了16个数据库,如下图所示。椐调查发现:

企业需要知道的 6个AI/ML关键点

由于人工智能(AI)和机器学习(ML)的迅速发展与应用落地,世界各地的公司正在积极利用AI和ML发展业务,甚至投资数百亿美元。这些技术能够对业务与产生深刻的影响,所以Gartner报告预测,未来将“进

HTML中16个全局属性介绍

HTML原有属性accesskey作用:浏览器用来创建激活或聚焦元素的快捷键值:一个键盘字符如O范围:支持该属性的元素有、、、、、、注意:使用该属性可能在新窗口打开链接时可能会被浏览器屏蔽 百度 阿里

制定灾备计划时要考虑的10个问题

每年的3月31日,世界各地的IT专业人士都会庆祝世界备份日,这引起了全世界对数据备份的重视,设立世界备份日的目的是通过确保实施并遵循备份计划来保护我们的数据。尽管人们已经有这方面的意识,但令人难以置信

怎样制定IT预算计划?

IT预算制定过程非常复杂,对于厌恶数字或预算制定以及申请过程的IT主管来说,这可能是一项艰难的工作。本文可以帮助IT主管简化预算流程,了解如何将预算当做工具来规划和验证IT战略,并通过预算计划提高企业

AI赌神升级!无惧bluff,6人局德扑完胜世界冠军,训练只用了8天

大数据文摘出品作者:曹培信、宁静2017年年初,BrainvsAI的德州扑克人机大战在卡耐基梅隆大学(CMU)落幕,由4名人类职业玩家组成的人类大脑不敌人工智能程序Libratus。获胜后人类还遭到了

10分钟,用TensorFlow.js库,训练一个没有感情的“剪刀石头布”识别器

大数据文摘出品编译:Luciana、小七、宁静“剪刀石头布”是我们小时候经常玩的游戏,日常生活中做一些纠结的决策,有时候也常常使用这种规则得出最后的选择,我们人眼能很轻松地认知这些手势,“石头”呈握拳

大力再出奇迹,1024 张TPU,65536 batch size,仅76分钟训练完BERT!

大数据文摘出品作者:AndyBERT作为目前工业界中训练最耗时的应用,计算量甚至远大于机器视觉中的ImageNet训练。在BERT原论文中,JacobDevlin也是用了16台云TPU(64个TPU芯

你可能会忽略的 Git 提交规范

一、为什么需要规范? 无规矩不成方圆,编程也一样。 如果你有一个项目,从始至终都是自己写,那么你想怎么写都可以,没有人可以干预你。可是如果在团队协作中,大家都张扬个性,那么代码将会是一团糟,好好的项