是的,你的AI技能正在“贬值”

大数据文摘出品

编译:小蒋、李可、狗小白、周素云

我们正处于AI创业热潮之中,机器学习专家的薪资水平水涨船高,投资者也乐于对AI初创公司慷慨解囊。AI的普及成为推动社会生产力标志,必将改变我们的生活。

但是,本文作者前谷歌工程师、Inovo.vc的CTO Ric Szopa认为,AI从业者的技能正在贬值。他从一个选择题入手告诉我们,AI工具、数据集、资金投入以及行业+AI的优势正在一步步弱化单一的AI基础技术优势。

先来做一道选择题。

Alice和Bob是两位AI创业者, 他们的公司筹集了大致相同的资金,并在同一个市场上展开了激烈的竞争。

Alice把大部分钱花来雇佣最好的工程师,请来了一批在人工智能研究方面经验丰富的博士。

而Bob选择雇用资质一般但还算能干的工程师,并将省下来的钱用于获得更好的数据。

如果是你,你会给谁投资?

当然是Bob。

为什么呢?

从本质上讲,机器学习的原理是从数据中获取信息,并将其转化为模型权重。更好的模型使得这个过程更有效(时间或者整体质量方面),但如果假设模型训练相对都比较充分,更好的数据肯定会产生更好的结果。

为了说明这一点,让我们再进行一个快速而简单的测试。

假设我创建了两个性能不太一样的卷积网络。“更好”的模型的最后一个全连接层有128个神经元,而“稍微差一点”的只有64个。我在不同大小的MNIST数据集的子集上训练它们,并绘制模型在测试集上的准确率与训练样本数的折线图。

蓝色是“更好”的模型,绿色是“稍微差一点”的模型

很显然,训练数据集大小具有积极影响(至少在模型开始过拟合和准确率达到稳定之前)。值得一提的是,在40000个样本上训练的“稍微差一点”模型的准确率比在30000个样本上训练的“更好”模型的准确率要高!

在我的小例子中,我们处理的是一个相对简单的问题,而且有一个比较全面的数据集。而在现实生活中,我们的条件并不是如此完美。在许多情况下,增加数据集经常会具有非常显著的效果。

事实上,Alice的工程师不仅仅是和Bob的工程师竞争。由于AI社区的开放文化及其对知识共享的重视,他们的竞争对手其实来自谷歌、Facebook、微软以及世界各地数千所大学的研究人员。

因此, 好的工程师虽然很重要的,但如果你是AI领域的话,数据的竞争优势会显得更为关键。

然而,更加重要的问题是,你如何才能保持自己的优势。

AI工具正越来越简单好用

2015年,当我还在谷歌工作,刚开始玩DistBelief,也就是后来我们所熟知的Tensorflow。当时这个工具太难用了,所以当时想让它在谷歌构建的系统之外运行完全是一个白日梦。

2016年末,我进行了一个概念验证的研究,在组织病理学图像中检测乳腺癌。当时我想使用迁移学习:采用谷歌当时最好的图像分类架构Inception,并在我的癌症数据上重新训练。我可以使用谷歌提供的一个经过预训练的初始权重,改变顶层结构来匹配我正在做的工作。

在TensorFlow上经过长时间的反复尝试,我终于找到了操作不同层的方法,让它基本上运作起来。这需要很大的毅力去阅读TensorFlow的资料。不过至少我不必太担心依赖关系,因为TensorFlow贴心地准备了Docker镜像。

来源:Medium

在2018年初,多亏了Keras(基于TensorFlow的一个框架),只需几行Python代码就能完成这个项目,而且使用它不需要你对自己正在做的事情有深入理解。但它仍然有个痛点:超参数调优。

如果你有一个深度学习模型,可以调节多个参数,如层数和大小等。在我写这些文字的时候(2019年初),谷歌和亚马逊提供了自动模型调优服务(Cloud AutoML,SageMaker)。

我预测手动调优迟早会灭绝,工程师们也会从这项繁琐的工作中解脱了。

总的趋势是,将困难的事变得容易,你无需深入理解就能实现更多的东西。过去的那些伟大工程现在听起来相当一般,所以我们不应该期望我们现在的成就在将来有多好。

听起来很欢欣鼓舞是不是,但是,对于那些在AI技术上投入巨资的公司和个人来说,这可以是个坏消息。目前来说,掌握某些AI技术还算是企业的竞争优势,因为一个称职的机器学习工程师需要花费大量的时间阅读论文,并需要扎实的数学背景。

但是,随着工具的改进,情况将不再如此。读论文更多会转向读工具教程。如果你没有很快意识到你该关注的重点,一个带了数据更完备的实习生团队就可能会抢走你的饭碗。

想长期保持竞争优势?难上加难!

让我们再回到文章开头的例子。凭借出色的数据集,Bob成功地与Alice展开竞争,推出了自己的产品,并稳步增加了市场份额。他也慢慢可以开始雇佣更好的工程师,因为坊间传言他的公司是一个好去处。

但这时候,又出现了一个Chuck,虽然入局晚,但他比Bob更有钱。

在构建数据集时,钱至关重要。但通过砸钱来加快工程项目进度非常困难。事实上,使用太多新人可能会减缓进度,但构建数据集就不同了。数据集需要大量人工操作,而你可以通过雇用更多人手来搞定它。另一种可能是有人拥有数据,那么你所要做的就是支付数据使用费。

无论如何,钱能让数据集来得更快。

但是问题来了,为什么Chuck可以筹到比Bob更多的钱?

当创始人提出一轮融资时,他们会努力平衡两个可能相互矛盾的目标。他们需要筹集足够的资金在市场上竞争,但也不能太多,因为这会导致股权过度稀释。创始团队必须在创业公司中保持足够的股份,以免失去创业的动力。

另一方面,投资者希望投资具有巨大上升潜力的创意,但他们必须控制风险。随着预期风险的增加,他们会为支付的每一美元要求更大比例的股份。

当Bob筹集资金时,“人工智能确实对产品有所帮助”不过只是一个信念。无论他作为创始人多优秀,她的团队有多好,但有可能他试图解决的问题根本就难如登天。Chuck的情况非常不同。他知道他面临的问题完全可以解决!

在这种情况下,Bob的应对方法很可能是提出另一轮融资,以便处于有利位置,因为他(暂时)仍然在竞争中领先。但是,如果Chuck可以通过战略合作关系稳固获取数据呢?比如举个癌症诊断初创公司的例子,Chuck可能利用他在一家重要医疗机构的内部职位,与该机构达成一份内部协议。这时候, Bob很可能无法抗衡。

你的产品需具备防御性,最好是一条“护城河”

AI的杠杆效应

对业务进行分类的一种方法是,它是直接增加价值,还是为某些其他价值来源提供杠杆效应。以一家电子商务公司为例,增加价值就像创造了新的产品线,建立新的分销渠道则是一个杠杆,削减成本也是杠杆。

杠杆可能比直接施力更有效。但是,杠杆仅在与直接价值来源耦合时才起作用。一个微小的数字,翻了两倍,三倍,还是很小。如果你没有可出售的部件,开辟新的分销渠道也只是浪费时间。

在这种情况下我们应该如何看待AI?有很多公司试图将AI作为他们的直接产品(用于图像识别的API等),对一个AI专家,这可能很有吸引力。

然而,这常并不是一个好的选择。首先,你是在Google和亚马逊等这些大公司竞争。其次,开发真正有用的通用AI产品非常困难。例如,我一直想使用Google的Vision API。不幸的是,我们从未遇到过客户需求与产品充分匹配的情况。总是有各种各样要么开发不够要么开发过度的情况。

更好的选择是将AI视为杠杆。

你可以采用现有的,有效的商业模式,通过AI增强它。例如,如果生产流程依靠人类的认知劳动,那么将其自动化可能会为毛利率带来显著提升。这里我能想到的例子有:心电图分析,工业检查,卫星图像分析。同样令人兴奋的是,因为AI属于辅助后端,仍然可以利用非AI业务来保持公司的竞争优势。

结论

AI是一项真正的变革性技术。但是,以此为基础创业是一件棘手的事情。你不应该完全依赖于AI技能,因为市场趋势就是技术会贬值。

构建AI模型可能非常有趣,但真正重要的是拥有比竞争对手更好的数据。

保持竞争优势很难,特别是遇到比你资金更充足的竞争对手,这种情况在你的AI创业进行时很可能发生。你的目标应该是创建一个可扩展的数据收集过程,而这个过程很难被竞争对手复现。

AI非常适合颠覆依赖低附加值、劳动重复性的行业,因为它使该工作自动化成为可能。

相关报道:

https://www.kdnuggets.com/2019/01/your-ai-skills-worth-less-than-you-think.html

Image placeholder
IamAlright
未设置
  16人点赞

没有讨论,发表一下自己的看法吧

推荐文章
数据科学领域的核心技能和新兴技能分别有哪些?

近年来随着大数据的迅速发展,各种各样的数据分析技能也逐渐大热,为了找到数据科学领域目前最常用的技能和未来最流行的应用趋势,我们进行了一项调查。我们确定了数据科学技能的两个主要类别:一个是大多数受访者拥

[译] 是的,它是 npx,不是 npm

原文: Yes,it’snpx,notnpm—thedifferenceexplained 最近,当我开始学习React的时,看到包括我在内的很多人当看到 npx 而不是 npm 时很困惑。一些人看的

41%的企业高层领导表示,数字化转型是在“浪费时间”

国外Celonis公司最近发布的一份调查报告称,近半数的高管在没有明确计划的情况下启动了数字化转型项目。报告显示,大多数企业都在进行数字化转型项目,虽然这样做的目的是为了提高企业效率和降低成本,但其实

Spring Boot到底是怎么运行的,你知道吗?

导读SpringBoot方式的项目开发已经逐步成为Java应用开发领域的主流框架,它不仅可以方便地创建生产级的Spring应用程序,还能轻松地通过一些注解配置与目前比较流行的微服务框架SpringCl

警告:ORA-00600 2252 错误正在SCN问题下不断爆发

自2019年6月23日之后,Oracle启用了SCN自动Auto-Rollover的新特性,也就是自动调整了SCN的增长率算法(缺省32K每秒,允许SCN最高以每秒96K计算)。注意,这里说的自动,是

为什么SQL正在击败NoSQL,这对未来的数据意味着什么

导读:经过多年的沉寂之后,今天的SQL正在复出。缘由如何?这对数据社区有什么影响?看看本文的分析。以下为译文。自从可以利用计算机做事以来,我们一直在收集的数据以指数级的速度在增长,因此对于数据存储、处

IOS APP开发需要学什么知识和技能?

IOSAPP开发需求学什么学问和技艺?目前IOS系统的APP和Android系统的APP,是手机APP开发的两大主流。就拿IOS系统的APP开发来说,需求和安卓完整不同的开发言语和工具。本文着重来讨论

Udemy:人工智能是2020年职场最需要的技能之一

TensorFlow是过去三年中最受欢迎的技术技能,根据Udemy的数据在2016年至2019年之间呈指数增长。·除了Web开发框架,云计算和IT认证(包括AWS、CompTIA和Docker)之外,

2019 最新计算机技能排名出炉:Python 排第三,第一名是…

除了编程语言之外,要想找一份计算机相关的工作,还需要很多其他方面的技能。最近,来自美国求职公司Indeed的一份报告显示:在全美工作技能需求中,数据库语言SQL、编程语言Java分列前两位。虽然Pyt

程序员,练就哪些技能才胜任架构师?

关注「 IT老兵哥 」,赋能程序人生!本系列前序文章索引: 程序员为什么必须要懂架构? 架构到底是什么,你知道吗? 架构都有哪些,我该怎么选? 架构师都干什么,你知道吗? 架构师,我们程序员打怪升级的

新突破!人工智能会根据你的声音来预测你的长相

麻省理工学院的研究人员发明了一种新的人工智能,它实现了一项惊人的成就:仅通过分析一个人声音的短片段,它就能重建他们在现实生活中的样子。人工智能的预测结果并不完美,但总的来说还是相当不错的,这项研究也是

谁不想写出干净的代码?7 个技巧,让你的同事爱上你的代码

推荐课程:融职教育--web全栈开发就业班(含价值500万10个商业项目) 1使用有意义的变量命名使用有意义的名称,这会让你一眼就知道是什么意思。//不推荐letxyz=validate(‘amyja

PHP 如何上传文件和下载,你学会了吗?

第1章文件上传 1.1客户端上传设置 ​在B/S程序中文件上传已经成为一个常用功能。其目的是客户可以通过浏览器(Browser)将文件上传到服务器(Server)上的指定目录。 ​网络上常见的支持文件

Carbon —— PHP 中日期 / 时间处理,你只需要这个扩展包就够了

在PHP中使用日期和时间并不是容易或清晰的任务。我们必须处理strtotime,格式化问题,大量计算等等。 这个漂亮的包叫做Carbon可以帮助在PHP开发中处理日期/时间变得更加简单、更语义化,从

56岁潘石屹下决心学Python,60岁程序语言之父们还在敲代码,你呢

比你成功的人,比你还努力。上周,SOHO中国董事长、地产大亨 潘石屹,56岁生日当天发布微博宣布进军编程语言Python。 紧接着第二天,又更新微博解释为何会做出此举。潘石屹给出的解释大致就是,在不断

晋级高级前端工程师,你需要开发过这七类项目

近些日子,随着JavaScript擅长做更多的事情,它也变得很难被全部掌控(更不用说不可能)。对这门语言更好的理解以及更多的经验意味着更多的工作机会。因此,花费时间来学习新东西很有用。学习编程最好的也

每天凌晨下班,你是不是觉得特别光荣?

题图: fromZoommy当年刚去东方购物报到的第一天,直属上司就提醒我:“小王,虽然公司17点30分下班,但如果你的领导没有离开,你是没有权利下班的,明白了吗?”当年,我就是个愣头青,觉得这样挺好

看完秒变5G专家!关于5G,你必须知道的事儿……

本文转自|鲜枣课堂   什么是5G    5G,就是5thGenerationMobileNetworks(第五代移动通信网络),也可以称为5thGenerationWirelessSystems(第

DTCC | 云数据库时代已来,你准备好了吗?

作为基础软件之一,数据库一直是企业IT系统的核心,过去数十年,数据库技术发展缓慢。而随着云计算的到来及相关技术的不断成熟推动了数据库行业的快速发展,传统数据库铁打的防线也正在被撕裂。截至目前,全球主流

吊打面试官!MySQL灵魂100问,你能答出多少?

推荐阅读:面试机会不等人,资料看精不看多!史上最全Java技术资料合集!2019年中总结,400道一线大厂高频精选面试题合集(JVM+Spring+RabbitMQ+Mybatis+Redis+分布式

看完这篇,你还不能理解 ‘数据库架构’?趁早回家吧

来源:http://rrd.me/ep46N一、数据库架构原则高可用高性能一致性扩展性二、常见的架构方案方案一:主备架构,只有主库提供读写服务,备库冗余作故障转移用jdbc:mysql://vip:3

“我是技术总监,你干嘛总问我技术细节?”

题图:fromZoommy每个周末的午后,把儿子送进EF读书,随后找个环境幽静的咖啡馆坐一会,这便是我一周中最放松的时光。在咖啡厅的气氛和环境这两点上,我似乎有强迫症,比如装修主色调的运用,地上装饰是

阿里达摩院 vs Gartner:2020 科技趋势预测,你更信谁?

信息革命、移动互联网革命尚未落幕,智能革命又像一头大象一样撞进人类的生活,激荡着整个世界。任何足够先进的科技,初看都与魔法无异,但魔法背后是对规律和趋势的洞悉。2020年初,阿里巴巴旗下达摩院发布了2

这 20 多个高并发编程必备的知识点,你都会吗?

转载自并发编程网–ifeve.comhttp://ifeve.com/%e9%ab%98%e5... 一、前言借用Java并发编程实践中的话”编写正确的程序并不容易,而编写正常的并发程序就更难了”,相

2020年,你是否更关注个人数据隐私了?

日前,阿里达摩院发布了2020年十大科技趋势,其中趋势九指出保护数据隐私的AI技术将加速落地。“数据流通所产生的合规成本越来越高。使用AI技术保护数据隐私正在成为新的技术热点,其能够在保证各方数据安全