数据科学家的高级能力:“讲故事”

在不算太遥远的过去,业界对数据科学家的评判主要依据于他们发现、理解、管理和综合信息的能力。随着数据环境的不断发展和计算能力的不断提高,编码技能变得越来越重要。随着时间的推移,又出现了更加细致入微的技能要求,包括人工智能方法的专业知识、判断数据真实性以及许多其他的能力。

最近,随着许多组织开始认识到某些高级数据科学技能的重要性,通常最缺乏的是在数据信息和业务需求之间进行转换的能力。这种从大量数据和分析中获得实际意义的能力,以及以一种通俗易懂的方式向其他与数据分析无关的人传达这种理解的能力,有时被称为数据科学故事化。通常情况下,数据科学家掌握这一技能时可能会遇到一些困难。

为销售提供论点

现在请思考一个典型的场景:试着给出一个充分的理由来争取一项投资。不管需要什么样的正式流程,在开始阶段,通常会有一场对话——有时也称为“推销”——其中一个或多个相关方试图提出价值主张以承诺资金和其他资源。很多时候,在这个演讲之前,我们会请一些拥有数据分析技能的人来创建一个支持性的论点。

有了对他们试图证明的东西的一些理解,数据科学家可以用现有的数据构建模型来支持结论。他们可以使用优秀的工具来创建可视化数据,这有助于数据信息的交付。团队按照要求完成分析并将其结果交付给原始涉众。所有这些工作都是为论点服务的。

但即使是这个简单的场景,也包含了几个常见的数据故事化的挑战

在一开始,往往会先有一个众所周知的先验结论,也就是在进行任何分析之前得出的关于结论的假设。数据科学家被要求得出一个预先确定的结论。在这种情况下,分析工作是独立于数据科学的公式之外进行的,然后,那些被要求从数据中获取支撑性论点的人,只是参与进来而已。

在这个关键的阶段,信息的丢失,公式被忽略,往往会导致一种认知偏差——这种偏差通常来自于一个人理解问题的方式。

基于团队所达成的对问题的理解,分析工作继续进行,另外一个挑战就出现了——使用现有的数据。在这个阶段,如果没有考虑到手头的数据是否足够,甚至数据对分析工作是否具有代表性。仅仅因为可以立即获得数据就使用数据——有时被称为方便抽样,经常会带来错误或不完整的结论。

最后,数据科学团队通过数据可视化将分析结果传递给那些做陈述的人。任何对分析的深刻理解都丢失了,或者,在陈述时无法利用的结果。即使假设与涉众就问题和关注点进行了一些讨论,这些复杂的因素也可能在最终的演示中丢失,至少部分丢失。简化是有效决策的关键,但是过度简化可能会带来错误的决策。

因此,记住关于数据科学故事化的三个有用的实践办法是很重要的:

让利益相关者参与分析性叙述的创建。这有助于减少信息损失,确保对结论有清晰的理解,并减少最终决策中潜在的关键细微差别的损失。

仔细考虑数据分析方法。这支持实证的严谨性——例如,结果是否可以复制——并防止抽样和其他一些偏差。

以简化为目标,从而做出正确的决定。过于简化以至于忽略可能改变决策的细节,可能会是一个关键的缺点。可视化应该用来讲述一个故事,而不是模糊论证中的关键点——例如,做了什么假设,为什么这些数据是得出结论的正确数据等等。

“死”于数据

在我们考虑哪些技能与未来企业决策的方式相关时,我们应该仔细考虑一些重要的趋势,比如联合。

随着数据和分析在企业中的应用越来越广泛,越来越多的人被要求使用数据科学技能来支持他们的工作,这是很自然的。就像当PPT变得流行起来时,非图形专业的人员也突然被要求了解字体、图形表示和其他技能,但是许多人可能还没有做好转变的准备,因而“死于PPT”。与此相对应的,可以称之为“死于数据”。

随着数据和分析的联合趋势在企业中持续发展,企业领导者应该仔细思考要采取哪些步骤来确保员工拥有合适的技能——例如问题公式化、理解偏差和基本前提——并且为员工提供正确的专用分析资源。

以问题为导向

另一个关键趋势是提出解决方案。随着人工智能和其他方法变得越来越普遍,很多时候,我们会发现自己在讨论,如何用某一个工具或方法获得一个应用的解决方案。这种类型的对话非常常见,比如,“我们如何用人工智能来理解客户的评论?”或者,“我们如何使用可视化的方式,来演示我们的新产品?”

当我们以某个工具或技术作为导向时,必须非常小心——因为科学告诉我们要以问题为导向。考虑一下,如果我们问,“我们是否能够访问到关于Y这个人的数据,这些数据足以理解他的评论吗?”,或者“我们可以用什么方法来分析这些数据?”,或者“我们需要多精确才能做出决定?”这类问题更有可能促使我们在数据集、分析方法和讲述故事的能力方面做出有效的选择,并得出强有力的决策。

原文作者: Anthony Scriffignano

Image placeholder
YTM_D
未设置
  49人点赞

没有讨论,发表一下自己的看法吧

推荐文章
你的公司是需要数据科学家还是数据工程师?差别有点大

越来越多的企业关注AI,企业组织也意识到拥有相关人才和技能非常重要。特别是最近对AI、机器学习(ML)、非ML预测分析和“大数据”的应用,使得数据科学家的需求有了显著的增长,未来还将继续。事实上,对数

美漂数据科学家年薪多少?爬了6年H1B签证数据发现,招的人多了,但钱少了

大数据文摘出品来源:medium编译:张睿毅、曹培信自2012年起,一直被称为“最性感的工作”的数据科学家职位,吸引了大批远渡重洋到达硅谷,做着“数据梦”的留学生们。但他们也付出了不菲的前期投入,除了

进入智能时代 华为做了“四件小事”和“一件大事”

  把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界,是华为与全社会的共同愿景。  作为上半年国内ICT领域规模最大、最受关注的生态盛会,华为中国生态伙伴大会2019今天在福州海峡国际

「模仿」是架构师的基本能力:守破离

本文作者曲健,1024生人,天选程序员,浆糊人送外号“大爷DàYé”,目前在奥琪科技担任首席架构师一职。二零一八留不住,朱颜辞镜花辞树。鄙人平素喜偶厌奇,以致现在对2019仍避之不及、兴致索然,更羞愧

那些“中漂”的欧洲科学家们

大数据文摘出品来源:Sciencemag编译:武帅、刘俊寰就近几年的科技发展水平来看,中国已逐步向科技大国迈进,这在提升中国在全球的科研影响力之余,也在一定程度上改变了全球科学人才流动背后的格局。比如

数据科学在信任与安全领域的7个典型用例

什么是信任和安全?它们在当前世界中扮演什么角色?我们经常在许多网站和平台上遇到“信任与安全”这个词。它被要求规范访客和平台之间的交互,以此促使用户的权益得到保障。从电子商务网站到社交网络,都需要防止欺

数据科学领域的核心技能和新兴技能分别有哪些?

近年来随着大数据的迅速发展,各种各样的数据分析技能也逐渐大热,为了找到数据科学领域目前最常用的技能和未来最流行的应用趋势,我们进行了一项调查。我们确定了数据科学技能的两个主要类别:一个是大多数受访者拥

零基础学习Swift中的数据科学

概述Swift正迅速成为数据科学中最强大、最有效的语言之一Swift与Python非常相似,所以你会发现2种语言的转换非常平滑我们将介绍Swift的基础知识,并学习如何使用该语言构建你的第一个数据科学

数据科学在市场营销领域的8个最佳用例

在这篇文章中,我们将介绍一些数据科学在营销领域的关键用例。就数据科学的关键目标是将数据转化为可操作的洞察而言,为了获得更高的盈利,营销领域不能忽略这些洞察的应用。大数据技术,为在营销中更好地了解目标受

DTCC2019 :“数据架构设计实践专场”等您来!

  2019年5月8日~5月10日,由IT168旗下ITPUB企业社区平台主办的第十届中国数据库技术大会(DTCC2019),将在北京新云南大酒店召开。本次大会将以“数据风云,十年变迁”为主题,邀请百

案例诊断:“交易耗时8S”缉凶记

背景某日上午,小集购买a产品失败,页面弹出“系统异常,请稍后重试”的报错,便联系了技术团队的开发小成。“小成,我刚才尝试买a产品一直显示系统异常,是不是有什么问题呢?”开发小成接到电话后,迅速着手排查

阿里巴巴向全社会开放黑科技:“泡在水里”的服务器

为了让数据中心更绿色,阿里工程曾将服务器“泡在水里”进行散热,节能超70%,今天这项黑科技的神秘面纱被揭开。2020年1月6日,阿里巴巴宣布将“浸没式液冷数据中心技术规范”向全社会开放。这项规范旨在用

对话OceanBase资深总监韩鸿源:数据库是技术能力,云是使用方式,两者不应是竞争关系

5月10日,在第十届中国数据库技术大会(DTCC2019)上,蚂蚁金服的金融级分布式关系数据库OceanBase2.0,在经过200名数据库领域三年以上的从业者投票和专业评委的评选下,高分荣获了“年度

解DBA之惑:数据库承载能力评估及优化手段

作为DBA,有时会被挑战类似这样的问题:如果现有业务规模增加10倍、100倍,数据库是否能够支撑?下个月我们搞大促,数据库这边没问题吧?计划进行去O工作,代码逻辑不变,数据库从Oracle切换到MyS

走近科学,探究阿里闲鱼团队通过数据提升Flutter体验的真相

背景闲鱼客户端的Flutter页面已经服务上亿级用户,因此用户体验尤其重要,完善Flutter性能稳定性监控体系,以便及早发现线上性能问题,也可以作为用户体验提升的衡量标准。那么Flutter的性能到

腾讯林晓斌:数据库的高易用性如何实现?

腾讯云基于QQ、微信、腾讯游戏等海量业务的技术锤炼,从基础架构到精细化运营,从平台实力到生态能力建设,腾讯云将之整合并面向市场,使之能够为企业和创业者提供集云计算、云数据、云运营于一体的云端服务体验。

看文吃瓜:React 遭遇 V8 性能崩溃的故事

本篇文章主要讲述V8如何选择JavaScript值在内存中表现形式的优化方式,以及解释Reactcore在V8中出现的性能断崖。 在这之前,我们讨论过JavaScript引擎如何通过使用内联缓存(

揭秘华新水泥核心业务上云的背后故事

武汉地处九省通衢之地,“敢为人先,追求卓越”的武汉精神,引领着武汉在科技“攻尖”与产业“攻坚”方面硕果连连。近日,“武汉·选择不凡华为云城市峰会2019”成功举办,华为云与湖北政企客户及伙伴共同探讨“

第三方支付 : 概述、起源 | PayPal 和支付宝 的诞生的故事

说起第三方支付,好像大家都知道,天天不是用支付宝和微信吗?支付宝和微信支付确实是行业内非常具有代表的第三方支付公司,但现在他们已经不完全是一家第三方支付公司,都可以称为金融集团。其实第三方支付,远远不

从MySQL到POLARDB, 三位CTO讲述迁移背后的故事!

摘要: 去年9月21日,阿里云发布了自主研发的通用云数据库POLARDB公测版,今年4月,POLARDB正式商业化。此前,POLARDB核心卖点是100%向下兼容MySQL5.6,100TB存储容量,

码龄超过20年,依然对生活和编程充满激情,这是三位70后“老”程序员的故事

大数据文摘出品作者:周素云、张秋玥加班996,生病ICU。这是一句最近搅乱了很多程序员平静生活,也让所有的“社畜”认真反思人生的话题。但是,让程序员们真正感到焦虑的其实并不只是工作的压力,更多的是对未

信泰人寿“去IOE”背后的故事

十年前,以IBM小型机、Oracle数据库和EMC存储设备为代表的IT基础体系,被广泛应用在全球各大企业当中,并长时间垄断了国内商业数据库领域,紧攥着中国信息安全的命脉。彼时,“IOE”三大巨头,稳坐

如何成为一名优秀的CTO?需要具备哪些能力?

如何成为一名优秀的CTO?需要具备哪些能力?CTO简单来说就是技术总负责人。那么在自己的专业领域,一定要拥有拔尖的知识技能。除此之外,广阔的技术性视野,与CEO良好的伙伴关系,前瞻性的商业思维以及不断

红帽OpenShift得到IBM、AWS和Azure的支持,生态能力正不断扩大

继IBM在11月6日宣布,IBMCloudPaks容器云的底层技术通过红帽OpenShift来支持后;AWS也于11月7日表示,原生集成AWS服务的红帽OpenShift容器平台已可用于由光环新网技术

两年Flink迁移之路:从standalone到on yarn,处理能力提升五倍

一、背景与痛点在2017年上半年以前,TalkingData的AppAnalytics和GameAnalytics两个产品,流式框架使用的是自研的td-etl-framework。该框架降低了开发流式