为什么85%的大数据项目总是失败?

企业在推行大数据项目时往往把项目规模和范围做得很大,但是事实却是,很多大数据项目通常都会失败。2016年,Gartner估算约60%的大数据项目都会失败。一年后,Gartner分析师Nick Heudecker表示,这个数据“过于保守”,大数据项目失败率应接近85%。直至现在他也是这样认为的。

并不只有Gartner这样认为。前微软高管Bob Muglia告诉分析网站Datanami,“我找不到完全满意的Hadoop客户。实际上,成功应用Hadoop的客户数量可能少于20个,甚至可能少于10个。考虑到其存在时间以及行业投入,这个结果很令人震惊。

熟悉大数据的人都知道,这个问题是真实且严重的,而不完全是技术问题。事实上,相对于本质原因,技术是失败的次要原因。以下是大数据项目失败的四个主要原因,以及可以成功的四种方式。

大数据问题1:整合不佳

Heudecker表示,大数据失败背后存在着一个重要的技术问题,那就是整合多个来源的孤立数据,以实现企业所需的数据处理能力。建立与孤立传统系统的连接并不容易。他说,整合成本是软件成本的五到十倍。其中最大的问题是简单集成:如何将多个数据源链接在一起?很多人选择数据湖路线,认为这个方式很简单,但事实并非如此。

孤立数据是问题的一部分。客户告诉他,当他们将数据从系统提取到像数据湖这样的公共环境中后,却无法弄清楚这些值的含义。“当你将数据输入数据湖时,怎么知道数字3意味着什么?”Heudecker问道。

普华永道(PwC)高级研究员Alan Morrison表示:“由于是在孤岛中工作,或者创建的数据湖只是数据沼泽,所以他们能完成的工作只是冰山一角。”“他们不理解数据中的关系,这些关系需要挖掘或推断,以便机器能够充分解释这些数据。另外,他们需要创建一个知识图层,以便机器能够解释下面映射的所有实例数据。否则,数据湖只能是一个数据沼泽,”

大数据问题2:不明确的目标

大多数人以为企业在进行大数据项目时会有明确的目标,但实际并不是这样的。很多公司通常是先启动项目,然后才去想目标。

数据集成软件公司Talend的产品营销经理Ray Christopher表示,“你必须认真审视这个问题。人们认为他们可以将结构化和非结构化数据连接起来,从而获得所需的信息。然而这必须提前确定目标,你想要什么样的信息?”

企业应用咨询公司的首席分析师Joshua Greenbaum表示,困扰大数据和数据仓库项目的部分原因是指导标准通常是大量数据的积累,而不是解决业务问题。

Greenbaum说,“如果将大量数据汇总在一起,就会得到数据转储,可以称之为卫生垃圾填埋场。这不是寻找解决方案的好方法。我一般建议客户先决定需要优先解决哪些业务问题,然后查看可用数据的质量,并在发现业务问题后解决数据问题。”

为什么大多大数据项目都失败了?对于初学者来说,大数据项目领导者都缺乏远见。Morrison这样认为。大多数企业只考虑数值数据或黑盒子NLP和识别引擎,并进行简单的文本挖掘和其他类型的模式识别。

大数据问题3:技能差距

很多时候,公司认为他们为数据仓库建立的内部技能将转化为大数据,而事实并非如此。 对于初学者来说,数据仓库和大数据以完全相反的方式处理数据:数据仓库在写入时执行模式,这意味着数据在进入数据仓库之前就会被处理和组织。

在大数据中,积累数据并应用读取模式,数据在读取时进行处理。因此,如果数据处理从一种方法转向另一种方法,技能和工具应该也是如此。

“技能永远是一个挑战。如果我们30年后谈论大数据,仍然会面临挑战。“很多人都依赖Hadoop。但Spark更好一些,因为栈更小也更容易训练。”

大数据问题4:技术代沟

大数据项目经常从旧的数据竖井中提取数据,并试图将它们与新的数据源(如传感器、网络流量或社交媒体)合并。这并不完全是企业的错,企业在大数据分析出现之前就收集了这些数据,但无论如何,这也是一个问题。

Greenbaum认为,企业缺少的最大技能是如何融合这两个数据源,让他们共同解决复杂问题。数据孤岛可能成为大数据项目的障碍,因为它没有任何标准。因此,当企业开始规划时,发现这些系统尚未以任何方式实施,所以这些数据将被重复使用。

Talend的Christopher认为,对于不同的架构需要以不同的方式进行处理。技术技能和架构差异是无法将当前工具用于本地数据仓库并将其与大数据项目集成的主要原因。因为这些技术处理新数据的成本太高。所以需要Hadoop和Spark等新的语言。

解决方案1:提前规划

虽然是陈词滥调,但适用于大数据项目。成功的公司必然是有结果的公司,选择一些小而可实现的新东西进行规划和实现。

Morrison说:“他们需要首先考虑数据,并以机器可读的方式为企业建模,以便数据服务于该企业。”

解决方案2:共同努力

股东往往被排除在大数据项目之外 。Heudecker说,如果所有股东合作,他们可以克服许多障碍。加上技术人员共同努力,并与业务部门合作以提供可行的结果,这可能有所帮助。

Heudecker指出,在大数据方面取得成功的公司大量投资于必需的技能。他认为这是数据驱动型公司普遍认可的,如金融服务公司、优步、Lyft和Netflix。公司的财富基于拥有可靠、可操作的数据。

Christopher认为,应该让大数据项目成为一项团队运动,所有人都帮助策划和收集数据并处理它,提高数据的完整性。

解决方案3:缩小焦点

人们似乎有一种心态,即大数据项目需要非常大的动作。但就像你第一次学习任何东西一样,成功的最好方法是从小到小,然后逐渐扩大。

“他们应该仔细定义他们在做什么,”Heudecker说,“应该选择一个问题域并研究解决它,例如欺诈检测、细分客户,或者弄清楚千禧一代市场中推出的新产品。”

Christopher说:“说到底,你必须问问自己想要什么,或者想要数字化的业务流程。不只是把技术扔到商业问题上,你必须预先定义它。数据湖是必要的,但如果数据湖不会被任何商业人士使用,你就不会想要收集数据。”

在很多情况下,这也意味着不要让自己的公司过度膨胀。 Morrison表示,在他研究过的每一家公司中,只有几百个关键概念和关系是整个企业赖以运作的。一旦你理解了这一点,你就会意识到,所有这些数以百万计的差别只是那几百件重要事情的微小变化。事实上,你会发现许多细微的变化根本不是变化。它们其实本质上是一样的东西,虽然有不同的名字、不同的结构、不同的标签。

解决方案4:抛弃传统

虽然您可能希望使用收集并存储在数据仓库中的那些TB级数据,但事实上您可能更好地服务于为大数据设计的存储系统中新收集的数据,并且设计为未经过处理的数据。

要避免因为企业拥有一项基础设施的许可证而只对现有的基础设施感兴趣。通常,新的复杂问题可能需要新的复杂解决方案。使用企业以往的就工具并不是正确做法,甚至有可能导致大数据项目失败。

Morrison认为,企业应该停止故步自封。他还表示,企业不能再一味依赖供应商为他们解决复杂的系统问题。“几十年来,许多人似乎都认为任何大数据问题都是系统性问题。但当面对复杂的系统变化时,企业必须建立自己的解决方案。

Image placeholder
ivothgle
未设置
  29人点赞

没有讨论,发表一下自己的看法吧

推荐文章
建立开放的大数据精准扶贫平台,让全社会参与进来!

精准扶贫”的重要思想最早是在2013年11月,习近平主席到湖南湘西考察时首次作出了“实事求是、因地制宜、分类指导、精准扶贫”的重要指示。2015年6月,习近平主席在贵州召开部分省区市党委主要负责同志座

SACC2019:爱奇艺的大数据中台战略(附演讲实录)

  孙斌爱奇艺高级总监主要负责爱奇艺的大数据中台、商业智能、内容智能制作等业务。在互联网产品设计和研发方面有十多年经验,曾就职于微软、hulu、雅虎等公司。摘要:爱奇艺的业务已经从单一的视频业务发展为

HPE收购MapR,以Hadoop供应商为首的大数据时代落幕

Hadoop三驾马车之一的MapR陷入困境后终于有了着落,今年5月底MapR宣布由于“业绩极差”将被迫关闭公司,MapR给自己设定寻找资金的最后期限是7月3日,一个月后MapR被HPE收购。8月5日,

那些你总是记不住但又总是要用的css

课程推荐:Java开发工程师--学习猿地精品课程 有没有经常遇到一些样式每次写都要用百度呢?我收集了一些我平时经常要用到的但又总是记不住的样式。有错误的地方欢迎指正。转载请注明出处。一、设置input

云服务已占企业网络流量的85%

来自云安全公司Netskope的一份报告显示,云服务目前已占企业网络流量的85%。云服务落地加快,主要由跨组织的协作驱动,需要多个云服务来支撑。在前20个云服务中,云存储和协作应用占据了榜单首位,一些

拥抱Wi-Fi 6!锐捷RG-AP850-I无线AP评测

对于企业来讲,Wi-Fi的重要性是不言而喻的,如果没有网络,企业业务或将无法正常运转。而随着技术的不断革新,无线协议也在不断进行升级,从802.11n到802.11ac以及802.11acWave2,

分层存储超详细解读,为什么大数据时代它已不可或缺

如今,分层存储已成为了一种常见的存储方法,它将数据存储在具有不同特性(如性能、成本和容量)的不同存储介质上。不同的存储媒介被分配到不同的层次结构中,其中最高性能的存储媒介被认为是第0层或第1层,然后是

大数据时代,数据湖并不能完全取代数据仓库

数据仓库为组织了解其历史业务表现和推动持续运营提供了一个接入窗口,为数据分析师和业务用户提供了诸如客户行为、业务趋势、运营效率和销售等方面的信息。尽管出现了基于Hadoop和其他一些大数据技术的数据湖

【数据结构】1_进阶高手的大门

理解程序的本质问题:为什么会有各种各样的程序存在?程序的本质是什么?程序是为了解决实际问题而存在的,从本质而言,程序是解决问题的步骤描述。一小步的进阶:理解实际问题 确认问题类型 如:数值计算,求最

大数据实战之千万量级小说网站项目开发(存储、复杂搜索、推荐、分析)

推荐课程:web全栈开发就业班--拿到offer再缴学费--融职教育 大数据实战之千万量级小说网站项目开发(存储、复杂搜索、推荐、分析)随着时代的发展,小说已经成为了许许多多的人减压放松的目的,一部小

从关系型数据库到分布式机器学习,揭秘腾讯大数据十年发展历程

大数据技术在过去10多年中极大改变了企业对数据的存储、处理和分析方式。如今,大数据技术逐渐成熟,涵盖了计算、存储、数仓、数据集成、可视化、NOSQL、OLAP分析、机器学习等丰富领域。在未来,大数据技

大数据是个技术,数据库才是它最好的产品形态

星环科技(以下简称:星环)的定位是大数据基础软件公司,而非数据库公司,却在数据库方面,做的比很多数据库公司更好更猛?这是为何?“我们认为,大数据是个技术,数据库才是它最好的产品形态”,星环科技研发总监

做银行家里的数据专家:ING探索大数据时代下的金融最佳实践

大数据文摘出品记者:高延6月18-21日,O’ReillyAIConference在北京召开。大会上,来自荷兰的金融公司ING的IT主管BasGeerdink带来了《关于数字驱动企业》的主题分享。进入

5G迎来黄金时代 WLAN市场的大动作

5G已经到了呼之欲出的时候,WLAN市场又有什么大动作呢?2019Navigate领航者峰会于近日在重庆完美落幕。回顾此届大会,作为中国企业级WLAN市场的领导者,新华三无线领域有哪些重磅发布?展望未

包银消费CTO汤向军:消费金融大数据风控架构与实践

01风险在哪里1.1 信用风险根据银行业的风险理论,信用风险是指借款人因各种原因未能及时、足额偿还债权人或银行贷款而违约的可能性。信用风险的风控重点在于,甄别客户违约的原因究竟是还款能力,还是还款意愿

耗时6年生成代码1.6亿行,农业银行大数据平台打造攻略!

摘要: 耗时6年,135个项目,8000页需求,累计投入11000多人月,生成的代码行1.6亿行,支持了8大业务领域,33条业务线,120多个应用场景,这就是中国农业银行大数据平台。近日,中国人民银行

大数据推动教育产业创新发展

《大数据时代》作者维克托•迈尔-舍恩伯格教授著作《与大数据同行:学习和教育的未来》一书指出:当下大数据正悄悄影响到教育体系的每个层面,对于全世界的学习与教育活动,都会产生极为深远的影响。AI辅助教学,

大数据对移动应用开发的影响

大数据如何影响移动应用程序开发?目前,数据量正以前所未有的速度在增长。由于产生的总数据将在几年内跨越泽字节级别,因此更加需要进行大数据高级分析,并从庞大的数据池中获取有价值的信息。数字互联为移动应用开

判菜系、调众囗、打分数,这一回,我们用大数据烧菜?

大数据文摘投稿作品作者:blmoistawinde年前,文摘菌曾经扒下了全网所有“年夜饭”菜谱,找到了最有年味的一道菜的一文,对于菜谱数据分析产生了浓厚的兴趣,遂自己也写了个爬虫爬取了某美食网站的一些

1000亿文本信息,高并发MD5查询,这么大数据量的业务怎么弄?

==提问== 沈老师,你好,想请教一个身份证信息检索的问题。公司有一个每秒5万并发查询的业务,(假设)根据身份证MD5查询身份证信息,目前有1000亿条数据,纯文本存储,前几天看你写LevelDB,请

税务信息化跨入大数据云计算时代的思考

现状,目前据了解国税总局执行征收管理、行政管理、决策支持和外部信息等四大类应用系统在全国的推广部署,实施大数据开放与共享的建设与开发,已经完成2个国家级税务处理中心的扩容,包括计算存储资源、系统软件及

百分点万亿级大数据平台的建设实践

从互联网、移动互联网到物联网,数据量之巨大已突破想象边界。与此同时,实时数据分析的需求日益增长,那么,当数据量达到亿级、百亿级甚至万亿级规模,实时数据分析如何来做?尤其在ToB/G来说,大多数企业和政

当前政府发展大数据产业思路分享

笔者认为大数据发展大体会经历三个阶段,一、业务的数据化;二、数据的业务化;三、业务的智能化。2018年,各地方政府包括企业通过这几年的大数据建设,基本完成了业务的数据化、和数据开放共享的第一阶段,20

穿过大数据迷雾 星环科技六载航行

数据是国家基础性战略资源,是21世纪的“钻石矿”与“新石油”,是几乎所有企业的必争之地,大数据的发展使越来越多的企业看到数据的价值。然而中国企业数据底子薄弱,基础软件发展落后,需要更多的企业和人才去建

电信行业如何应对大数据挑战?

根据思科的预测,到2022年,移动数据将达到每月77艾字节。虽然大多数人不会考虑他们每天产生的大量数据,但电信公司对此了如指掌。同时,物联网、智能设备和新内容平台也让电信公司面临着数据冲击。为了将数据