Hadoop 气数已尽?

本文转自 | 过往记忆大数据

Hadoop

我先从一个悲观的观点说起:Hadoop 正在迅速失去市场,我们可以从 Google 趋势走向看出这个现象:


如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop

下面的炒作生命周期表也上面的趋势很类似:


如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop

看起来 Hadoop 正处于炒作图的下坡轨道上,正在走向灭亡。我们都知道前段时间 Cloudera 已经收购了 Hortonworks,这意味着市场上最大的两个 Hadoop 厂商现在只有一个。尽管收购成功进行了,但是 Cloudera 远未在股市上取得成功,特别是6月6日 Cloudera 的股价几乎腰斩:


如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop

从本质上讲,市场上只剩下一个主要的 Hadoop 服务商 Cloudera。如果我告诉你 Cloudera 很久以前就不是主要搞 Hadoop 的呢?这是一个有趣的事情:根据互联网档案,过去几年中 Cloudera 首页(http://cloudera.com)上出现“Hadoop”这个词的次数如下:

  • 2008年 – 4次
  • 2009年 – 11次
  • 2010年 – 29次
  • 2011年 – 37次
  • 2012年 – 23次
  • 2013年 – 9次
  • 2014年 – 4次
  • 2015年 – 8次
  • 2016年 – 6次
  • 2017年 – 1次
  • 2018年 – 1次
  • 2019年 – 2次

如今,Cloudera 在其网站首页以粗体字写着:“我们为任何数据提供企业数据云,从 Edge 到 AI ”(We deliver an Enterprise Data Cloud for any data, anywhere, from the Edge to AI)。我们可以清楚地看到焦点的转变 – 不再是 Hadoop 和 CDH,不再是大数据。现在他们做企业云和人工智能,只能在 “Quickstart VMs” 连接进入的页面上找到对 CDH 相关的东西。

但是 Hadoop 真的很糟糕吗?一点也不!事实上,这并不是 Hadoop 在走向终结,而是“大数据”的炒作。在介绍这个之前,让我们先来看看 Apache Spark。

Apache Spark

Apache Spark 是搭上“大数据”最后一班车的成员,下面是 Apache Hadoop 和 Apache Spark 的 Google 全球搜索趋势:


如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop

从图中可以看到,Spark 最近几年迅速崛起,与 Hadoop 并列成为大数据最火的框架。基于此图表,我们可以清楚地看到它已经达到了“大数据”市场的上限。这意味着没有更多的水平增长空间,唯一的前进方法是垂直增长。这就是为什么 2019 年我们不再有 Spark Summit,而出现一个闪亮的新 Spark + AI 峰会。

Big Data

大数据是处理大量数据的问题。但这个词被大肆炒作,现在它有明显的消极成份。在炒作的高峰时期,任何东西都可能被贴上“大数据”的标签来提升销量。然而,很明显“大数据”本身并不是一件事,并且本身没有任何价值。

“大数据”是 2000-2005 年几个大型互联网公司所面临的问题。在那个时间点,这是一个非常具有挑战性的问题。没有关于如何处理它的知识,当然也没有这样做的开源解决方案。许多大型互联网公司已成为该行业的领导者,并向我们赠送了我们现在称之为“大数据”的东西:谷歌的 GFS,MapReduce 和 BigTable,雅虎的 Hadoop,Facebook 的 Cassandra 和 Hive,Twitter 的 Storm,LinkedIn 的 Kafka。大型互联网公司通过发明新方法和工具来利用他们必须处理的大量数据来推动革命。它们中的许多公司都开源了它们的软件,使得这些软件可供全世界使用。这是一个关键时刻,因为它诞生了一系列创业公司,其使命是将所有这些解决方案出售给传统企业。其中包括 Cloudera,Hortonworks,MapR 和其他许多公司。

围绕“大数据”的炒作很大程度上是由于上述创业公司对其营销的巨额投资以及传统企业中 IT 人员的短视而造成的。市场营销已经利用了大型互联网公司生产的“大数据”技术与该公司的成功之间的联系。他们的营销材料并没有直接说明这一点,但它的字面意思是“使用 Cassandra 并且像 Facebook 一样成功”,“使用 Kafka 并达到 LinkedIn 的规模”,“使用 Hadoop 并变得像 Google 一样富有”。总体而言,“大数据”并不是在销售技术,而是将大型 IT 巨头的成功卖给传统公司。

不出所料,许多企业正在购买这些技术,并在其堆栈中实施这些技术。由于这一实施,他们通常大胆宣布他们正在利用“大数据”的力量,他们的企业在这个问题上取得了进步。然而,通常实现本身更像是一个实验 – 除了主要的数据处理管道之外,一些小而孤立的案例,甚至可能无法交付给生产并保留在 PoC 或 MVP 级别。

然而,许多小型企业正在购买大型企业的这一信息及其成功案例,并将其资金和努力投入到“大数据”中。通过这种方式,大肆宣传成为一种大雪球,越来越多的资深人士直言不讳或不能说出完整的真相,营销人员利用他们的话语(有时会删除重要的背景)来进一步推广他们的解决方案。

一个时代的结束

所以,我并不是说一些新的突破性技术已经取代了“大数据”,我也不是说 Hadoop 不再是一种可行的技术,不再值得投资。我说的是“大数据”时代即将结束,从炒作的高峰下降到最低点。新的趋势 AI 和 ML,已经取代它们,生命的循环再次开始,新的技术在炒作图上攀升,营销人员推销新软件,以科技巨头的成功为代表,以及传统企业购买这种软件,消灭了下一个科技泡沫。

Hadoop 时代真的结束了吗?

并没有!Hadoop 是一项伟大的技术,但它本质上是一个很好的解决方案,但是只有少数企业真正需要它。作为一项技术,它与提供替代大规模存储解决方案的主要云厂商竞争:AWS 包含 S3,GCP 包含云存储,Microsoft 包含 Azure 存储等。云计算一点一点地吞噬了自建部署市场,云计算提供商及其分布式存储解决方案在我看来是 Hadoop 的主要竞争对手,Hadoop 未来将面临更多的挑战。

本文翻译自:https://0x0fff.com/hadoop-the-end-of-an-era

Image placeholder
ghopwe
未设置
  79人点赞

没有讨论,发表一下自己的看法吧

推荐文章
Hadoop YARN:调度性能优化实践

背景YARN作为Hadoop的资源管理系统,负责Hadoop集群上计算资源的管理和作业调度。美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。离

HDFS 源码解读:HadoopRPC 实现细节的探究

桔妹导读:HDSF作为分布式文件系统,常常涉及DataNode、NameNode、Client之间的配合、相互调用才能完成完整的流程。为了降低节点之间的耦合性,HDFS将节点间的调用抽象成不同的接口,

合理建立Hadoop数据库的7个步骤

数据湖的概念起源于大数据的出现——且数据已成为企业的核心资产,Hadoop则是作为存储和管理数据的平台而出现。但是,盲目地投入Hadoop数据湖建设并不一定会使您的企业进入大数据时代——至少不是以一种

HPE收购MapR,以Hadoop供应商为首的大数据时代落幕

Hadoop三驾马车之一的MapR陷入困境后终于有了着落,今年5月底MapR宣布由于“业绩极差”将被迫关闭公司,MapR给自己设定寻找资金的最后期限是7月3日,一个月后MapR被HPE收购。8月5日,

浅析RunLoop原理及其应用

引言:一个APP的启动与结束都是伴随着RunLoop循环往复的,不断的循环、不断的往复。当线程被杀掉、APP退出后被系统以占用内存为由杀掉,RunLoop就消失了。但平时开发中很少见到RunLoop,

React Developer Tools是什么?

ReactDeveloperTools是一款由facebook开发的有用的Chrome浏览器扩展。通过它我们可以查看应用程序的React组件分层结构,而不是更加神秘的浏览器DOM表示。注意:该插件只对

Python 面向对象 OOP-三大特性笔记

面向对象的三大特性:封装,继承,多态 封装 封装就是使用特殊的语法,对成员属性和成员方法进行包装,达到保护和隐藏的目的但是一定注意,不能把成员全部封装死,就失去意义了被封装的成员主要是供类的内部

Python 面向对象 OOP-三大特性笔记

面向对象的三大特性:封装,继承,多态 封装 封装就是使用特殊的语法,对成员属性和成员方法进行包装,达到保护和隐藏的目的但是一定注意,不能把成员全部封装死,就失去意义了被封装的成员主要是供类的内部

Google 21 岁生日,一文回顾 Google 发展史

9月27日,谷歌在Google搜索引擎首页庆祝自己21岁生日。 在涂鸦存档上,谷歌发布了一封庆祝信: 21年前,两位斯坦福大学博士生谢尔盖·布林和拉里·佩奇发表了一篇有关启动“大型搜索引擎”原

SpringBoot个人应用开发框架(SpringBoot版本2.1)+IDEA

前言: 此笔记为本人首个SpringBoot项目框架学习实践记录,期间参考了许多大神的笔记和心得。 参考文档如下: 项目git地址: 一、创建SpringBoot工程 1.1创建父POM工程结

再见 Spring Boot 1.X ,Spring Boot 2.X 走向舞台中心

2019年8月6日,Spring官方在其博客宣布,SpringBoot1.x停止维护,SpringBoot1.x生命周期正式结束。其实早在2018年7月30号,Spring官方就已经在博客进行过预告,

使用 Docker 部署 Spring Boot 项目

Docker技术发展为微服务落地提供了更加便利的环境,使用Docker部署SpringBoot其实非常简单,这篇文章我们就来简单学习下。首先构建一个简单的SpringBoot项目,然后给项目添加Doc

自己撸一个 LaraDock(使用 Docker LNMP 部署 PHP 开发环境)

项目简介 DockerLNMP是基于docker-compose开发的运行在Docker上的LNMP开发环境,包含PHP、MySQL、Redis等镜像并支持多版本切换,满足您的学习、开发和测试需求。

shadow DOM 浅析

引言 Shadow-dom游离在DOM树之外的节点树,但是他的创建基于普通DOM元素(非document),并且创建后的Shadow-dom节点可以从界面上直观的看到。更重要的是,Shadow-do

opcode 操作数 5 中不同的类型

zend_op_array.opcodes指向指令列表,具体每条指令的结构如下: struct_zend_op{//*opline*opcodes constvoid*handler;//指令执行ha

PHP Opcache 注意事项以及调优

从PHP5.5开始,Opcache扩展是核心的一部分,增加了对PHP脚本的字节码缓存的支持。对于动态语言(例如PHP),字节码缓存可以显著的提高性能,因为它可以确保脚本仅被编译一次。 Opcache扩

Laravel shop 5.8 关于面包屑 category 为空,前端页面报错问题。

进入本章的:3.体验优化现在商品列表页还比较简陋,接下来我们就要针对类目做一些前端方面的体验优化。类目面包屑前面测试还正常,地址栏输入 还能正常获取到商品信息,自从前端的商品index模板中加入了

【新加坡】[30k-60k] 领航电商平台 Shopee 招聘技术职位

【Base新加坡】泛东南亚最大电商平台,新加坡知名团队,国际化平台,富有竞争的薪资,享受新加坡优质生活环境及教育资源,公司申请EP,属于技术引进性人才签证。可携带家人一起前往新加坡工作生活,配偶可在新

【新加坡】Top 电商平台技术职位招聘

地点新加坡,泛东南亚最大电商平台,新加坡知名团队,国际化平台,富有竞争的薪资,享受新加坡优质生活环境及教育资源,公司申请EP,属于技术引进性人才签证。可携带家人一起前往新加坡工作生活,配偶可在新加坡工

【新加坡 Top 电商平台技术职位招聘

地点新加坡,泛东南亚最大电商平台,新加坡知名团队,国际化平台,富有竞争的薪资,享受新加坡优质生活环境及教育资源,公司申请EP,属于技术引进性人才签证。可携带家人一起前往新加坡工作生活,配偶可在新加坡工

4分钟看尽Top编程语言15年沉浮:C#默Java泪,Python终上位!

大数据文摘出品作者:宁静哪种编程语言最火爆?在不同的时代,这个问题也有着不同的答案,而一部编程语言的使用人数变迁史,实际上也是一部计算机世界的成长编年史。一位名叫PYPL的油管up主很尽心地统计了从2

DevOps平台之看板设计

转载本文需注明出处:微信公众号EAWorld,违者必究。引言:在DevOps的研发过程中,好的看板功能有助于优化项目管理、提升开发效率,是较重要的功能之一。本文从需求分析角度入手,分析DevOps产品

2019值得关注的数据可视化工具TOP5

 数据可视化在数据分析过程中的扮演着非常重要的角色。对于数据科学家或数据分析师来说,以更直观、便于查看、甚至更吸引人的视觉效果来呈现数据是很重要的。数据可视化是一个有效的市场工具,通过这种方式,从海量

红帽OpenShift得到IBM、AWS和Azure的支持,生态能力正不断扩大

继IBM在11月6日宣布,IBMCloudPaks容器云的底层技术通过红帽OpenShift来支持后;AWS也于11月7日表示,原生集成AWS服务的红帽OpenShift容器平台已可用于由光环新网技术

云数据管理会成为DataOps的未来吗?

如今,现代化的数据管理平台正在成为企业的首先,而传统的数据运维应用平台则逐渐被边缘化。尤其在AI和机器学习技术的推动下,企业数据正在走向以云为核心的数字化征程。根据思科的一份数据显示:到2021年,企