分层存储超详细解读,为什么大数据时代它已不可或缺

如今,分层存储已成为了一种常见的存储方法,它将数据存储在具有不同特性(如性能、成本和容量)的不同存储介质上。不同的存储媒介被分配到不同的层次结构中,其中最高性能的存储媒介被认为是第0层或第1层,然后是第2层、第3层等等。

0层或1层通常是由闪存或基于3D Xpoint技术的固态硬盘(SSD)组成,以此往下的存储层可能涉及高性能光纤通道或SAS驱动器(或RAID阵列),较低性能的SATA驱动器、光盘、磁带存储系统和基于云的近线(nearline)或离线存储系统。

在SSD和云存储普及之前,使用磁盘和磁带来提供第1层、第2层和第3层存储的3层存储模型可能是最流行的分层存储模型。

但是现在使用包含5个或更多级别的分层存储模型也并不少见了。每一个层都有细微的差别,从而产生三个关键存储属性的不同组合:成本、性能和容量。

分层存储的目标

如果费用不成问题,企业就可以使用SSD满足所有存储需求,因为它们提供了非常高的性能和可靠性。

但是在现实中,存储成本是非常重要的,因为IT部门需要保证在预算范围内运行,而组织作为一个整体必然要寻求最小化成本和最大化效率。不幸的是,与硬盘驱动器相比,SSD存储更贵,而且比磁带存储贵得多。

这代表我们需要明智地使用SSD,并且只用于存储需要高性能系统使用的数据。不太重要的数据可以存储在更低的成本、更低的性能系统(如HDD)上,很少访问或仅为合规性目的保留的数据可以转移到成本非常低的离线存储系统

因此,分层存储并不是由IT部门的运营需求驱动的,而纯粹是出于财务原因。分层存储系统的目标是通过使用提供最低性能要求的最便宜的存储来最小化存储成本。

分层存储是如何工作的?

只有两个存储层的分层存储系统为存储管理员提供了一个非常有限的选择,即给定数据应该存储在什么地方。如果第2层可以提供这些数据所需要的存储性能,那么可以将其存储在第2层,如果没有,就将其存储在更昂贵的第1层。

分级存储系统有三个层可能会更有效率,因为相同的数据可以存储在第3层如果性能水平足够的话,如果不是那么它可以存储在第2层,再然后是更昂贵的第1层,也就是说有了更多的选择。

实际上,可用的存储层越多,数据块就可以更有效地存储在满足其性能需求的适当存储层中,而不是以不必要的高成本提供不必要的高性能。可以使用诸如创建RAID阵列的技术,用一组不同类型的存储媒介创建新的层。

分层存储系统面临的最大挑战是将数据分类为多个类,这需要确定哪个存储层最适合给定的数据类型,并在数据老化时定期对数据进行重新分类。

这里的关键是,任何给定的数据存储需求可能随时间变化,因此数据存储在分层存储系统中时,数据必须被长期监控,一旦它不再需要当前的高性能,就可以转移到较低成本的存储层。

典型的分层存储数据类型包括:

关键业务数据。这类数据总是需要存储在最高层的存储中,因为它需要支持高速应用程序——可能支持客户事务。访问数据的延迟可能会导致组织失去某些业务,或对盈利能力产生负面影响。对于此类数据来说,性能是最重要的。

热数据。这类数据需要较高级别的分层存储,因为它经常用于CRM、ERP甚至电子邮件等应用,并且需要用于企业的日常运行。在此类存储层中,性能很重要,但是成本也是一个考虑因素。

温数据。此类包括较早的数据,如超过几天的电子邮件或已完成事务的数据。这类数据的访问频率相对较低,但仍然要保证在需要时可以访问。在这个存储层中,最重要的考虑因素是成本,但是受制于最低的性能阈值。

冷数据。这类数据可能永远不会再被访问,但需要将其存档并保留,以符合监管或其他法律要求,或者只是因为它可能在未来某个不确定的时间具有某种价值——可能用于大数据分析。理想情况下,冷数据适合于可接受分钟或小时访问时间的最低层次的分层存储,而低成本是最重要的考虑因素。

显然,手动的存储分层方法可能过于耗时和繁琐,难以成功。因此,大多数分层存储系统依赖于使用层管理系统的自动分层,层管理系统在整个生命周期中监视数据,并在数据冷却时自动将其向下移动。

此软件可能与单个存储系统一起提供并在其上运行,也可能是一个独立的解决方案,它可以直接跨组织的存储基础设施工作,在某些情况下还可以通过云存储网关进入云。

分层存储等级

在一些已经使用存储分层一段时间的组织中,可能会将新的、比现有的第1层更快的存储层视为第0层。但就本文而言,第1层被假定为性能最高的存储层。

第1层

此存储层用于存储高度易失性和时间敏感的数据,这些数据需要在尽可能短的时间内可用。通常用于金融交易环境或其他业务领域,在这些领域中,可能在几分之一秒内生成或丢失比存储成本大得多的资金,存储速度需要尽可能快。因此,不管总体存储效率如何,通常都需要为实现最高性能配置非常快的固态存储介质来搭建第1层存储。

第2层

此存储层用于存储事务性数据,以支持高性能应用程序、面向客户的系统(如零售应用程序)和其他系统,在这些系统中,只能接受极短的延迟。由于所需的性能级别不像1层那么高,因此通常使用更低的成本和更高效的固态存储系统来提供2层存储解决方案。

第3层

第3层用于存储“热”数据,如CRM和ERP数据,甚至是最近的电子邮件,这些数据需要频繁访问,不能出现不必要的延迟。这意味着它需要存储在如中到高性能硬盘驱动器的介质上,与固态存储介质相比,这些介质的成本相对较低。在许多组织中,第3层的数据要比第2层或第1层的数据多得多,所以高容量的硬盘驱动器提供了一个理想的解决方案,它提供了低成本的每GB存储空间。

第4层

这个存储层用于“温”数据,比如最近完成的事务的数据、几天前的电子邮件以及其他不经常访问的数据。它还可以用来存储可能用于业务信息和数据可视化系统的数据,或者用于创建月度、季度或年度报告所需的财务数据。但是无论何时需要,都需要相对快速的访问。第4层存储需求可能非常大,由于成本是主要考虑因素,因此第4层存储的典型解决方案是大容量硬盘驱动器存储。与配置用于性能需求的高性能SAS磁盘或RAID阵列不同,第4层存储更可能使用低成本、相对低性能的SATA驱动器。

第5层

最低的存储层通常用于存档可能永远不会再次访问的“冷”数据,但仍然有一些价值(可能将来用于数据挖掘),因此值得保留。它还用于存储必须为合规性目的而保留的数据,这些数据只需要在几天或几周内访问,而不需要在几分钟或几秒内访问。

光介质或磁带存储系统通常用于这一存储层,它们的存储成本很低,但性能很差。在过去的几年里,基于云的存储已经成为常见的选择,企业可以将大量的数据以低成本的方式存储,或者在需要的时候在几小时内相对容易地获取数据。

分层存储的主要优势

分层存储带来了许多好处,其中最重要的是:

  ·降低存储成本:通过将每个数据类存储在成本最低的存储系统上,并提供其所需的最低性能,企业可以避免为不需要的高性能买单。存储成本的降低是采用分层存储系统的主要原因。

  ·更高的存储效率:依赖RAID阵列的存储系统的效率很低,因为可以存储在这些系统上的数据量比提供的总存储容量要少——甚至在某些情况下要少得多。由于分层存储系统可以缓解RAID的需求(通过将不需要如此高性能的数据转移到较低的存储层),因此存储效率将会提高。

  ·能够重用旧的存储设备: 分层存储可以为旧的存储系统带来新的生命,它们可以用于较低的存储层,否则这些系统可能会因为无法为上层数据提供足够的性能而被废弃。

Image placeholder
zgnMark
未设置
  26人点赞

没有讨论,发表一下自己的看法吧

推荐文章
Oracle SCN机制详细解读

深入剖析–OracleSCN机制详细解读http://blog.chinaunix.net/uid-20274021-id-1969571.htmlSCN即系统改变号(SystemChangeNumb

大数据时代,数据湖并不能完全取代数据仓库

数据仓库为组织了解其历史业务表现和推动持续运营提供了一个接入窗口,为数据分析师和业务用户提供了诸如客户行为、业务趋势、运营效率和销售等方面的信息。尽管出现了基于Hadoop和其他一些大数据技术的数据湖

做银行家里的数据专家:ING探索大数据时代下的金融最佳实践

大数据文摘出品记者:高延6月18-21日,O’ReillyAIConference在北京召开。大会上,来自荷兰的金融公司ING的IT主管BasGeerdink带来了《关于数字驱动企业》的主题分享。进入

HPE收购MapR,以Hadoop供应商为首的大数据时代落幕

Hadoop三驾马车之一的MapR陷入困境后终于有了着落,今年5月底MapR宣布由于“业绩极差”将被迫关闭公司,MapR给自己设定寻找资金的最后期限是7月3日,一个月后MapR被HPE收购。8月5日,

新数据时代下,变革中的浪潮存储

在物理世界与数字世界之间的连通不断扩大、商业形态不断变化的今天,云、大数据、AI、物联网等技术的广泛应用,加速了整个产业向数字化、智能化的转型升级。在这样的时代背景下,合理地存储、使用与管理数据,释放

海量数据时代,磁带存储的“涅槃重生”

   磁带作为大规模非结构化数据的战略性/低成本存储手段,已然经历了一次复兴。由于磁带在快速恢复网站和反勒索软件方面具有较高的价值,所以备份仍然是它的一个主要用例。不过,磁带的未来增长机会更在于一些新

1000亿文本信息,高并发MD5查询,这么大数据量的业务怎么弄?

==提问== 沈老师,你好,想请教一个身份证信息检索的问题。公司有一个每秒5万并发查询的业务,(假设)根据身份证MD5查询身份证信息,目前有1000亿条数据,纯文本存储,前几天看你写LevelDB,请

海量数据时代,金融行业数据库实践难题如何解决?

随着数字经济时代的到来,大数据、人工智能技术得到了快速发展与应用,可以说,各行各业都已全情投入到这一波数字化转型浪潮中,把握新的发展机遇,获取数字红利。其中,金融行业可以说是走在转型之路最前沿的行业之

引领存储新时代——新华三Primera关键业务智能存储

技术的变革,让我们步入数字智能时代。由数据、AI驱动的智能化产业转型正在如火如荼地进行中,金融、工业、医疗、娱乐……智能改变着一切。在IT对于企业已经如此重要的今天,智能也正改变着支撑企业业务运行的底

为什么大部分人做不了架构师?这2点是关键

阿里妹导读:选择有时候比努力重要,真正厉害的人不仅仅是埋头苦干,而是会利用好的思维方式、好的方法,看穿事物的本质,顺势而为,找到事情的最优解,并懂得举一反三。架构师是程序员的目标之一,但大多数程序员无

税务信息化跨入大数据云计算时代的思考

现状,目前据了解国税总局执行征收管理、行政管理、决策支持和外部信息等四大类应用系统在全国的推广部署,实施大数据开放与共享的建设与开发,已经完成2个国家级税务处理中心的扩容,包括计算存储资源、系统软件及

解读2019华为第001号文件:AI时代软件开发的第一要义是可信

晓查发自凹非寺量子位出品|公众号QbitAIAI加持,万物互联、万物智能。我们在享受科技进步的同时,软件开发行业却面临着更大的挑战。过去,软件出现安全问题或许仅仅意味着经济损失,但当走向产业互联网时代

开创万兆组网时代 新华三商用万兆解决方案解读

随着网络技术的不断发展,越来越多的终端设备纷纷接入网络,用户对于高速网络的需求越来越高。网络速率也从10兆到百兆再到千兆一步步得以提升。我们享受了高速网络所带来的极大便利,但这些还远远不够……由于物联

为什么85%的大数据项目总是失败?

企业在推行大数据项目时往往把项目规模和范围做得很大,但是事实却是,很多大数据项目通常都会失败。2016年,Gartner估算约60%的大数据项目都会失败。一年后,Gartner分析师NickHeude

分布式存储时代,横空出世的OceanBase

数据,被誉为新时代的石油。几乎任何一个企业的IT管理者,都会在演讲、采访或其他形式的交流分享中强调数据的重要性。获取洞察、行为预测、市场分析、业务转型升级……数据能够为企业带来巨大的商业价值。但与此同

Go语言高级编程_5.7 layout 常见大型 Web 项目分层

5.7layout常见大型Web项目分层 流行的Web框架大多数是MVC框架,MVC这个概念最早由TrygveReenskaug在1978年提出,为了能够对GUI类型的应用进行方便扩展,将程序划分为:

NAS与对象存储:谁是非结构化数据存储的最佳选择?

非结构化数据是增长最快的数据类型之一。随着企业日积月累地生成、收集和存储越来越多的数据,必然会带来一个问题:什么是存储非结构化数据的最佳方式?直白来说,非结构化数据就是不遵循传统数据库格式的数据,其结

云原生存储和云存储有什么区别?

作者| 李鹏(壮怀)阿里云智能事业群高级技术专家导读:新的企业负载/智能工作负载容器化、迁云、存储方面遇到的性能、弹性、高可用、加密、隔离、可观测性以及生命周期等方面的问题,不但需要存储产品层次的改进

为什么说Kubernetes的崛起预示着云原生时代到来?

现在,云原生、Kubernetes已经成为企业IT领域的时髦概念,几乎所有的企业都在关注;如果不提这些概念,好像企业就会在云市场竞争中失去绝对话语权。那么,云原生和Kubernetes是怎样一种关系?

从关系型数据库到分布式机器学习,揭秘腾讯大数据十年发展历程

大数据技术在过去10多年中极大改变了企业对数据的存储、处理和分析方式。如今,大数据技术逐渐成熟,涵盖了计算、存储、数仓、数据集成、可视化、NOSQL、OLAP分析、机器学习等丰富领域。在未来,大数据技

大数据是个技术,数据库才是它最好的产品形态

星环科技(以下简称:星环)的定位是大数据基础软件公司,而非数据库公司,却在数据库方面,做的比很多数据库公司更好更猛?这是为何?“我们认为,大数据是个技术,数据库才是它最好的产品形态”,星环科技研发总监

《Gartner 2019年数据中心网络魔力象限》报告解读

日前,Gartner发布了2019年数据中心网络魔力象限。此次报告从7个维度(产品或服务、总体生存能力、销售执行/定价、市场反应/记录、营销执行、客户体验和操作),来衡量12个入选企业,并基于前瞻性和

我哪里配置错误,为什么每次都无法正常跳转到支付宝的支付界面?

我每次学这套课程,都卡在这里,过不去。心里好难受~ 以下是我的配置整个过程:以下命令都执行过了。phpartisantinker phpartisanconfig:clear >>>config('p

三个方面告诉你,为什么说传统安全托管服务已过时

随着组织发展其安全程序,其安全环境的复杂性也在增长。复杂性和变化要求采用一种全新的方式来应对现代安全运营中心(SOC)。根据Gartner的数据现实,到2022年,50%的SOC将转变为具有集体事件响

日均5亿查询量的京东订单中心,为什么舍MySQL用ES?

京东到家订单中心系统业务中,无论是外部商家的订单生产,或是内部上下游系统的依赖,订单查询的调用量都非常大,造成了订单数据读多写少的情况。我们把订单数据存储在MySQL中,但显然只通过DB来支撑大量的查