走进数据的历史

作者:陈启焕,某互联网数据分析师

01 数据、信息、知识

数据是当今的热词。很多人的理解中,数据就是数字,其实不然,数据的范畴要大得多,包括数字、语言、文字、图像、视频,甚至是人类活动的行为都可以被认为是数据。数据本身是客观存在的,但是他的范畴是随着社会发展不断演进的。例如在计算机出现以前,文字和语言并不被认为是数据,而现在文字和语言,已是翻译,电子通讯等重要领域的核心数据。

此外,我们还常把数据、信息、知识混淆。简单来说,数据承载信息,知识是系统的信息。数据本是人造物,甚至可以被伪造,没有信息的数据大多没什么意义。数据常常存在噪音,我们需要专业的知识和数据处理能力,才能挖掘出数据中包含的信息。

例如,我们通过测量金字塔墓室的长宽高,得到金字塔墓室的外在数据,但是通过分析,金字塔墓室的长宽高符合勾股定理,这便是我们从数据得到的信息。

知识比信息更加抽象,更加系统。信息可能只在某种场景是正确的,但是如果要上升到作为真理的知识层面,则需要系统的信息。例如,通过测量星球的位置和时间,我们得到数据,通过数据发现,星球的运行轨迹,这就是信息,通过信息,建立模型,总结出开普勒第三定律,这就是知识。

02 数据的历史

讲完数据,我们讲讲大数据。大数据是近几年火起来的热词,数据一直存在,但是为什么最近才出现大数据热潮呢?带着问题。首先,我们讲讲数据的历史。早期的数据从观察总结而来。人类为了生存,崔生出农耕文明,但是古代人耕种过程中常常受沿岸洪水困扰,于是古代人观察天象,记录数据,判断洪水的时间,观察天象数据的过程中又崔生出了天文学。人们观察天文数据–分析数据(1年365天、每隔28-29天月亮变化一个周期等等)–建立模型(地心说、日心说)–预测未来(预测下一次洪水的到来)。所以说,数据从很早开始就给人带来价值,是人类文明的基石。

后来,随着自然科学和基础科学的快速发展,数据扮演了更加重要的地位。各种范式理论的提出,各种数学、物理学、统计学、天文学领域的真理提出,帮助人类了解所处的世界。数据为各种模型的提出和验证必不可少的条件。这个时代崔生出一大批想牛顿、爱因斯坦伟大的科学家,也铸就了一个伟大的时代,工业革命标准化生产的时代,大大解放了人类生产力,促进社会发展。

 计算机的诞生,将世界带入了信息时代。人类产生、获取和处理数据的能力得到大大提升。计算机打破了人类固有的物理距离,网络将世界相连,改变了人们的生活方式,进一步提高了人类生产力。至此,我们会发现,数据在人类文明进程中扮演重要角色,是人类文明的基石。但是为何近几年大数据热才被掀起? 

03大数据热潮的掀起

进入现代,数据的产生更加迅猛,尤其是进入移动互联网时代,每个人,每部手机都是数据来源。数据每年以40%的增量增长。另外,数据的时效性,完备性更强,那么我们说这是大数据热潮掀起的第一个原因。大数据,数据体量大,及时性强,完备性强。

接着,硬件等基础设施的强大。大量的数据产生了,但是我们该如何存储、该如何计算、该如何存储,都是一个很大的问题。幸运的是,随着硬件的不断提升,我们有能力去处理大量数据的存储、计算、传输问题。这便是第二个原因。硬件配套能够支持大数据。

再者,基础理论的进步。随着数据量的不断上升,机器学习、人工智能、深度学习等领域的理论不断演进。这为从大量数据中提取有效信息,发掘价值提供了必要的理论依据。这便是第三个原因,我们对数据的利用处理能力更强了。

最后,通过大数据,智能硬件,智能算法,智能传输,大数据出现了大量的落地场景,尤其是给人类带来了商业化的变革,大数据创造来了巨大的价值。所以说,这是第四点大数据引领了新的变革。综上,大数据在正确的时间,掀起了人类新一轮热潮。

Image placeholder
jonas2019
未设置
  80人点赞

没有讨论,发表一下自己的看法吧

推荐文章
Linux/Unix 基础:Linux 的历史

Linux的诞生 在1991年,来自芬兰Helsinki大学的学生LinusTorvalds认为市场上应该有一个比较统一的Unix版本,从此他就开始为这个项目奋斗。后来这个项目就成为了Linux操作系

华为斥资1.5亿启动金种子计划, ITPUB联合推进数据库生态建设!

9月19日,主题为“鲲鹏聚数,‘芯’融合数据基础设施,使能数字经济”峰会在上海世博展览馆召开。期间,鲲鹏智能数据产业联盟-数据库产业推进组,举行成立仪式!数据库产业推进组,主要由华为牵头,联合产、学、

走进龙岗“智慧大脑” 见证IOC的最佳实践

这里,拥有全球首例地铁5G超宽带车地无线通讯;这里,借助AI、5G、物联网等技术推动工地现场科学化和智能化管理;这里,构建了开放兼容的统一政务云平台;这里,建设了先进、安全、智能的标杆园区;这里,就是

走进希捷无锡工厂 感受智能制造的魅力

希捷,那个硬盘厂商?搞智能制造?没错,不用怀疑,跟我去希捷无锡工厂转一转便知。无锡作为希捷的工厂所在地:这里,是高质量硬盘的诞生地;是希捷创新未来的发源地;在这里,希捷一次又一次突破与创新数据存储;在

【数据结构】2_数据的艺术

程序设计的挑战 利用计算机解决现实生活中的问题 生活中的不同个体之间存在联系 用计算机程序描述生活中个体间的联系 问题:如何描述生活中的个体?数据的概念程序的操作对象,用于描述客观事物数据的特点 可以

Git教程_2.3 Git 基础 - 查看提交历史

在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。完成这个任务最简单而又有效的工具是gitlog命令。 接下来的例子会用我专门用于演示的simplegit项目,运行下面的命令获取该项

五个常用的Bash历史记录操作方式

众所周知,Bash历史记录里有许多快捷方式的记录,让人眼花缭乱。其实这些快捷方式使用起来,可以极大的提高我们学习和工作的效率。如果大家觉得这些方式很难记,可以循序渐进,每天只学一点内容,这样就能轻松掌

历史上最著名计算机病毒,似乎都成了我们的回忆

Windows勒索病毒似乎让全球计算机用户都闻风丧胆,不过这其实真的不算什么。然而令人始料不及的是,即便勒索病毒传遍了100多个国家,也仅仅才收获了5万美金。所以说勒索病毒真的不算啥。历史上比勒索病毒

亿级海量数据的实时读写和复杂查询实践

摘要:本文分享了每日亿级增量数据的实时读写、复杂查询场景实践介绍,涉及MySQL分表分库策略、数据异构、TiDB使用和优化、微服务架构等内容。  作者:黄哲铿  黄哲铿,中通商业CTO,前1号店技术总

搞个大事情,阿里如何实现上亿级数据的精准计数?

背景关系型数据库在执行计数任务时,其执行效率会随着数据量级的增长而降低;当数据量达到亿级别时,计数任务的执行效率已经低到令人不忍直视。在闲鱼团队的关系系统中,我们采用了这样一种方式来实现亿级别数据的毫

滴滴海量离线数据的在线化 — FastLoad

桔妹导读:滴滴自成立以来,有海量的数据存储在离线平台,离线数据虽然存储便宜,压缩比高,但不适用于线上使用。为此,我们提供了一键式DTS平台——FastLoad,帮助业务往在线存储系统搬运离线数据,目前

Oracle 之利用BBED修改数据块SCN—-没有备份数据文件的数据恢复

测试环境 OS:redhat6.6 oracle:12.1.0.2  BBED(OracleBlockBrowerandEDitorTool),用来直接查看和修改数据文件数据的一个工具,是Orac

大数据时代,数据湖并不能完全取代数据仓库

数据仓库为组织了解其历史业务表现和推动持续运营提供了一个接入窗口,为数据分析师和业务用户提供了诸如客户行为、业务趋势、运营效率和销售等方面的信息。尽管出现了基于Hadoop和其他一些大数据技术的数据湖

MySQL 数据库操作:创建和查看数据库

数据库是数据的集合。MySQL允许我们高效地存储和检索数据库中的数据。在MySQL中,我们可以使用CREATEDATABASE语句创建数据库。但是,如果数据库已经存在,则会引发错误。为了避免该错误,我

MySQL 数据库操作:删除数据库

使用MySQL的DROPDATABASE命令可以很容易的删除一个数据库。数据库删除的同时,所属的数据表将一起被删除。如果删除的数据库不存在,则会引发错误。为了避免错误的发生,可以在DROPDATABA

数据表和视图:创建数据表

在MySQL数据库中使用CREATETABLE命令来创建一个新的数据表。创建数据表的命令包括三个要点: 数据表名称 数据表字段名称 数据表字段的定义 创建数据表的语句: 下面是一个创建MySQL数

Laravel-Binlog 扩展(用于实时监听 MySQL 数据变更、数据同步等场景)

Laravel-Binlogv0.2.1 (该扩展当前用于我司测试环境实时同步Mysql数据变更到ElasticSearch,稳定性待测试!!哈哈哈)我司正式环境走的阿里云DTS数据订阅 基于Sw

JS 中一定要了解的数据类型和数据转换

数据类型 前言 Js中的类型只有6种,其中基本数据类型有5种分别为string,number,boolen,null,undefined,引用类型有一种,就是object,object是一个大的综合

JS 中一定要了解的数据类型和数据转换

Js数据类型 前言 Js中的类型只有6种,其中基本数据类型有5种分别为string,number,boolen,null,undefined,引用类型有一种,就是object,object是一个大的

你的公司是需要数据科学家还是数据工程师?差别有点大

越来越多的企业关注AI,企业组织也意识到拥有相关人才和技能非常重要。特别是最近对AI、机器学习(ML)、非ML预测分析和“大数据”的应用,使得数据科学家的需求有了显著的增长,未来还将继续。事实上,对数

腾讯基于全时态数据库技术的数据闪回

作者简介:李海翔,网名“那海蓝蓝”,腾讯金融云数据库技术专家。中国人民大学信息学院工程硕士企业导师。著有《数据库事务处理的艺术:事务管理和并发访问控制》、《数据库查询优化器的艺术:原理解析与SQL性能

从关系型数据库到分布式机器学习,揭秘腾讯大数据十年发展历程

大数据技术在过去10多年中极大改变了企业对数据的存储、处理和分析方式。如今,大数据技术逐渐成熟,涵盖了计算、存储、数仓、数据集成、可视化、NOSQL、OLAP分析、机器学习等丰富领域。在未来,大数据技

大数据是个技术,数据库才是它最好的产品形态

星环科技(以下简称:星环)的定位是大数据基础软件公司,而非数据库公司,却在数据库方面,做的比很多数据库公司更好更猛?这是为何?“我们认为,大数据是个技术,数据库才是它最好的产品形态”,星环科技研发总监

ZILLIZ AI数据中台:打破数据处理瓶颈,释放AI效能

在最近结束的第十届中国数据库技术大会(DTCC2019)上,ZILLIZ得到了众多专业评委的一致认可,获选为“2019中国数据库技术年度评选——年度创新企业”。这家成立于2016年的企业,凭借对技术发

平安科技数据库总经理汪洋:开源数据库在平安的应用实践

本文转自| 平安科技数据库产品团队2019年5月9日,平安科技数据库产品及存储产品部总经理在第十届数据库技术大会DTCC上分享了《开源数据库在平安的应用实践》,本文根据演讲内容整理,围绕以下几个方面进