今夜,我们聊聊大数据(2) – 多大才算大

这几年,IT圈内,谁不说说大数据和云计算,感觉就是落伍了。这样的名词还有很多,包括O2O、乔布斯等。浮躁之心的确是我们难以逾越的心魔。

大数据技术肯定有其存在的道理,Google、Apache等世界顶级的IT公司和组织为此做出了卓越的贡献,我坚决的不认为大数据是一个伪命题,并且大数据和相关的技术已经为我们展现了其魅力。但是为什么,还是让我们困惑:

1. 多大才算大数据?
2. 大数据用在哪里?
3. 大数据和传统的数据库技术有什么区别?

关于什么是大数据有标准答案后面会说到,所以先来简单回答一下第二个问题。

谈及大数据一定是有应用场景的,肯定不是所有的数据库应用场景都需要和能使用大数据技术的。

数据的使用,在于应用场景和价值体现,而不是炫技。某些hadoop,或者spark系统的举例可以只加载了几千行的数据,但这是举例。一般来说,数据量没有达到1T规模的,用传统的数据技术在绝大多数场景下都可以满足应用。

维基百科中文版给的定义是: 大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。“庋用”是一个很不常用的词语,对照英文版的定义:Big data usually includes data sets with sizes beyond the ability of commonly used software tools to capture, curate, manage, and process data within a tolerable elapsed time. “curate”也可以翻译成“策展”,用英文解释这个词更加明白一些:select, organize, and look after the items in (a collection or exhibition).

维基百科指出到大数据的大小经常改变,截至2012年,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。

像在我们公司的一些主要应用,一个应用有几十乃至百来张表是很正常的,光用记录行数只能描述数据库的部分复杂度,而数据的容量的确是最客观的一个指标。从数据量来说,我们公司的业务数据差不多在2T左右,每天增加的量在1G左右,当然随着业务量的飞速发展和数据越来越多,增速很快。

我觉得谈大数据,至少需要1-2T这样的数据量,那么后面说到的大数据技术就可能比较合适了。维基上说得好:指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息。在总数据量相同的情况下,与个别分析独立的小型数据集(data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等;这样的用途正是大型数据集盛行的原因。

小结一下,大数据和传统数据最大的区别就是数据量要大,并且需要在指定的时间(当然越快越好)内完成复杂的处理。从目前来说,数据量的底限至少是1T。只有合适的应用场景才需要大数据技术。

worldrecord_pb_01S-360x200

worldrecord_pb_02S-360x200

worldrecord_pb_03S-360x200

接下来,让我们追本溯源,谈谈大数据的由来,hadoop等一堆名词的意义。

图片来源:Sybase IQ: A World Record in Pictures

Leave a Reply