需要大数据么?

2016.9.28

这篇 blog 是写在2013.8.4,我觉得个人其中大部分的观点还是正确的,不过,这三年大数据以及相关技术的确发展的很快,更多的应用场景也被挖掘出来。看来是要重新写一点文字了。不管是机器人还是人看到这些文字,都可以。

—-

2013.8.4

下面这些问题不是给纯粹技术人员看的,也不是给纯粹业务人员看的,如果你想在业务中引入大数据,那么可以冷静的思考一下。

1 大数据和传统数据有什么差别。

首先是数据量的差别。我觉得1亿条数据或者1T数据是一个分界岭,oracle、sql server,以及mysql等对于1亿条的数据还是可以很好的支持的,但是在应用层面如果设计的不是很好会有点瓶颈。还有就是数据增量的问题,如果一个月里面1亿条变成2亿条了,那么就开始准备大数据吧。

其次是需求。大数据讲的是通过数据来进行挖掘、建模和产生效益,传统的数据也有BI等,但是更多的报表汇总等。这一点我始终觉得是大数据时代和传统数据时代区别最大的地方,大数据时代侧重于从海量数据中产生价值,并且不需要抽样,处理的是全数据,且是实时或者准实时,并且是性价比较高的方式。

2 大数据要花很多钱么?

传统的应用设计模式,对于每天能产生百万条记录本身也要花费不少钱的,当然能够产生这么多有价值数据(特别是交易记录)的话,你的商业模式也会不差,所以有趣的是在国内,很多大数据应用都是在电商,比如淘宝、亚马逊、1号店等。

除了基础设施,主要的开销就是在hadoop、服务器和网络、分析软件和人上面了。并不是想象中那么便宜,即便hadoop是免费开源软件,光是hadoop的基础服务器群,就不少预算。阿里贷据说搭建了2000台服务器的hadoop集群。性能是需要硬件支撑的。分析软件、二次开发、运营维护等等,不会是键盘上一个键按下去,就搞定了这样的好事。(我们有一个使用mongodb的最小集群进行map/reduce计算的实际使用场景,至少我个人觉得周期并不短)

3 大数据到底带来什么?

前面说了一点,如果用得好,我们可以准实时(5s里面)获得所有需要的数据,并且是有各类基于维度统计、统计模型、自定义的计算。这也是令传统数据库产业链惊慌的,因为互联网、因为智能手机,产生了大量的数据,所以终于需要分析了。数据不再匮乏,怎么用倒是成了一个问题。

我们可以根据用户、交易的行为,通过建模得出我们想要的用户行为模式或者用户资料,然后在营销中得以实践,并不断修正模型。除了传统理解的数据以外,大量的非结构化数据一样可以纳入大数据的计算范畴,比如微博的记录、电子邮件的内容等等。

One thought on “需要大数据么?

  1. Pingback: 又想起了大数据这个时髦的名词 | 创意纪

Leave a Reply