大数据漫谈
进入2012年以来,大数据(Big Data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据。正如《New York Times》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
大数据为我们生活、思维、工作带来了巨大的改变,大数据时代的开启是一个时代的重要的转型。它将决定着企业的未来发展,尽管现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。
那么,大数据究竟有什么意义呢?或者说,我们如何用大数据来探索和分析世界呢?简单举个例子来说,在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《Nature》杂志上发表了一篇引人注目的论文。它令公共卫生官员们和计算机科学家们感到震惊。文中解释了谷歌为什么能够预测冬季流感的传播:不仅是全美范围的传播,而且可以具体到特定的地区和州。谷歌通过观察人们在网上的搜索记录来完成这个预测,而这种方法以前一直是被忽略的。谷歌保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令, 如此庞大的数据资源足以支撑和帮助它完成这项工作。发现能够通过人们在网上检索的词条辨别出其是否感染了流感后,谷歌公司把五千万条美国人最频繁检索的词条和美国疾控中心在03年至08年间季节性流感传播时期的数据进行了比较。其他公司也曾试图确定这些相关的词条,但是他们缺乏像谷歌公司一样庞大的数据资源、处理能力和统计技术。
可能有人不理解,数据多就是大数据吗?目前比较流行的一个定义大数据的标准就是4V,即数据量大(Volume)、数据种类多样(Variety)、 要求实时性强(Velocity) ,蕴藏的商业价值大(Value)。对于这样具有4V特征的大数据,我们要怎么处理和分析呢?传统的数据处理主要应用统计学的基本模式,比如随机抽样和正态分布等。随着大数据时代的到来,大数据的处理方法方法也发生了变革。比较大的变化可以体现在以下几点:
(1)样本=总体
随着数据收集及分析处理能力的提高,很多时候能够进行全数据的处理,而不需要抽样。其优点是更精确,更全面,能够注意到小概率事件。比如谷歌流感,医疗保险欺诈预警,汇款欺诈预警等。
(2)关注小概率事件
在处理传统数据时,随机抽样是不可能发现小概率事件的。比如疾病的发现与人体基因中的基因异常,针对个人的个性化销售,故障预警中小概率故障事件等等。那么,在进行大数据分析时,大数据将着重关注这些大概率事件的发生。
(3)非正态分布的分析方法
大家知道,总体而不是样本的分析会带来非正态分布。因此,在进行大数据分析时,一些非正态分布将会运用其中,比如收入财产分布,社会行为,复杂网络,股票价格波动等。
总体说来,大数据处理方法来源于现有的人工智能,机器学习,包括统计,数学,物理的方法很难单独定义。 (作者:沈阳自动化所数字工厂研究室傅洋)
附件下载: