大数据时代的重点所在?
2012年,“大数据”是一个抓住了上到国家政要下到普通老百姓眼球的热词。随着技术的进步,数据获取成本、数据存储与处理成本都在以指数的速度迅速下降,普通老百姓都能感觉到数据将对人们的生活产生至关重要的影响。虽然,人们谈大数据时往往都会谈及利用Hadoop等新兴技术对海量数据处理等技术问题,也会谈及Facebook、Google等公司所处理的PB级别数据的问题。但是,正如周涛教授所言,大数据的核心问题在于预测。电子商务网站通过数据预测顾客是否会购买推荐的产品;信贷公司通过数据预测借款人是否会违约;执法部门用大数据预测特定地点发生犯罪的可能性;交通部门利用数据预测交通流量。但是,预测不是大数据时代才有的新问题,它是人类本能的一部分。心理学家认为,对世界一致性观点的需求以及对环境控制力的需求是人类的两个基本需求,而在此基本需求驱动下,人类像“朴素的科学家”(na?ve scientist)一样行为,理性地合乎逻辑地验证自己关于世界的假设。即使原始人通过他的切身体会也可以知道,如果将手伸到火中将会被烫伤。这样,原始人根据其直接经验可以构建关于火与烫伤之间关系的关联模型。数字是人类直接感觉的延伸,正如麦克卢汉所说,“数字是我们最亲密的、相互关系最密切的(触觉)的延伸与分离……古代世界不可思议地将数字与物质实体的性质联系在一起,与事物的因果关系联系在一起……科学始终倾向于将一切客体量化……(数字是)我们的中枢神经系统在电力时代的延伸。”而未来无所不在的传感器将构成地球的中枢神经系统(Central Nervous System for the Earth CeNSE)。这个地球的中枢神经系统使得人们能够超越其直接体验,感知到来自地球每个角落的讯息,这些形式多样的、海量的、快速的(Variety、Volume、Velocity)信息流将构成大数据时代的主要特征。而人们将基于这些信息理解世界,构建与验证关于世界的新的假设,并以此为基础进行预测,并采取行动。
但是,与科学研究中以求真为目的的构建模型不同,大数据时代的模型构建将更加以务实为目的,即遵循统计学家George E. P. Box的观点“本质而言,所有模型都是错误的,只是有些模型更有用”(Essentially, all models are wrong, but some are useful)。大数据时代的很多模型都是为了指导商业决策而设的,而商业决策通常会影响决策者的利益。所以,一个模型是否正确不是最重要的,重要的是决策者对这个模型有多大的把握,决策者能否从这个模型中获利。所以,大数据时代中最为关键的应该是基于数据的模型能否说服决策者据此进行决策,并且帮助决策者改善决策赚取相应的利润。前者表现为决策者愿意将多少钱押在这个模型上,而后者表现为这个模型在现实中的表现如何。所以,如果让读者你参加本文开始所设计的假想赌局,无论约翰博士看起来多么专业也不能阻止读者更相信胖托尼的模型,因为毕竟这涉及到真金白银。胖托尼也许在最初和约翰博士一样,相信硬币正反面朝上面落地的概率各是50%。既然所有模型都是错的,但是胖托尼能够利用他所观察到的硬币一次次正面朝上落地的事实修订他的模型,使其越来越接近真实情况。而约翰博士仍然抱残守缺,固守着他的50%的最初假设。 (编辑:ASP站长网) |