大数据目前存在五个大挑战
大数据现在非常热,美国白宫任命的委员会近日发布大数据政府报告,而中国央视在两会中有大数据的专题,网络中的大数据分析报告也比比皆是,从百度迁徙看“东莞挺住”,到马年春晚的大数据分析。大数据正在从一种理论思考,演变成跨越社会各领域的实践行为。
但大数据真的这么美吗?如何让数据说真话?当一切美好的讨论需向现实兑现,大数据背后的泡沫,将成新的困惑。大数据目前存在五个大问题。
\
数据真实性。官员要政绩、学界要交差、商界要名利。注水性数据导致硬数据软化。基尼系数、博主粉丝量、复兴指数,为何一直在被质疑?凡数据造假能获利,则数据极可能有假。越来越多的软件自动发布信息,使得大数据也是真假难辨。数据背后的细节,数据源的真实、全面以及处理过程的科学,是大数据走向权威和可信的重要保障。
样本代表性。我们不可能搜集到全数据,而与大数据相关的形容词往往是大规模、精准、细化,在调用如此“完美”的数据时,如何注意情景和样本的适用性。正如网络民意与现实民意的讨论,微博不代表网络,网络不代表社会,朋友圈也是小圈子,跳出圈子看世界不容易,切勿陷入相同的悖论。在选样、测量、误差校正不尽如人意时,好数据将劣化,大数据将虚化。
相关性误差。利用大数据,基于一定算法和模型对变量元素进行相关性分析,在要素构成简单的情景中可以,在复杂系统中,仅有相关性解释还不够,易走偏。比如一个明显不对的结论:一个城市的网页数越高,其网络形象就越好。虽然,数据统计证实了网页数和网络形象存在一般的正相关,但忽略了负面事件带来的网页量爆发等,结论也是不科学的。相关性要真正体现在数据之间、数据与真实事件影射的现象之间、真实事件的客观联系上。
故事化。大数据的概念冲击、视觉盛宴,看上去不错,但要警惕割裂传统信息管理系统和大数据的关系,营造一个概念化、全新的东西。比如开发商大肆搞房地产,大数据要建数据中心,圈地成必然,又如做科研项目,思路和内容要新颖,不少人拉大旗借用大数据。大数据只有与实际接轨,工具化、服务化和实用化,能解决具体问题的大数据,才能打破泡沫,见证数据真正之美。
隐私侵犯。大数据中包含着每个人的小数据,这些数据经过进一步分析既能知道你的爱好,也能知道你的下意识行为倾向,如果据此来判断一个人的未来,是否会重演大片“少数派报告”的场景,我们现在还不得而知。
当然,新事物多要经历阵痛、广受褒贬,才能逐渐练就为成熟的应用。大数据之路,要加强对真假数据的清洗,有好的矫正鉴别模型;商业中的大数据挖掘,应推动交互开放模式;政府可推动数据开放平台的接口,建立更好的沟通渠道,加大数据造假的惩治力度。样本代表性问题,如果无法做到全数据,应尽量考虑大数据分析的适用范围和结论边界。大数据分析也要有直观体验,明显与实际不符的结论最好有多个来源证实,多实地视察,加强生活中人性化沟通、交流,通过人际体验获得第一手材料。对涉及个人隐私的数据,需要加快立法,予以规范,避免为技术所异化。
(编辑:ASP站长网) |