设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 数据 手机 公司
当前位置: 首页 > 大数据 > 正文

大数据目前存在五个大挑战

发布时间:2021-08-09 17:32 所属栏目:125 来源:互联网
导读:大数据现在非常热,美国白宫任命的委员会近日发布大数据政府报告,而中国央视在两会中有大数据的专题,网络中的大数据分析报告也比比皆是,从百度迁徙看东莞挺住

    大数据现在非常热,美国白宫任命的委员会近日发布大数据政府报告,而中国央视在两会中有大数据的专题,网络中的大数据分析报告也比比皆是,从百度迁徙看“东莞挺住”,到马年春晚的大数据分析。大数据正在从一种理论思考,演变成跨越社会各领域的实践行为。

 

 

    但大数据真的这么美吗?如何让数据说真话?当一切美好的讨论需向现实兑现,大数据背后的泡沫,将成新的困惑。大数据目前存在五个大问题。

 

\

 

    数据真实性。官员要政绩、学界要交差、商界要名利。注水性数据导致硬数据软化。基尼系数、博主粉丝量、复兴指数,为何一直在被质疑?凡数据造假能获利,则数据极可能有假。越来越多的软件自动发布信息,使得大数据也是真假难辨。数据背后的细节,数据源的真实、全面以及处理过程的科学,是大数据走向权威和可信的重要保障。

 

 

    样本代表性。我们不可能搜集到全数据,而与大数据相关的形容词往往是大规模、精准、细化,在调用如此“完美”的数据时,如何注意情景和样本的适用性。正如网络民意与现实民意的讨论,微博不代表网络,网络不代表社会,朋友圈也是小圈子,跳出圈子看世界不容易,切勿陷入相同的悖论。在选样、测量、误差校正不尽如人意时,好数据将劣化,大数据将虚化。

 

 

    相关性误差。利用大数据,基于一定算法和模型对变量元素进行相关性分析,在要素构成简单的情景中可以,在复杂系统中,仅有相关性解释还不够,易走偏。比如一个明显不对的结论:一个城市的网页数越高,其网络形象就越好。虽然,数据统计证实了网页数和网络形象存在一般的正相关,但忽略了负面事件带来的网页量爆发等,结论也是不科学的。相关性要真正体现在数据之间、数据与真实事件影射的现象之间、真实事件的客观联系上。

 

 

    故事化。大数据的概念冲击、视觉盛宴,看上去不错,但要警惕割裂传统信息管理系统和大数据的关系,营造一个概念化、全新的东西。比如开发商大肆搞房地产,大数据要建数据中心,圈地成必然,又如做科研项目,思路和内容要新颖,不少人拉大旗借用大数据。大数据只有与实际接轨,工具化、服务化和实用化,能解决具体问题的大数据,才能打破泡沫,见证数据真正之美。

 

 

    隐私侵犯。大数据中包含着每个人的小数据,这些数据经过进一步分析既能知道你的爱好,也能知道你的下意识行为倾向,如果据此来判断一个人的未来,是否会重演大片“少数派报告”的场景,我们现在还不得而知。

 

 

    当然,新事物多要经历阵痛、广受褒贬,才能逐渐练就为成熟的应用。大数据之路,要加强对真假数据的清洗,有好的矫正鉴别模型;商业中的大数据挖掘,应推动交互开放模式;政府可推动数据开放平台的接口,建立更好的沟通渠道,加大数据造假的惩治力度。样本代表性问题,如果无法做到全数据,应尽量考虑大数据分析的适用范围和结论边界。大数据分析也要有直观体验,明显与实际不符的结论最好有多个来源证实,多实地视察,加强生活中人性化沟通、交流,通过人际体验获得第一手材料。对涉及个人隐私的数据,需要加快立法,予以规范,避免为技术所异化。


大数据目前存在五个大挑战

(编辑:ASP站长网)

    网友评论
    推荐文章
      热点阅读