数据管理的几个奥秘
发布时间:2022-09-01 10:52 所属栏目:125 来源:互联网
导读:有人称数据为新石油,也有人称其为新黄金。抛去这些比喻的合理性不论,毫无疑问,对于任何希望兑现数据驱动决策承诺的企业来说,组织和分析数据都是一项至关重要的工作。 1、非结构化数据难以分析 企业中有80%-90%的数据为非结构化数据,随着数字化转型逐渐
有人称数据为“新石油”,也有人称其为“新黄金”。抛去这些比喻的合理性不论,毫无疑问,对于任何希望兑现数据驱动决策承诺的企业来说,组织和分析数据都是一项至关重要的工作。 1、非结构化数据难以分析 企业中有80%-90%的数据为非结构化数据,随着数字化转型逐渐步入深水区,非结构化数据量正在飞速增长。这些数据以文档、图片、音视频等形式散落在企业内部,由于部门、应用、架构、多云环境等原因形成非结构化数据孤岛,难以进行共享和利用,挖掘出内容价值,严重阻碍企业的数字化转型进程。 举个例子,我有一个朋友渴望使用人工智能来搜索其银行呼叫中心工作人员记录的文字,因为这些文字可能包含有助于改善银行贷款和服务的见解。但是,这些笔记是由数百名不同的人记录的,他们对于如何写下给定电话的内容有不同的想法。此外,每个工作人员也有不同的写作风格和能力。有些人根本没有记录下太多信息;有些人则记录了太多自己解读的内容。这些文本本身就没有太多结构可言,当你有成百上千名员工几十年来记录的一堆文字时,任何结构都可能变得更弱。 2、即便是结构化数据也常常是非结构化的 优秀的科学家和数据库管理员通过指定每个字段的类型和结构来指导数据库。有时,以更多结构的名义,他们将给定字段中的值限制为特定范围内的整数或预定义的选择。即便如此,填写数据库存储表格的人还是会想方设法地增加难度。当他们认为某个问题不适用时,有时以字段为空表示;其他人则会输入破折号或首字母“n.a.”来表示。优秀的开发人员可以通过验证发现其中一些问题。优秀的数据科学家还可以通过清理来减少这种不确定性。但令人抓狂的是,即使是最结构化的表格也有可疑条目——这些可疑条目可能会在分析中引入未知数甚至错误。 3、数据模式(schema)要么太严格要么太宽松 无论数据团队如何努力阐明模式约束(schema constraint),用于定义各种数据字段中值的最终模式还是要么太严格,要么太宽松。如果数据团队添加了严格的约束,用户会抱怨他们的答案在有限的可接受值列表中找不到。如果数据模式过于宽松,用户可以添加几乎没有一致性的奇怪值。 4、数据法非常严格 关于隐私和数据保护的法律很强大,而且只会越来越强大。在GDPR、HIPPA等十多个法规的约束下,收集数据可能非常困难,而且一旦遭遇黑客入侵将会更加危险。在许多情况下,请律师的钱会比雇佣程序员或数据科学家的钱多得多。这些令人头疼的问题就是一些公司会在处理完数据后立即将其处理掉的原因所在。 5、数据清洗成本巨大 数据清洗也叫数据清理,是指从数据库或数据表中更正和删除不准确数据记录的过程。广义地说,数据清洗包括识别和替换不完整、不准确、不相关或有问题的数据和记录。 许多数据科学家承认,90%的工作只是收集数据,将其以一致的形式呈现,并处理无穷无尽的漏洞或错误。拥有数据的人总是会说,“一切都在CSV(逗号分隔值,一种通用的、相对简单的文件格式)中,可以随时使用。”但他们没有提到空白字段或错误描述。相较于在R或Python中启动例程以实际执行统计分析,清洗用于数据科学项目的数据所需的时间要高达10倍之多。 6、用户越来越怀疑你的数据实践 最终用户和客户对公司的数据管理实践越来越怀疑,人工智能算法及其使用只会加剧恐惧,让越来越多的人对捕获其数据的行为深感不安。这些担忧正在推动监管进程,并经常使公司陷入公共关系危机。不仅如此,人们还故意用虚假值或错误答案干扰数据收集。有时一半的工作是与恶意合作伙伴和客户打交道。 7、数据存储成本呈爆炸式增长 磁盘驱动器的容量越来越大,且每TB的价格不断下降,但程序员收集数据的速度明显快于价格下降的速度。来自物联网(IoT)的设备不断上传数据,用户希望能够永远浏览这些字节的丰富集合。与此同时,合规官员和监管机构不断要求提供越来越多的数据,以防将来进行审计。如果有人真的看过其中的一些数据,那将是一回事,但我们一天只有这么多时间。实际再次访问的数据百分比越来越低。然而,存储扩展包的价格一直在上涨。 (编辑:ASP站长网) |
相关内容
网友评论
推荐文章
热点阅读