大数据的生命周期的九个时刻
企业建立大数据的生命周期应该包括这些部分:大数据组织、评估现状、制定大数据战略、数据定义、数据收集、数据分析、数据治理、持续改进。
一、 大数据的组织
没有人,一切都是妄谈。大数据生命周期的第一步应该是建立一个专门预算和独立KPI的“大数据规划、建设和运营组织”。包括高层的首席数据官,作为sponsor,然后是公司数据管理委员会或大数据执行筹划指导委员会,再往下就是大数据的项目组或大数据项目组的前身:大数据项目预研究团队或大数据项目筹备组。这个团队是今后大数据战略的制定和实施者的中坚力量。由于人数众多,建议引入RACI模型来明确所有人的角色和职责。
二、 大数据的现状评估和差距分析
定战略之前,先要做现状评估,评估前的调研包括三个方面:一是对外调研:了解业界大数据有哪些最新的发展,行业顶尖企业的大数据应用水平如何?行业的平均尤其是主要竞争对手的大数据应用水准如何?二是对内客户调研。管理层、业务部门、IT部门自身、我们的最终用户,对我们的大数据业务有何期望?三是自身状况摸底,了解自己的技术、人员储备情况。最后对标,作差距分析,找出gap。
找出gap后,要给出成熟度现状评估。一般而言,一个公司的大数据应用成熟度可以划分为四个阶段:初始期(仅有概念,没有实践);探索期(已经了解基本概念,也有专人进行了探索和探讨,有了基本的大数据技术储备);发展期(已经拥有或正在建设明确的战略、团队、工具、流程,交付了初步的成果);成熟期(有了稳定且不断成熟的战略、团队、工具、流程,不断交付高质量成果)。
三、 大数据的战略
有了大数据组织、知道了本公司大数据现状、差距和需求,我们就可以制定大数据的战略目标了。大数据战略的制定是整个大数据生命周期的灵魂和核心,它将成为整个组织大数据发展的指引。
大数据战略的内容,没有统一的模板,但有一些基本的要求:
1. 要简洁,又要能涵盖公司内外干系人的需求。
2. 要明确,以便清晰地告诉所有人我们的目标和愿景是什么。
3. 要现实,这个目标经过努力是能达成的。
四、 大数据的定义
我认为:“数据不去定义它,你就无法采集它;无法采集它,你就无法分析它;无法分析它,你就无法衡量它;无法衡量它,你就无法控制它;无法控制它,你就无法管理它;无法管理它,你就无法利用它”。所以“在需求和战略明确之后,数据定义就是一切数据管理的前提”。
[page] 五、 数据采集
1. 大数据时代的数据源很广泛,它们可能来自于三个主要方面:现有公司内部网各应用系统产生的数据(比如办公、经营生产数据),也有来自公司外互联网的数据(比如社交网络数据)和物联网等。
2. 大数据种类很多,总的来讲可以分为:传统的结构化数据,大量的非结构化数据(比如音视频等)。
3. 数据采集、挖掘工具很多。可以基于或集成hadoop的ETL平台、以交互式探索及数据挖掘为代表的数据价值发掘类工具渐成趋势。
4. 数据采集的原则:在数据源广泛、数据量巨大、采集挖掘工具众多的背景下,大数据决策者必须清楚地确定数据采集的原则:“能够采集到的数据,并不意味着值得或需要去采集它。需要采集的数据和能够采集到的数据的"交集",才是我们确定要去采集的数据。”
六、数据处理和分析
业界有很多工具能帮助企业构建一个集成的“数据处理和分析平台”。对企业大数据管理者、规划者来讲,关键是“工具要满足平台要求,平台要满足业务需求,而不是业务要去适应平台要求,平台要去适应厂商的工具要求”。那么这个集成的平台应该有怎样的能力构成呢?它应该能检索、分类、关联、推送和方便地实施元数据管理等。见下图:
七、 数据呈现
大数据管理的价值,最终要通过多种形式的数据呈现,来帮助管理层和业务部门进行商业决策。大数据的决策者需要将大数据的系统与BI(商业智能)系统和KM(知识管理)系统集成。下图就是大数据的各种呈现形式。
八、 审计、治理与控制
1. 大数据的审计、治理和控制指的是大数据管理层,组建专门的治理控制团队,制定一系列策略、流程、制度和考核指标体系,来监督、检查、协调多个相关职能部门的目标,从而优化、保护和利用大数据,保障其作为一项企业战略资产真正发挥价值。
2. 大数据的治理是IT治理的组成部分,大数据的审计是IT审计的组成部分,这个体系要统筹规划和实施,而不是割裂的规划和实施。
3. 大数据的审计、治理与控制的核心是数据安全、数据质量和数据效率。
九、 持续改进 (编辑:ASP站长网) |