设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 手机 公司 数据
当前位置: 首页 > 服务器 > 安全 > 正文

数据质量成熟度模型 分析数据准备的几个等级

发布时间:2022-06-14 13:47 所属栏目:53 来源:互联网
导读:生成可供分析的数据的一个关键要求是数据必须是好的。各组织对良好数据质量的定义存在差异,这些定义符合其在分析和数据科学方面的成熟度。 第1级:数据来源 了解数据来自哪里、如何收集、如何转换、为什么以及由谁转换,是任何可用数据集的最基本要求。例如
  生成可供分析的数据的一个关键要求是数据必须是“好”的。各组织对良好数据质量的定义存在差异,这些定义符合其在分析和数据科学方面的成熟度。
 
  第1级:数据来源
  了解数据来自哪里、如何收集、如何转换、为什么以及由谁转换,是任何可用数据集的最基本要求。例如,在临床环境中——如果我们不知道哪个实验室进行了测试,谁资助了这项研究,血压是站立还是坐下,或者在我们得到试验结果之前是否将某些患者从试验结果中剔除——数据实际上是无用的。
 
  拥有关于每个数据集的明确出处、沿袭、所有者和其他元数据——甚至在查看数据本身之前——是任何数据分析之前的基本要求。在医疗保健领域,披露利益冲突、资金来源、隐私和其他道德考虑也是关键。
 
  俗话说——“如果你足够折磨数据,它会告诉你任何事情”。
 
  第2级: 异常值、混乱和不太可能的组合
  下一个级别超越单个数据元素,进入描述性统计数据和可能的错误。例如,一名患者服用 12,345 种不同类型的药物很可能是数据输入错误,或者至少是在计算对异常值敏感的描述性统计数据(如均值和标准差)时应排除的异常值。
 
  有时问题不是个别异常值,而是一连串几乎是例外的情况。例如,在一个网站每秒网络流量的数据集中,10 分钟内从历史标准增加 100 倍的可能性要大得多,这很可能是机器人的结果,而不是真实用户活动的结果。Flurries 经常出现在时间序列数据中,必须根据具体情况决定保留或删除。
 
  领域专家还应该深入挖掘以发现由于不太可能的组合而导致的错误。特别是在医疗保健领域,通常可以识别出临床上不太可能的组合。例如,在一个案例中,一个 25 岁的女性体重 535 磅本身是合理的,但查看同一患者的其他测量和实验室结果,很明显这是一个打字错误53.5磅的女人。这种“临床上不太可能的组合”通常是数据输入错误,应该在下游数据分析之前消除。
 
  第 3 级需要更深入的统计知识以及 DataOps 团队更深入的领域专业知识。如示例所示,在此级别“固定”数据质量不再能够完全自动化。

(编辑:ASP站长网)

    网友评论
    推荐文章
      热点阅读