标题: 学会这五步,数据质量检测不再是个事儿! [打印本页]

作者: buzhy    时间: 2019-4-1 12:31
标题: 学会这五步,数据质量检测不再是个事儿!
数据,已成为互联网企业非常依赖的新型重要资产。“用数据说话”也越来越成为一种共识,然而并非任何数据都可以用来说话。目前政府机构和各企事业单位基本都建立了数据仓库,数据仓库中的数据来自各下级或各信息系统,但由于各种原因会导致数据质量存在问题,比如统计口径不清楚、漏报、迟报或缺项等。
而数据质量的好坏直接关系到信息的精准度,也会间接影响企业的生存和竞争力。因此学会判断和检测数据质量的好坏变得十分关键,而且具有绝对的必要性。否则如果大数据平台里的数据质量无法保证,那么数据挖掘就是毫无意义的。所以问题来了:如何对数据进行全面的质量“体检”呢?
别急,本篇文章以某卫生部门统计系统中存在的数据质量问题为例,将为您详细展开。对该系统的数据质量检测是借助了亿信华辰的数据质量管理平台EsDataClean,它也被称为数据管理界的超级医生。
检测利器:亿信数据质量管理平台
工欲善其事,必先利其器,检测之前咱们有必要对检测工具有基本的认知:
亿信数据质量管理平台提供从标准定义、质量监控、绩效评估、质量分析、质量报告、重大问题及时告警、流程整改发起、系统管理等数据质量管理全过程的功能。通过事先定义好的规则、调度时间、工作流程,自动完成数据的质量检查,极大的减少人力的投入和过程干预,提升效率,减少误差。 同时遇到重大问题能够及时警告,对质量检查的结果提供多方式(界面、邮件、短信)告警,让用户及时了解到系统检查结果,避免重大问题的延误。
学会这五步,数据问题“一网打尽”
好了,多的不再详述,咱们直接入正题。该卫生部门统计系统的数据质量检测过程分为以下步骤:
新建主题集——>新建模型——>新建规则——>新建质检方案——>查看质检结果表和新建分析表查看
1、新建主题集
下图的主题集为某卫生系统需要检查数据质量的表,一个主题集可以包含多个主题表和分组。
2、新建模型
根据已建好的主题集来新建模型,检查结果放在系统自动生成的分析表主题集中,并选择需要进行数据检测的数据期和数据级次。
3、新建规则
以WT1_1NB_B2表的空值检查为例,新建空值检查规则,检查该表中的C3、C4字段是否存在联合不为空的情况。也可以检查与本表存在关联关系的其他表的字段是否为空,选择相对应的关联关系即可。
新建规则之后可以创建模板,方便以后新建类似规则时可以根据模型直接创建,修改部分条件即可。
EsDataClean数据质量平台同时提供13种不同的检查规则,即空值检查、值域检查、逻辑检查、规范检查、引用完整性检查、重复数据检查、及时性检查、记录完整性检查、离群值检查、波动性检查、平衡性检查、sq脚本、数据集检查。通过这些不同的检查规则几乎可以将所存在的数据问题“一网打尽”。
4、新建质检方案
选择需要检测的规则,并设置执行的各参数,数据质量平台提供自动执行的功能,减少了手动执行的麻烦,可以设置每天某个时间点自动执行,然后直接根据执行结果来查看数据质量问题。
5、查看质检结果表和新建分析表查看
下图是检测出有质量问题的数据,可以对不需要修改的数据进行例外处理,即手动认定为正确数据。
还可以新建分析表,从不同角度来找出数据质量问题具体出在哪,比如下图根据数据级次来比较,可以明显发现兴文县和芦山县提供的数据中的数据质量问题占比较高,从而有针对性的对数据进行整改。
小结:在以往,人们想检查数据质量问题,一般都使用sql的数据质量管理方法,该方法有一定的技术门槛,对操作人员要求高,而且不够灵活。亿信数据质量管理平台EsDataClean这位超级医生的的出现可以说很好的解决了这一难题,使得普通的业务人员就可以对数据质量进行检测并生成报告,这不仅节省了大量时间和人力物力,也提高了工作效率并为之后的数据挖掘和分析工作等腾出了更多的时间。
事实上,除了数据质量管理平台,亿信华辰经过十余年技术沉淀和项目锤炼,还全面推出一站式数据治理管理平台-睿治,帮助企业搭建数据治理全栈解决方案,全方位保障企业业务数据在采集、集成、交换、存储、应用等一系列业务流程中的完整性、准确性、一致性和时效性






欢迎光临 (http://imap.zasq.net/) Powered by Discuz! X3.2