​数据质量(DQ)

数据质量 DQ
数据质量 浏览量:150 发布时间:2024-12-17

数据质量DQ)

数据质量是指我们将数据与业务规则进行比较。

数据质量的特征包括准确性、完整性、一致性、有效性、唯一性和及时性。

 

Ø准确性:验证准确性的最佳方法是与源数据进行交叉检查。为了以最佳和最快的方式进行交叉检查,取决于数据管道的数据谱系。请注意,如果没有数据谱系,则准确性始终是有问题的。

Ø完整性:这并不意味着所有的源数据;它意味着必须拉取的数据必须完整地满足业务需求。有些情况下,必须转换数据以满足关键绩效指标(KPI)的要求。

Ø一致性:如果数据要传输到多个下游应用程序,它必须具有相同的属性,不应相互冲突,例如,如果需要日期格式为DDMMYYYY格式,则所有应用程序中的日期格式都应该相同。

Ø有效性:此特性取决于业务需求;它应遵循业务规则和参数。如果需要以DDMMYYYY格式提供日期,则应该提供。如果金额值应在4位小数后四舍五入,则应该这样做。

Ø唯一性:不能有重复。重复会导致笛卡尔积,影响结果。如果一个人可以在同一银行开设多个账户,那么对于该客户将会有多个营销、支持、存储等成本。即使组织仍然无法解决这个问题。我个人不确定为什么,但是这个问题仍然存在,是数据质量问题。使用主数据管理也有助于解决这个数据质量问题。

Ø及时性:数据必须在承诺的时间内提供。对于隔夜批处理,已定义了SLA(服务级别协议),组织花费了数百万美元来确保不违反SLA。在银行业中,如果隔夜批处理未在早上8点之前完成,银行将失去很多业务或可能失去客户,因为银行服务不可用,公民无法进行在线支付、转账、收款等银行交易。因此,数据必须在需要时可用。现在,重点是实时的,例如,客户更换信用卡,在输入密码之前,可以在移动设备上显示一项活动,可以以折扣价从另一个地点购买相同的产品。

数据质量和数据质量管理的区别:

Ø数据质量(DQ)是指当数据具备以上所有特征时实现的情况。

Ø数据质量管理(DQM)是为了实现数据质量而执行的所有活动。

以下是提高数据质量的不同方法。

Ø数据概要分析:这是检查、分析和创建有用数据摘要的过程。

Ø数据标准化:这是将数据转换为统一格式的过程,使分析师和其他人能够研究、分析和利用数据。

Ø数据地理编码:它是将位置描述(如坐标对、地址或地名)转换为地球表面上的位置的过程。

Ø数据匹配和链接:这是识别和合并重复数据记录的过程。

Ø数据质量监控:这是一个监控和确保组织内每个数据实例的数据质量的过程。

数据质量生命周期:

Ø通过根本原因分析找到数据。

Ø调查数据。

Ø找到潜在原因。

Ø进行根本原因分析。

Ø应用纠正措施。

Ø通过持续改进监控进行监控。

Ø通过对源或最靠近源的修复来维持。


扫码联系
电话联系