数据,不是你想象的“非黑即白”

  • 来源:四川省情
  • 关键字:数据,质量,话题
  • 发布时间:2023-08-05 11:14

  文/本刊专栏作者甄石

  每月(季、年) 初,人们翘首以盼等着发布数据,发布后又“吐槽”数据:被平均、被增长……问题来了,这些数据“准不准”?

  这是一个“坑”,这也是一个逻辑陷阱:世界如此复杂,哪是“非黑即白”这么简单?为了避免陷入“坑” 里,我试着把“非黑即白”这个逻辑课题转换为“数据质量”这个业务话题。

  何谓质量?国际标准化组织(ISO) 指出,质量就是满足用户需求的程度,满足的程度越高、质量就越好。用户的需求是多元的、相对的、变化的,质量也是综合的、动态的、发展的。面包的质量好不好,不仅仅取决于食品技术,更是在卫生安全前提下,追求色、香、味,以及形状、成本、交货期、服务等多因素的综合平衡和最佳组合,价格太贵、出货太迟、服务太差,都是面包质量的减分项。

  数据也有质量,数据质量是统计工作的生命线,数据质量也是数据满足用户需求的程度。衡量数据质量有哪些标准?围绕这个问题,统计学家、统计工作者进行了大量的探索。一些国际组织和国家制定了相关文件,如国际货币基金组织(IMF) 颁布《数据质量评估框架》,经济合作与发展组织(OECD) 发布《统计活动质量框架和导则》,联合国统计委员会(UNSC) 颁布《联合国官方统计国家质量保证框架手册》,欧盟统计局制定了一套质量工具,美国、加拿大制定了信息(统计)质量控制指南……虽然它们在数据质量维度的数量上有差异(5-10 个不等),但都重视用户对统计数据的满意程度,强调数据质量应从多维度来衡量。

  我国对此也进行了不懈的努力。2013 年8 月,国家统计局出台《国家统计质量保证框架》,首次全面系统地提出了统计质量评价标准和保障措施,为强化统计质量管理,实现统计质量管理的科学化、标准化和规范化提供了重要遵循和指引。2021 年6 月根据最新形势进行了修订,不仅注重数据生产端、更强化统计服务端的质量管理,将用户需求、用户意见和评价反馈作为重要内容来考量。同时,还将质量标准扩充为真实性、准确性、完整性、及时性以及适用性、经济性、可比性、协调性、可获得性等九个方面(具体详见国家统计局网站)。

  真实性、准确性在九个标准中居前两位。其中,真实性是指统计源头数据必须符合统计调查对象的实际情况,确保统计数据有依据、可溯源;准确性是指统计数据的误差必须控制在允许范围内,能够为形势判断、政策制定、宏观调控等提供可靠依据。由此可见,“准不准”在数据质量标准体系中居“头牌”位置,但并不是数据质量的全部,还需和其它标准一起来寻求最大公约数。一个即使很真实很准确的数据,如果要花费很长的时间(及时性)、巨大的人力物力财力(经济性),这个数据的质量要大打折扣;如果用户不需要(适用性),或者无法获得(可获得性),那数据质量也就无从谈起。数据的精准程度是相对的,从生产者角度看,需要在精准性和经济性上取舍;从用户的角度看,不应、不会也不能要求百分之百的准确,再精密的检测仪器也会有误差,只要误差不影响决策就能够并应该被接受。后来的抗原检测精准度降低了,但更经济、方便、快捷,也不影响防控质量。

  在言必称数据的大数据时代,数据质量更受关注。如果仅用“准不准”来衡量数据质量,就会陷入“非黑即白”的窠臼。我们要用辩证的思维、多维的眼光来看待数据,用科学的方法、不懈的努力来提高数据质量。套用一句话:提高数据质量只有进行时、没有完成时。

关注读览天下微信, 100万篇深度好文, 等你来看……