数据质量评价方法概述

来源：学术堂作者：姚老师
发布于：2017-02-17 共8746字

本篇论文目录导航：

【题目】政府大数据质量评价机制建设探析
【第一章】如何建立政府大数据质量评价系统绪论
【第二章】数据质量评价方法概述
【第三章】政府大数据质量评价框架分析
【第四章】政府大数据质量评价指标体系的构建
【5.1 - 5.4】大数据评价方法实证研究
【5.5】政府大数据质量评价
【第六章】加强和改善政府大数据质量的措施
【结论/参考文献】政府大数据质量评估模式研究结论与参考文献

　　第 2 章相关理论研究

　　2.1 大数据。

　　2.1.1 大数据内涵。

　　由于大数据还处于不断发展的过程中，专家学者的认知与研究也在不断的深入，大数据的概念到现在更多的是描述性的语言，还没有统一的定义。在《大数据时代》一书中，维克托·迈尔-舍恩伯格和肯尼斯·库克耶把大数据定义为直接应用所有数据进行分析处理而不采用随机分析法（抽样调查）这样捷径的数据处理方式。大数据具有以下四大特征：数据量大、数据类型繁多、流动速度快、价值密度低。全球战略研究公司麦肯锡给出了一个比较通用的大数据概念是：一种规模非常巨大，以至于在数据的获取、存储、管理、分析等方面都大大超出传统数据库的软件工具能力的数据集合。而维基百科中对大数据概念相似：利用常用软件工具管理和处理数据所消耗的时间超过可容忍度的数据集。

　　战略研究机构 Gartner 将大数据归纳为需要新的处理模式才可以增强决策力和流程优化的海量、高增长率和多样化的信息资产；徐宗本院士在第 462 次香山科学会议上的报告中，将大数据定义为"不能够集中存储，并且难以在可接受时间内分析处理，其中个体或部分数据呈现低价值性而数据整体呈现高价值的海量复杂数据集".

　　2.1.2 大数据特征。

　　国内外对大数据的概念及其特征并没有完全统一的界定，无论是"3V"--数据量大（volume）、数据类型繁多（variety）、处理速度快（velocity），"4V"--较前者多一个价值密度低（value）特性，还是 IBM 提出的"5V"--在"4V"基础上加上真实性（veracity）这一特征，都是对大数据的贴切描述，具有各自的合理性。国内也有学者分析了大数据的产生，归纳了大数据复杂（complication;），简称"4V+1C"来概括其特征。其中最被大多数学者认同的要数"4V".

　　数据量大：随着现代信息技术的快速发展，海量的繁杂数据不断涌入人类生活，尤其是互联网、物联网的应用和新型社交媒体、社交软件的普及以后，新的数据实时产生，数据规模空前之巨，存储单位从过去的 GB 到 TB,直至 PB、EB数据规模已经远远超出传统的数据处理方式的承受能力，比如某著名社交网站每天约有 3 亿张照片、数百万小时的视频上传；而这一天产生的信息量，足可以装满 2 亿张光盘。

　　数据类型繁多：一是传统的结构化数据，如财务统计类数据、信息管理系统类数据、医疗系统方面的数据等，其特点是数据间因果关系强；二是日渐发展壮大的非结构化数据，如视频、音频、图片等，其特点是数据之间没有因果关系；三是半结构化数据，如 HTML 文档、网页、邮件等，它的特点是数据问的因果关系弱。可以看到数据类型也从原来的结构化逐渐发展到以半结构化和非结构化为主，无疑加大了数据存储和处理的难度，使得传统的数据分析在解决问题时往往难以取得理想的效果。

　　处理速度快：与传统的广播、报纸等数据载体不同，大数据的交换和传播是通过互联网、云计算来实现的，加上一些社交媒体，如微博，微信等交互式软件的流行，对处理数据的响应速度有更严格的要求。大数据与海量数据的重要区别，是除去大数据的数据规模巨大以外，最明显的区别是数据的复杂程度和处理速度是大数据的重要体现。

　　价值密度低：大数据的整体价值是巨大的，但就单个数据本事的价值而言，其价值是比较低，有学者把这比淘金，沙子很多，金很少，但是淘金这件事还是很有价值的。与传统的数据相比，大数据的价值往往是潜在的，在于从看似大量不相关的各种数据中，挖掘出对未来趋势分析有关联的数据，再利用云计算、人工智能等方法进行深度分析，挖掘出新知识或新规律，并应用于各个领域，从而最终达到提高生产效率，改善生活的结果。

　　2.2 政府大数据。

　　2.2.1 政府大数据的构成和界定。

　　政府大数据按照形式内容可以分为以下三类。

　　第一是在政府机关记录的行政数据。所谓行政记录是行政机关为了监督管理以登记、报告、行政许可、审批等方式收集并保存的被监督对象的相关信息，是各级行政机关的核心工作记录。通常用文字和数值描述监督对象的情况和状态。

　　第二是企（事）业单位的业务数据，这是我国政治体制的特殊产物，企事业单位主要是指为社会、群众提供公共服务的事业单位以及具有公共服务职能的企业，可以包括：医疗卫生、教育、供水、供电、供气、供热、公交、社保、邮政、电信等单位。这些单位在办理相关业务时产生的与政府业务有直接或间接关联的相关数据，也是政府数据的一部分。

　　第三是"四上"企业（规模以上的工业、建筑业、零批住餐业、服务业）的生产经营数据。企业的数据主要以结构化数据为主的操作型数据库中的各种业务数据和办公自动化系统中包含的非结构化数据为主的各类文档数据。主要由生产经营的过程中积累下来的数据记录，如销售记录、人事记录、采购记录、财务数据和生产库存记录等等，这些企业内部数据与政府统计工作有一定关联，尤其是"四上"单位，这些企业的产、销、财务数据均是政府部门进行指导调研的的重要依据。

　　2.2.2 政府大数据内涵及特征。

　　（1）政府大数据资源丰富。

　　政府作为社会最主要的管理部门拥有海量数据资源，是社会解决实际问题需要借助管理资源[37].首先是政府数据信息化历经多年的建设，使得政府部门积累的行政记录数据大规模增长。其次是商业领域对数据资源高度重视，使得大规模的诸如交易记录数据等得到了妥善保留和深度挖掘[38].而网络社交媒介的发展，也使得网络媒介获取大量的描述用户特征行为的数据[39].这些数据都极大的丰富了以往政府数据来源的渠道，使政府可以提供更多的公共信息服务（2）政府大数据质量较高。

　　政府部门的大数据质量与其他数据资源相比，更受社会、被调查者的重视，质量相对较高。随着多年来政府政务公开的建设，政府全面提升了数据管理的信息化与标准化，制定了数据管理标准，加强了大数据信息平台建设。政府管理部门全面提升后其硬件与软件技术，改革的处理机制等，变革数据管理流程设计，这一切为大数据的应用提供了更好的平台。

　　（3）政府大数据透明性较强。

　　大数据冲击着政府管理数据的固有体制模式，伴随着日益明显的政府数据开放趋势，大数据将是政府数据透明管理的开端，促进政府数据管理体制机制改革[40].政府数据资源管理程度加深虽然关键性的数据资源仍旧要存在壁垒，未能开放到公众个人。但是在从整体角度看，政府大数据有利于建立信息共享机制，完善信息发布职能，强化政府的服务功能，实现政府管理体制机制的飞跃[41].

　　（4）政府大数据可以提高决策精准性。

　　大数据可以帮助政府部门跟准确的进行决策，政府数据数量众多且来源广泛，利用相关数据进行挖掘分析，可以提升关联的针对性，运用数据融合处理，采用自动联网记录，能够最大程度降低数据非系统性误差，以保证数据的准确性和真实性[42].通过大数据的云计算进行总体分析，能够验证调查样本数据代表性，运用多维度对同一社会管理问题的调查数据进行多角度预测，可以降低风险，大大提高决策的精准性[43].

　　2.2.3 政府大数据的分类方法。

　　大数据的创建是以归类政府大数据信息来作为条件和根源的。要想最大程度发挥信息的有效性，有赖于政府工作人员对目标数据的不同种类进行定位。

　　对于信息类型的鉴定和筛选，是大规模数据进行可行性研究（feasibilitystudy）的前提条件。在一般情况下，根据不同的层次需求，进行划分的政府信息数据，可以按照以下几方面进行归类：首先是根据行政团体或部门的多少实行归类，其次根据行政部门或团体的等级实行归类，最后根据数据信息本源的门类实行归类[44].

　　首先，我们可以把共享信息资源对象作为其中一条线索进行分析，顺着主脉络可找出这条线索的三个分支。第一种是，两个同级别或不同级别的政府机构之间共同分享某一信息资源。正如，户籍部门与警察机关共享社会成员的身份信息。政府机构之间就是应用这种形式完成彼此之间信息传递活动的，信息的流向有时是单向的，有时又是双向的，它不拘泥某一固定形式。明确的信息定位以及便捷的信息交互是它的突出优点。但这种模式也不是完美无缺的，其特异性和限定性使其不具有普适性。第二种是，一对多或者是多对一的政府机构之间的信息传递和分享。它是目前社会中广为流行的模式。举例来说，财政部想要了解某一季度财政信息，就有赖于央行、国库、政府各经济部门等机构的数据配合[45].第三种是组织部门之间多对多的资源和信息传递活动。从发展的进程来看，未来这种模式将取代其他模式成为主流。举例来说，处理好一件突发性公众事件，就离不开不同部门的通力合作，没有及时的信息交互就无法顺利解决问题。

　　其次，我们把依据行政部门或团体等级高低实行归类的模式作为第二条线索来分析。第二条线索的优势在于简明精炼。它的劣势在于缺乏信息共享的平等性，政府机构或团体之间存在级别的差异，级别越高的享受的权力越大。高级别机构可以获取来自低级别的机构的信息，但反过来低级别的机构却无法主动获取来自高级别机构的非公开信息。即使在同一级别的机构之间，如果两者是潜在竞争对手，权益的衡量造成的冲突，也会导致数据共享也无法在两个机构之间成功完成。

　　最后，我们把依据信息的本源特性作为第三条线索进行划分。因为它对于数据平台的搭建具有实质性的意义，所以我们把这条线索作为三种方式中最为核心的部分。顺着这条线索我们可以找到它的两条分支，第一个非结构性的数据资料以及结构性的数据资料。我们先从分析结构性的数据资料入手，这种资料的主要构成部分由经过专业化处理的信息组成，经过加工后的数据库内信息无需再做其他处理，便可被使用者直接应用。截止到目前为止，随着政府对于信息处理的程度的深入，数据库内已经存在许多能够直接投入使用的可靠性的数据文件。但值得注意的是，办公系统的自动化程度仍有很大的提升空间，比如一些视频、音频、图片类的数据文档还无法像大多数文字类数据一样不经过处理，就可以直接应用。

　　除此之外，我们在处理政府大数据时，要注意以下问题，不要固守一种思维，认为处理数据的方法越多就越好，这样会导致我们抓不住重点。什么问题都有主要矛盾，把握住核心即可。贪多的后果，很可能或导致我们搜集的数据杂乱不堪。政府数据搜集和平台搭建的初始阶段，工作人员可以先应用一种熟悉好用的分类方法。经过实践考证，初期比较推荐的方法是上文提到的根据政府机构的级别和关系进行分类的方法。纵横双层面都被考虑进去，因此涵盖的范围较为全面，数据的开放和密保工作也具有一定的伸缩性。今后在技术等因素和条件达到更高水平后，工作人员可根据需求灵活选择其他类型的数据信息分类方法，促进大数据系统的进一步发展。

　　2.2.4 政府大数据的应用。

　　政府各个部门间的信息的资源共享是一项较为基础的工作，是进一步发展电子政务建设的关键点。大数据技术正在成为一个新兴的热点，是伴随着信息技术的发展而得到全面关注的[46].因此，政府部门与大数据信息资源共享技术是政府信息资源共享与前期建设发展之间的高度互补关系，为促进大数据的发展提供了基础数据，为政府信息资源共享的深入发展提供了深入的指导方向[47].

　　（1）财税运行分析。

　　根据我国财政、国税及地税交换而来的原始数据表明，计算汇总形成了包括各级别公共预算的收入情况、各级别公共预算的收入占比的情况、分级次税收收入的情况、城市建设的维护税及教育费用附加负担的情况等进行分类汇总。通过对数据的处理，综合经济运行的态势展开整体情况分析，实时跟踪的细节监测下，围绕财政税收与相关产业结构的转型完成升级、财税与经济的运行、动态等方面展开特点分析和研究课题，最终成为满足服务地方党政机关领导的新兴技术手段。

　　（2）经济普查。

　　经济普查的全面工作包括了单位清查环节、普查数据环节、数据审核环节等其他环节。在经济普查的工作中，财税数据应用范围非常广泛，在单位清查环节时，可以通过财税数据联网的平台掌握的纳税情况以及工商、民政等相关部门的数据进行审核比对，应用到排查其法人单位以及相关产业的活动单位，保证了不重不漏的清查单位、同时经济普查的数据审核的上报阶段中，充分的利用了财税系统联网平台的数据对相关产业单位上报的经济普查大数据进行核实审查比对，出现相关问题及时审核落实整改，一定程度上保证了经济普查大数据的真实可靠性。全国第三次经济普查正在按部就班的开展，财税系统联网平台数据也将发挥其应有的巨大作用。

　　（3）质量控制。

　　近年来，秉承提高统计数据的质量为核心，依渐建立起一个多层次、全面的体系来控制质量。随着趋势、逻辑、计算等相关评估工具广泛应用于税收数据的联网平台，有效防止了数据偏差的现象。在评估行业增加值增速的时候，充分参考了增长的产业和税收网络平台应纳税增长速度；贸易专业人士在评估零售销售数据，充分参考税务网络平台批发和零售贸易增长率的增值税，住宿和餐饮业增长率的销售税；建设专业人士在评估增值的数据，充分参考税务网络平台其营利服务行业增场速度；税务数据联网平台，为政府部门开展了强大的辅助统计数据质量控制系统。

　　（4）"四大工程"改革。

　　重大统计革命是以"企业一套表"为核心基础的统计系统四大工程建设，在四大工程的建设中首要任务即是建设及时更新、真实完整的单位基本名录库。

　　财税联网的平台数据在其维护单位基本名录库的建设的工作中发挥了核心重要作用。首先，利用税收的征缴记录呈现出新增的税源单位信息，实时对纳入基本单位名录库进行核对；利用税收征缴记录反应出单位时间内无纳税相关记录的重点企业，实时核查修改及完善基本单位名录库的信息。其次，在重点服务业企业和"三上单位"审批方面，通过财税联网平台数据，对一些可能符合规下（限下）升规上（限上）的企业进行排查梳理，保证不重不漏。

　　（5）科学决策。

　　大量的财税联网平台数据，深度挖掘出其中的有价值数据可以得到很多极富价值的信息，帮助政府统计的部门更好的进行科学决策[48].从 2013 年 8 月 1日，我国小、微企业的月销售总额不超 2 万元的营业税纳税人和增值税小规模纳税人可以享受暂时免征营业税和增值税的政策，在国务院出台这一政策后，各级有关领导通都积极掌握和了解本地区的小、微企业的基本情况，希望了解相关小、微企业的纳税情况和减免税收政策出台后产生的积极影响等。统计部门根据财税联网平台数据，及时处理挖掘，完成了《小微企业暂免营业税和增值税对我市影响浅析》报告，客观分析了等同减免税收政策的小、微企业的分布和现状和纳税情况，同时对下半年的免税政策执行后的收入减少进行预案和定量预测[49].

　　2.3 政府大数据质量。

　　2.3.1 政府大数据质量概念。

　　在大数据时代，所有政府数据都是一笔可观的巨大财富，同时也是开启了智慧政府的入口。全球范围很多国家已经准备开战从长期战略层面的认识到大数据的重要性，在政府管理领域融入了大数据的核心思维。然而大数据在我国政府部门的深入开展仍处于相对的初级阶段，仅有少数的项目在运营中。关于政府大数据的质量定义，目前还没有确定的定义，数据质量定义还是值得借鉴的[50].

　　传统的数据质量仅仅指其准确性，通常用统计估计中的误差来衡量。但"质量"的概念被拓宽以后，关于质量的定义出发，把用户的需求作为衡量统计数据质量高低的首要因素，那么可以把数据质量定义为影响统计数据满足用户需求的特征".但由于用户多种多样，且其对统计数据的使用目标也不一样，从而对统计数据质量的要求也不一样，因此，上述定义还不是一个具有可操作性的概念.但从这个定义出发，充分考虑不同用户的需求，可以提出一个系统而全面的具有丰富内涵的综合性概念。

　　政府大数据的质量概念可以定义为从大规模数据中提取隐含的、有价值的为大数据分析辅助决策，提高管理效率，为民众提供更好的服务的高质量数据，这些数据必须具备可靠、准确、及时的特点[52].

　　2.3.2 政府大数据质量内涵。

　　关于大数据质量评价理论，目前我们可能不得不参考普通的数据质量评价。

　　中国与外国的学者对于普通数据质量分析主要就是采用一系列方法控制质量与质量流程，并对其进行多种多样的的理论研究，再产生质量方面的评估行为。这种过程是对质量评价属于全方位，多人员参加的多个方面维度去进行配合，因此这需要不同的多种阶段的工作，主要就是以预防预测为主：根据不同的计量阶段进行分析并制定控制措施。尤其是分析出其影响过程中的数据自身质量的因素后，再点分析好从头到尾这一过程中的质量水平以及整体水平，并对整体的数据质量进行归纳，得出对于此数据质量评价的共识[53].

　　然而政府大数据的质量评价不可能如同普通数据那样依靠人员有条不紊的进行质量方面的考察，那样无论是工作量还是工作进度都无法达到大数据数量巨大、实时性的运算要求。所以，政府大数据的数据机制要求更是要具有科学性，从数据产生起的各个环节就要做好质量控制。与普通数据质量评价一样，大数据的评价体系的设计是十分关键的，其水平的好坏对于最终的大数据质量会产生基础性影响。如质量评价方法设计水平不高，即使评估体系的实践很好，形成的最终数据质量评估也不会很准确；反之质量评价体系设计水平高，只要实践应用尚可，形成的最终数据质量也会比较准确。当今经济全球化的大背景下，把大数据用于国际上各项数据已经十分普及和关键，因此国家层面的大数据质量控制方法也被摆到了十分重要的地位，对于其理论要求和生产的数据质量也提出了更高要求[54].在 1990 年代后的国际货币基金组织以及其他的国际上的权威性的组织中装订，并且修改了复杂繁多的数据质量指导原则来，引来多个组织和国家的重视，进行了统一的设计制度的标准方法[55].

　　和数据质量息息相关的活动有两大类：其中第一类是对于那些影响数据质量的各个阶段的质量进行控制。对于工作的过程的设计、组织、实施进行控制，以便于我们可以保证数据的质量，降低调查成本并提高效益。第二类活动是对于数据的评估。包括有对某些特定领域数据质量的专项研究，大数据的批量数据检验，以及就内、外部环境的数据质量分析评估。其最终的评估结果可提供给数据产生者以便改进其数据生产工作；另外也可以提供给给数据用户，以便使数据得到正确并且合理的开发与利用。综上所述，数据质量控制与数据质量评估是在数据质量时不可或缺的质量活动。两者在其职能中的区别主要在于，数据质量控制要涵括到数据处理工作的进行之前，进行中，以及结束后的全过程；而数据质量评估主要是在于对工作所得出的数据处理结果进行评价与分析。

　　我国目前的政府大数据的质量控制和评估上有以下几点问题：其一，是政府部门的实践同数据质量理论和控制技术不匹配[56].数据质量控制技术在实践操作中应用和研究不多。处理常规的数据质量控制主要用分析处理和挤水分的方式，评估前的结合实际预防和设立误差模型研判做的不好，仅有的质量控制技术和统计质量管理相脱钩[57].其二，质量控制的权责不明确，往往在执行时临时调整，缺乏系统性。即使确定主要统计数据质量的评估，但对于评估方法的实现、责任部门、职权义务规定的都不细致[58].其三，我们国家主要就是缺少了具有明确目的的数据质量管理的目的措施与质量管理的行为规范准则。

　　2.4 数据质量评价方法概述。

　　2.4.1 因子分析方法。

　　因子分析法的基本思想是依据相关性的大小将原始变量分组，使得同组变量之间相关性较高，不同组的变量之间相关性较低。从而，每组变量便代表了一个基本结构，可以用一个潜变量来表示这个潜变量就称为潜在因子（或公共因子）。应用到统计数据质量评估领域，人们通常可以将统计数据的整体质量及其各个维度质量视为潜在因子（其中整体质量为二阶因子，各个维度质量为一阶因子），并在理论分析的基础上为各个质量维度设计若干测评指标，从而通过验证性因子分析找出每个潜在因子关于全部测评指标的线性组合式，据此计算各个潜在因子在整个样本上的平均得分得出评估结论。

　　2.4.2 模糊综合评价法。

　　模糊综合评价法是一种基于 Fuzzy 数学（模糊数学）的评价方法。它是需要运用到模糊关系合成的原理，真对那些难以清晰表达的含义和概念以及难以直接定量分析的情况进行综合评价的方法。相对于很多政府大数据质量而言，影响因素十分复杂，且难以用"好"和"坏"去简单定义。因此，建立目标层、因素层。运用模糊性综合评价对统计数据质量进行评估便具备了一定的理论与实践基础，是比较合适的。鉴于下一章的方法设计部分将会详细讨论这一评估方法，为了避免重复，此处不予赘述。

　　2.4.3 层次分析法。

　　将模糊评价法增加准则层的方法，我们称之为层次分析法。层次分析法需要我们把目标即决策问题按照总体目标、各层的子目标、评价准则、具体方案等方面归纳为不同的层次结构，然后用求解判断矩阵特征向量的方式，确定每一层次各元素相对上一层次某元素的优先权重，最后再加权的方法对总目标确定权重，此权重最大者即为最优方案。"优先权重"是一种相对的量度，它表明备选方案在某一特点的评价准则或子目标优越程度的相对量度，各子目标对上一层次目标的重要程度。层次分析法比较适合于具有分层交错的复杂评价指标系统或目标值难以定量描述的决策问题。算法首先是构造判断矩阵，求出其最大特征值，然后求出对应的特征向量，进行归一化，最后得到该层次指标对于上一层相关指标的相对权重。

　　2.4.4 主成分分析法。

　　主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标（即主成分），其中每个主成分都能够反映原始变量的大部分信息，且所含信息互不重复。这种方法在引进多方面变量的同时将复杂因素归结为几个主成分，使问题简单化，同时得到的结果更加科学有效的数据信息。从基本思路来说：主成分分析借助了一个正交变换，将原来分量相关的随机变量转换成了分量不相关的新变量，从代数角度解释为，将原变量的协方差阵转换成对角阵，从几何角度，将原变量系统变换成新的正交系统，使之指向样本点散布最开的正交方向，进而实现了多维变量系统的降维处理。使用主成分分析除了降低多变量的数据系统的维度之外，还可以提供其他许多重要的系统信息，例如数据的重心位置、数据变异的最大方向，群点的散布范围等。

返回本篇论文导航

相关内容推荐