政府大数据质量评价指标体系的构建

来源：学术堂作者：姚老师
发布于：2017-02-17 共4387字

本篇论文目录导航：

【题目】政府大数据质量评价机制建设探析
【第一章】如何建立政府大数据质量评价系统绪论
【第二章】数据质量评价方法概述
【第三章】政府大数据质量评价框架分析
【第四章】政府大数据质量评价指标体系的构建
【5.1 - 5.4】大数据评价方法实证研究
【5.5】政府大数据质量评价
【第六章】加强和改善政府大数据质量的措施
【结论/参考文献】政府大数据质量评估模式研究结论与参考文献

　　第 4 章政府大数据质量评价指标体系的构建

　　4.1 政府大数据质量评价指标体系的设立。

　　4.1.1 政府大数据质量评价体系的构建原则。

　　构建政府大数据质量评价体系是非常重要的工作，正如前文所说，质量评价体系的构建直接影响质量评价的结果，一个好的质量评价体系可以很好区分数据的质量差别，并反映这个质量某一方面或整体的良好或不良程度。那么制定体系需要遵从以下几个原则，作为体系构建的依据。

　　（1）科学性原则。

　　政府大数据的质量评价体系首先是要遵从科学性原则，这也是体系严谨性和权威性的体现。质量评价体系的建立一定要明确目标，为达成目标而有序的构建体系的框架和指标，有良好的科学理论作为支撑，要参考已有的高效的数据质量评价体系，而不能是根据个人的理解，想当然的片面之词。质量评价要建立数据质量的概念的基础上，内容必须围绕政府大数据的内涵和特征，能够抓住大数据质量关键点，能够得到合适的评价结果。质量评价体系使用的评价方法一定要客观，体现用户的选择和意愿，可以得到用户的支持和认可，指标的选取要符合评价用户的使用情景和情况，能够被用户理解和很好的选择，权重的得出要符合逻辑，最好是通过计算，根据数学公式，在保证真实的数据来源的情况计算得出，整个过程经得起推敲。整个体系要符合构建的初衷，符合科学原理，实现体系的意义和价值。

　　（2）准确性原则。

　　质量评价体系必须遵从准确性原则。如果质量评价体系从构建之处就没有对体系的准确性加以足够的重视，那么体系的构成一定会出现偏差，导致结果的不准确，并且这样的偏差在体系构建完成过后是很难进行修正的。准确性就是要注重减少体系的误差，在全面的搭建架构之后，尽量充足的选择数据质量的维度，而最能体现的准确性的是在指标的具体构建方面。比如在确定了维度之后，如何从某个确定的角度选择和描述一个具体指标。这个指标既要有充分的考察角度代表性，也要用户可以对该指标产生至少一般程度的认同度[60].还有就是对于指标的语义的描述一定要准确，这就要求指标的解释透彻，而且用户可以理解。而对于用户的体系应用过程，还要建立相应的打分体系，让用户能够准确的表达自己对指标的看法。

　　（3）整体性原则。

　　体系的构建是必须要遵从整体性原则。质量评价体系内部的结构都是相辅相成的有机结合，每个部分都要有存在的必要性，并且覆盖到足够多的评价指标方面[61].同一层次得多级指标之间是并列的关系，互相补充，能够在不同复杂程度上对质量进行定义和描述，但是不能重复也最好没有漏缺，彼此之间还应避免名称方面的歧义，如名称接近、相反等等，需要进行梳理和调整；相邻层次的并且对应的指标之间是包含与被包含的关系，这些指标要有比较强的逻辑性，最好在名称方面呈现递进的关系，但是同样不要在对应指标名称之间的冲突或歧义。在具体指标的描述方面，同样不要只顾着完成当前指标的描述，要有大局感，避免指标的表达雷同，必要时不断的作出修正[62}.

　　（4）应用性原则。

　　评价体系的构建要注重应用性。质量评价体系的建立最终是为了用户可以通过使用评价体系而得出政府大数据的数据质量的看法，所以应用性是必须要遵从的原则[63].应用性体现在整个体系的使用细节方面，比如体系内的指标是否可以被用户很好的理解并接受，如果指标的描述语言专业性或学术性很强，虽然表达是没有问题的，但是对于用户来说可能使用起来并不是很方便[64].再有就是用户可以通过体系良好的表达自己的观点和想法，这就需要借助合适的定量工具来让用户选择表达对于指标的满意程度，难度在与表达的细致程度是如何确定的，有的用户对于区分度比较敏感，有些则相反。所以我们就要综合考虑整体用户的情况，以及其他相关的质量评价体系是如何设计的，总之，体系是为了应用而构建，脱离应用是缺少应用价值的[64].

　　4.1.2 政府大数据质量评价指标的确立和指标体系的构成。

　　（1）政府大数据质量评价指标的确立。

　　在第三章中，我们已经对政府大数据质量评价维度进行过讨论，为了构建更加客观和科学的政府大数据质量评价体系，对部分维度进行了相应的删减或选择了更为恰当的名称。如一些质量体系的维度里使用用户满意度，但是用户满意度显然是一个比较综合的衡量方面，涵盖了多个维度的内容，所以本文并没有采用这个维度。如数据质量的一致性为了避免与数据结构多样性的歧义，选择了可衔接性这个名称。再如实时性是时效性改变而来的，实时性更能体现大数据高速性的特点。效益性是另外稍作改变的指标名称，有些文献将效益性写为有效性，而没有从经济方面确切的定义，造成这种维度名称也有可能是翻译的影响[65].

　　本文还围绕政府大数据的特性，确定了 5 个数据质量评价的二级指标，这些在第三章中已经有所提及和渗透。针对社会对数据安全的日益重视，尤其是考虑到政府大数据的战略性、权威性，对于数据安全一定有更高的要求，所以本文明确了安全性这个指标。针对大数据的数据规模质量，明确提出了数量级这个指标，从数量上为数据质量提出要求。针对数据结构质量提出了多样性这个指标，结构多样性也是大数据的特征之一。针对数据的时效质量，本文明确了融合性这个指标，数据融合是解决大数据问题的重中之重，其融合效果与数据的时效密切相关。针对数据的价值密度质量，本文明确了增值性这个指标，数据的增值性是把看似无用海量数据作为研究对象的原因之一，经过大数据技术的处理，无用变可用。

　　综上所述，本文在对政府大数据质量进行评价的过程中共设计了 17 个二级指标，这些指标是根据国际上公认的数据质量评价体系和大数据的特征共同组成的。本文将这些指标按照数据源质量、数据规模质量、数据结构质量、数据时效质量、数据价值密度质量化分到五个一级指标，其中数据源质量描述的是数据一般性质量，而后四个质量描述的是大数据的四大特征质量。

　　（2）政府大数据质量评价指标体系的构成。

　　在二级指标确立的基础上，每个二级指标又从政府部门、被调查者、制度性因素三个方面建立具体指标。这些具体指标由文献归纳总结，进过筛选而来。

　　4.2 政府大数据评价方法。

　　4.2.1 政府大数据评价方法选择。

　　（1）主成分分析法与因子分析的比较。

　　与因子分析需要假定数据矩阵有特定的模型相比，主成分分析是将主成分表示为原变量的线性组合，并不需要使用假设的公共因子来解释相关矩阵的内部关系，所以主成分分析更为客观。并且主成分分析合成得分量是彼此独立的，也就消除了指标数据之间相关的影响，而因子分析允许因子间相关，其提供的变异信息可能是重复的，也不利于结果表达的客观性[66].另外，因子分析中的因子和总因子得分是估计值，一般来说主成分的综合评价值更为准确。

　　（2）主成分分析法与层次分析法的比较。

　　层次分析法对于指标的选择效果并不明显，指标的选取要考认为思考得来，这就可能造成一些比较重要指标被漏掉。通过因子探索，主成分分析可以筛掉一些与整体偏离的指标，是可以帮助我们选取指标的。另外，层次分析法对于指标的处理存在局限，对于超过其对比范围的指标通常采取舍弃一些被人为判定的"非重要"指标的方式处理，而主成分综合所选的主成分包含了原来指标总体的绝大部分信息，不会以人为的方式筛选指标[67].主成分分析强调了评价过程的客观性，而且其权重的确定是通过对收集的数据进行分析而计算出来的。

　　（3）主成分分析法与模糊综合评价的比较。

　　模糊综合评价是从不同的层次对研究对象进行评价的，尤其适合对比较复杂的事物进行研究评价，而主成分分析则是利用复杂的相关评价因素来对研究对象进行研究评价的，模糊综合评价中无论是主观指标评价中等级的判断，还是客观指标中隶属函数的选择，都需要深刻了解各等级间的内涵，相对而言，主成分分析就避免了这些困难[68].主成分分析的指标权重是在分析的过程中伴随而出的，具有较强的客观性，而模糊综合评价的权重系数向量是人为估计值，主观性较强。主成分分析能在一定范围内消除指标间的相关性，防止信息的重复。

　　（4）主成分评价方法的优势。

　　主成分分析可以在分析过程中很好的完成三方面工作，第一是消除原始变量之间的相关影响，第二是确定综合评价时的权重，第三是减少评价的指标数量。将原来相关的各原始变量变换为相互独立的主成分，可以消除由于指标间相关而在评价时反映的重复信息；其次，主成分权重主要是从评价指标包含的被评价对象来确定的权数，即指标在各被评价对象间数值的离差越大，则分辨信息越多，其权数也就越大，因此该权重的的优点就是客观性[69}.再者，通过主成分分析，评价指标的个数减少，方便了评价过程。

　　4.2.2 政府大数据质量评价指标的量化。

　　政府大数据质量评价维度的满意度测评是依据受访者的主观感觉的打分而得出政府大数据质量评价的，从本质上来说属于定量分析，即使用数字反映受访者在质量评价体系维度及指标中对政府大数据的态度。因此，我们首先需要对评价指标的反映进行一定的量化处理，为整个体系的测评打下基础。质量评价体系的满意度考察的是用户对大数据相关维度的想法、态度等等，如果只是通过当面询问或观察表情的方式去了解被调查者的真实态度是比较困难的，很容易造成错误[70].于是本文按照惯例做法利用评价测量工具对用户的态度反映进行一定的量化处理，由用户自行做出理性选择，使这些不易表达和衡量的"态度"用直观的方式表示，大大方便了问题的处理。这种态度的测量工具就是"量表".在使用方面，首先是要为不同的态度赋值，对不同的满意态度按照确需的变化程度要赋予不同的数值[71].关于情绪的细致程度我们要考虑用户整体的情感细致程度和相关研究所采用的多计量表，最终采用 5 级李克特量表，而 5级态度分别是：非常不满意、不满意、一般、满意和非常满意，相应的数值为1、2、3、4、5 分。在最终的定量调查结果我们将中根据情况采用百分制，指标得分标准为 5 分制得分/5*100.

　　4.2.3 质量评价体系各级权重的确定。

　　各级指标的权重代表的是该指标在整个质量评价体系中重要性的大小区别。

　　根据公式可以计算出评价各级指标的权系数。这些指标权重的不同可以由三方面的因素决定：一个是评价者本身对于该指标的关注重视程度，越受关注的指标全数越大，受访者的主观判断在这个过种中得到体现；二是各级指标本身在整个质量评价中起到的不同作用，各级指标本身的客观性差异对于整个体系影响程度在此过程中得到了体现；第三是指标的被用户的认可程度，各指标所表达信息的认可程度在此得到了体现，所以对指标的描述也是很重要的环节[72].

　　本文采用的主成分分析法对各级指标进行分析，在通过计算得到每个指标的权重，避免了主观判断的对体系的影响。这样的计算客观性很强，避免了专家等主观赋予权重的主观因素的影响，通过权重的确定，本文得各个指标在体系中影响效果，并计算出数据质量维度的权重，能够方便本文做出评价和分析[73].

　　进而，本文通过问卷的满意度打分可以构建政府大数据综合质量评价的满意度函数。了解在此体系下政府大数据用户对于政府大数据质量的满意程度。

返回本篇论文导航

相关内容推荐