计算机辅助英语口试中评分信度分析

来源：学术堂作者：姚老师
发布于：2015-05-18 共6635字

　　1.引言
　　
　　主观题的评分方法主要有整体评分法（holistic scoring）和分析评分法（analyticscoring）。整体评分要求评卷员对考生的答题质量进行全面的评估，给出一个整体分数；分析评分则要求评卷员对试题考查的每种技能给出单独的分数（Chi 2001）。评分信度是两种评分法的关注重点，相关研究结果也不尽相同。 Klein 等（1998）发现两种评分法信度相当，对学生排名影响甚少。 Barkaoui（2010a）使用定性分析法观察评卷员的表现，发现整体评分让评卷员更关注学生的答卷，而分析评分使评卷员更注意评分细则；Barkaoui（2011）的研究还显示整体评分具有更高评卷员间信度，分析评分虽出现更大评分差异，但评卷员内信度更高。穆倩倩（2010）认为，分析评分在测试低水平学习者的写作能力时有更高的评分信度，而整体评分则在测试高水平学习者时信度更高。一些研究则表明分析评分优于整体评分，这些研究发现分析评分法具有更高信度（Goulden 1994; 洪佳敏 2010），能为教师提供更多信息（Bacha 2001），评分严厉度更稳定（Chi 2001），能更好地促进学生口语能力发展（Tuan 2012），很好区分出考试的写作能力（Wiseman 2012）等；Harsch & Martin（2013）的研究还表明整体评分会掩盖一些差异，尤其是评卷员如何使用各种评分指标的细节。当然，Xi（2007）也发现托福口试中分析评分实际上不能提供比整体评分更多的考生能力信息。冯蕾、高淑芬（2012）则建议写作评分宜整体评分和分析评分相结合。

　　总的来说，分析评分法使评卷员更注重考查技能的每个方面，具有更高的信度，但费时费力（Weigle 2002）；整体评分法操作简单，效率较高，但评卷员的评分侧重点往往不同（Nakamura 2002）。在使用方面，试题强调考生的全面能力时，人们常用整体评分法；试题侧重检查考生对完成任务的各种技能的掌握情况时，分析评分更为合适（Klein et al. 1998）。实际运用中，整体评分法多用于大规模考试，因培训评卷员更为方便且评分速度相对较快；而分析评分法常用于课堂测试，因评分结果可帮助教师诊断学生的学习情况（Chi 2001）。

　　目前国内外的一些大规模考试都含有口语考试。雅思（IELTS）口试使用分析评分，主要包括流利连贯、词汇使用、语法使用和语音语调四个方面，关注语言质量（Brown & Taylor 2006）。托福（TOEFL-iBT）口试采用整体评分法，包含四项评价指标（综合描述、表达传递、语言使用和主题发展）（Alderson 2009）。大学英语四级考试口语考试（CET-SET）采用分析评分法，从语言准确性和范围、话语的长短和连贯性、语言灵活性和适切性，分四个等级对考生参与不同形式的口头交际的表现打分。英语专业四级口试也采用分析评分，从内容、语音语调、语法与词汇三个方面，分别评定考生等级（优秀、良好、及格、不及格）。

　　现有研究主要探讨写作考试的评分，讨论口试，特别是基于计算机口试评分的研究还很少。国内一些大型考试已增加口试，考试形式也由过去的考官和考生面对面考试改为基于计算机的人机对话考试。评分依据考生的答题录音进行，评分方式也由以前的当面打分改为在专门的计算机平台上打分，降低了评分耗时。

　　英语口试一般需要人工评分，评分标准是影响评分结果的主要因素，而且评分带有一定的主观性，评分信度一直是人们关注的焦点。分析评分信度较好（Weigle2002），因此，有必要研究分析评分在大型计算机辅助英语口试中是否也具有较好信度。本文旨在回答以下三个问题：

　　1）分析评分与整体评分的结果是否有差异?

　　2）分析评分的评分员一致性如何?

　　3）分析评分的分数维度差异如何?

　　2.研究方法

　　2.1参与对象

　　本研究的数据为国内某大型计算机辅助英语口试的评分记录。参与该考试的考生为某省报考高校外语专业的高三学生，英语总体水平偏高。每年考试人数约为 5 万人。该考试为能力水平考试，分为两部分：听力和口语。口语部分第一题为模仿朗读，除了考查考生的语音语调，还考查考生模仿录音朗读的能力；第二题为口头表达，考查考生用英语进行思维和表达的能力，考生根据某一话题下的三个引导性问题进行叙述或讨论。由于英语表达能力是该考试考查的重点，本文仅讨论口头表达部分的评分情况。

　　考生使用专门考试软件参加考试，其口语录音被考试软件记录并上传至服务器，由评卷员在专门评分软件平台上打分。考生录音由电脑随机分配给每位评卷员。整体评分量表分为五个等级，每个等级从内容完整性、语言正确性、语音语调、流畅度四个方面进行描述；分析评分量表分别对四个方面进行描述，每个方面的描述分为五个等级，例如，语言正确性在每个等级的描述分别为：

　　1）能用合适的词汇、短语、语法结构组织话语；2）基本能用合适的词汇、短语、语法结构组织话语 , 只有个别地方出现错误；3）有时不能使用合适的词汇、短语、语法结构组织话语；4）使用的词汇、短语、语法结构大部分不正确；5）不能使用合适的词汇、短语、语法结构组织话语。

　　16位评卷员对 5216 名考生口头表达部分进行评分。 16 位评卷员均为非英语本土语大学英语教师，其年龄、教龄各异，英语水平均达熟练程度，大部分为女性，平均分为两组，一组使用整体评分法评分，另一组使用分析评分法评分。该口试以往一直使用整体评分，大部分评卷员未有使用分析评分的经历。

　　2.2评分过程

　　正式评分前，对两组评卷员分别集中进行了培训。培训内容包括评分量表讨论和范文试评。要求组长掌握好其组员对评分标准的理解，由组长带动所有组员参与评分标准的讨论，组长从组员的反馈中了解组员对评分标准的理解。在讨论之初，评卷员认为分析评分比较耗时、复杂，且难操作，在对某个方面打分时，容易不自觉同时考虑其它方面。经过较长时间的讨论，评卷员逐渐熟悉分析评分量表。组长确保每位组员对评分标准达成共识后开展试评。为了帮助评卷员养成对每个方面单独打分的思维习惯，试评时选择了一些分项差异较大的范文，比如语音语调欠佳，内容较完整的范文。组长确保每位组员正确评价范文的情况下允许其正式评分。

　　培训后，8 位评卷员对 2030 名考生进行分析评分，其余 8 位评卷员对 3186名考生进行整体评分。每位评卷员的评卷量在 150-400 份试卷之间。为了研究不同评分方法结果的一致性，对部分试卷使用了两种评分法评分，部分试卷进行了双评，评卷结果通过 SPSS 和 Facets（Linacre 2012）软件进行分析。

　　3.结果

　　3.1评分结果差异

　　分析表明，两种评分法下考生能力值的一致度不高，Pearson 相关度为0.402. 为了找出差异所在，我们将考生的整体评分和分析评分各分项得分进行多元回归分析。结果显示，分析评分法各项得分都有意义地解释了整体评分法得分的变化（p<.01）。内容分项的相关系数为 0.284;语言分项为 0.509;流畅度分项为 0.873;语音语调分项为 0.438. 这表明评卷员使用整体评分量表时可能对流畅度考虑较多，对内容关注较少。该结果与已有研究结果类似，在使用整体评分时评卷员总会根据自己的爱好偏重某些方面，尤其语言准确度（Barkaoui 2010b;Huang 2010）。 Eckes （2012）就指出评卷员认为重要的部分往往评分较严厉，而不是很重要的部分偏宽松。 Jin & Mak（2013）的研究也发现，在测试汉语口语能力时发音、词汇和语法起着最主要的作用。 Sawaki（2007）发现某口语分析评分中，语法对整体分数的影响最高。

　　3.2评分员一致性

　　口试的评卷信度主要表现为评卷员一致性，包括评卷员间一致性（inter-raterreliability）和评卷员内一致性（intra-rater reliability）。评卷员间一致性指评分严厉度是否存在差异；评卷员内一致性指同一评卷员的严厉度是否受评分时段、疲惫度、评分对象等因素影响（Bachman 2000），由评卷员均方拟合统计量（Infit MnSq和 Outfit MnSq）反映（Myford & Wolfe 2004）。如表 1 所示，8 位分析性评卷员的分隔指数（15.09）、信度（0.99）以及 8 位整体评卷员的分隔指数（10.29）和信度（0.99）均表示评卷员的严厉度有差异。卡方检验显示，分析性评卷员间差异（χ2= 1264.9, df = 7, p < 0.00）和整体评卷员间差异（χ2= 815.4, df = 7, p < 0.00）均有显著统计意义，表明两组评卷员的严厉度都有明显差异。

　　当评卷员内一致性较高时，加权的均方拟合统计量的数值接近 1,对于高风险考试的主观题评分（Yang 2010），均方拟合统计量过大（非拟合）表示评分行为不符合模型预测，过小（过度拟合）表示评卷员集中使用评分量表的某些等级。两种评分方法下，加权的均方拟合统计量的平均值都接近 1,但使用分析评分法的评卷员的内一致性略高。

　　评卷员 2、11 和 13 出现较明显的非拟合情况。评卷员 2 与模型预测结果差异较大的 18 项评分记录中，12 项为语言分项，由此可见评卷员 2 未能较好判断考生的语言能力。评卷员 11 和 13（整体评分法）的评分记录中也有较多与模型预测差别较大的记录，两位评卷员都提供了一些“不太可能”的评分。评卷员 11偏宽松（严厉度-0.43），评卷员 13 偏严厉（严厉度 1.47），对部分考生的分数定级存在明显偏差。

　　评卷员 4、9 的均方拟合统计量远小于 1, 两位评卷员可能过度使用了某些评分等级（Linacre 2012）。统计分析表明（表 2），评卷员 4 比较多使用等级四（内容、语言、流畅度、语音语调的次数分别为 213、246、162、213,均接近或超过 80%），尤其是对语言分项打分时，基本只使用等级四（92%）；评卷员 9 则过多使用等级三和四，使用次数分别为 149（32%）和 276 次（60%），两个等级加起来占了总数的 92%.

　　3.3维度和等级差异

　　分析评分中，内容和语言分项双评记录的难度差异显著比语音语调和流畅度分项大。此外，内容和语言分项双评记录的难度值均有显著差异（p < .05），而流畅度和语音语调分项的双评记录难度差异并不显著（p > 0.05），因此造成评卷员间差异的最大来源是内容和语言。

　　测量误差决定试卷信度（Bachman 2000）。古典测试理论假定所有考生的测量误差相同，但 Rasch 模型可以为每个考生提供单独的标准测量误差，测量误差可以通过信息函数得出（余民宁 1993）。考试提供的信息越多，信度越高，测量误差越小（Baker 2001）。分析评分法各分项的信息量分布较均匀；而整体评分的信息函数在 4-6 logits 的范围内信息量几乎为 0,说明考试对该范围考生的测量误差较大，评卷员不能很好地判断该能力水平段的考生。低能力水平考生的信息量比高能力水平考生的信息量高。由评分量表中各等级提供的信息量大小可发现，第一至三等级提供的信息量均比第四、五等级提供的信息量大，说明评卷员使用第一至三等级进行评分比使用第四、五等级更准确。评卷员对高水平考生的评卷准确度把握相对较差。

　　分析还发现，获得语言侧面等级五的人数相对较少（表 3），反映出现今我国英语学习者比较难用适当的语言说话表达的特点。表 4 给出各维度间分数的相关度，各维度间相关度均不高，语言与其他三个维度的相关度相对较高，从某种程度反映出语言是考生在其他维度得分的关键因素。

　　4.讨论

　　4.1分析评分结果与整体评分结果是否有差别

　　分析评分结果与整体评分结果一致度不高，但评卷员使用两种评分方法评分时基本上都围绕内容、语言、语音语调及流畅度四个方面来进行。评卷员在使用整体评分量表时更多关注语言、语音语调和流畅度，对流畅度关注最高，对内容的关注度相对较低。原因可能是判断内容完整性费时耗力，是口试评分的难点。然而，内容完整性是判断口头表达很重要的一部分，所以使用整体评分量表时应要求评卷员加强对内容侧面的重视。

　　目前对口语考试评卷员行为的研究一般是基于研究者通过实验收集到的评分数据（吕长竑等 2008），使用真实考试数据研究评卷员行为的文献还不多。在正式口试评卷中，评卷员的工作量往往较大，由于考试具有较大风险，评卷员承受的压力也大，评卷员在这样的评卷条件下的评分行为、评分策略可能有所变化。例如，为了完成评卷任务，评卷员需要在短时间内评阅完多份试卷，由此造成的压力和评分策略和行为的改变还需进一步进行研究。

　　4.2分析评分的评分员一致性如何

　　评卷结果总体上是可信的，但不同评卷员在使用两种评分方法时存在各种差异。要提高评卷员的评分质量，培训非常重要，及时的偏差分析结果反馈能有效提高评卷质量（Schaefer 2008）。本研究中，可与评卷员 2 讨论语言分项各评分等级的描述，了解该评卷员是否已正确理解各等级描述，并试评数篇范文。可与评卷员 11 和 13 重评有问题的试卷，并找出评分失误的原因。在 8 位分析评分评卷员中，评卷员 4 最宽容，严厉度为-2.19 （表 1），因而应提醒该评卷员适当增加评分严厉度。评卷员 9 过多使用了第三、四等级，存在明显集中趋势。集中趋势是评卷员评分时采取的一个比较常见的安全策略，为了避免给出可能不恰当的极端分数，只使用中间等级分数（Myford & Wolfe 2004）。可邀请评卷员 9 试评数篇分数较低和较高的范文，并与其讨论评分结果。

　　4.3分析评分的分数维度差异如何

　　内容和语言差异明显比流畅度和语音语调差异大。有评卷员反映，判断考生是否回答了所要求的内容比较考验评卷员的记忆力，听的时间越长，越容易忘记考生前面的讲话，回过头再听又费时，操作麻烦。对语言项打分时，有的评卷员往往只根据考生的前面几句话作出判断。相反，考生的流畅度和语音语调很快可以判断准确，较为容易打分。因此，评卷员培训的重点应该放在内容和语言两个分项上，采取技术手段协助或必要时强制要求评卷员听完考生所有录音。

　　与整体评分相比，评卷员使用分析评分各等级准确度更高。但评卷员对高水平考生判断准确度不如低水平考生。评卷员的英语熟练程度可能是影响其评分误差的因素之一（Lee 2009），英语水平不高的评卷员可能没法准确区分能力较高的考生。因此，整体评分法对评卷员的英语水平要求可能比分析评分高，需要进一步研究确认该推断。

　　考生最难获得最高等级分数的维度是语言。然而，数据分析结果显示语言在一定程度上决定了考生在其他侧面的分数。

　　5.结论
　　
　　传统的做事测试的评卷方式是评卷员基于纸笔进行评分，随着现代技术的发展，基于计算机的评卷系统不断出现。研究也表明基于计算机的评卷不但有与纸笔评卷同样好的信度，而且可以提高评卷质量，更有利于评卷质量的监控，增强试卷分发的随机性、隐蔽性（Chuang et al. 2008）。本文使用真实考试数据，分析某大型计算机口语考试分析评分的效果。该口语考试举行集中评分，有利于对评卷员进行统一培训，评卷工作在数天内完成。评卷员在适当的培训后基本能较好适应和使用计算机评卷平台，使用分析评分比整体评分耗时较多，但在熟练掌握评卷技巧后，这种差距明显减少。进行整体评分时，评卷员未能足够关注话题陈述的完整性，评卷员在两种评分方法下都具有显著差异，使用分析评分时差异较小，评卷员内部一致性也较高，使用整体评分法时较易出现集中趋势；评卷员在内容和语言分项较难达成一致，对高水平考生评分的准确度较低。

　　今后评卷员培训应着重加强评卷员对内容完整性和语言准确性两方面的理解和判断，强调口试评分中更多关注考生进行信息表达的能力，而不只是语言形式和流利度。然而，在多次评卷员培训中，笔者发现无论如何强调信息表达的重要性，有些评卷员在讨论中还是不知不觉将注意力过多放在语言形式上，这可能与我国英语教学长期强调语言准确性学习有关。本研究结果表明，基于计算机口试评分使用分析评分较为合适：使用分析评分能逐步提高评卷员对信息表达能力的重视；提高英语教师培养学生用英语表达信息的积极性。分析评分能更好地帮助欠缺经验的评卷员以评分标准为依据评分，降低他们对能力做整体判断的要求，从而在一定程度上保证评分的内一致性（Barkaoui 2011）。

　　显然，评卷员的评分行为在很大程度上受培训影响（Weigle 2002），评卷员差异可能与不同的培训内容（Lumley 2002）、培训方式（Elder et al. 2007）、培训本身的效用（Lim 2011）有关。培训是提高评分信度的一个必要条件（Weigle 1998）。

　　目前，我国口试评卷员培训多采用评分前面对面培训，培训后马上开始评分工作。这样做虽然简捷，但忽略评卷员间的个体差异。另一做法是根据评卷员的个人需要制定培训计划，即评卷员个性化培训。实现个性化培训的方法有多种，例如可以根据评卷员的特征将评卷员分为若干小组，每个小组内根据评卷员特点安排不同的培训内容；或者建立网上培训系统，提前让评卷员通过网络接受培训。

　　本文只分析了 16 位评卷员的评分记录，并未结合评卷员的年龄、性别、性格等特点挖掘其评分规律，未能进一步提供解释评卷行为的各种定性数据。今后研究还需进一步探究造成评卷员差异的原因。

相关内容推荐