大学英语教学在线测试效度初探
??机考与笔考对比
周越美,孙晓龙,归樱
(上海财经大学 外语系,上海 2004
  33)
摘要: 为探讨大学英语学业考试的网上测试效度,我们设计了在线测试系统,进行两次上机考试,一次期 末笔试,一份学生问卷,采集到 41 人样本数据。经均值差异、相关系数等显著性检验,分析问卷信息,发 现两组机考结果的均值虽有显著差异,考分的分布趋势在不同指标上表现不一,但两次机考的标准差非常 接近,其中一组机考与笔考均值检验无显著差异,机考与笔考的考分集中趋势也表现稳定。这些特点表明, 两种考试模式所获得的考试结果基本近似,机考有其适用性。 关键词: 大学英语;机考;笔考;效度检验
中图分类号:H319
文献标识码:A

  1.
引言
近年来,中国高校外语教学正在中国演绎着重大变革,尤其是公共英语教学(即大学英 语教学) 。这一变革将主要体现在教学思想、教学模式,教学测试或评价体系三个方面的调 整和改革(丁伟,2004) 。国家教育部以及新的大学英语教学大纲明确提出,今后的外 语教学要从传统的课堂教学模式逐渐向计算机、网络、教学软件、课堂的综合应用的方向延 伸。为此,教育部在选取百多所高校作为教改试点单位之后,又对一批教改拓展项目进行立 项资助, 其中不少项目的课题都涉及到了现代科技与现代化外语教学的关系这一主旨; 本课 题也是探讨计算机或在线测试用于高校外语教学的效度。 显然, 高速发展的计算机和网络技 术在这场变革中所发挥的独特作用及其与传统模式的相互关系, 已经成为当前外语教学研究 不容忽视的课题。 本文报告基于该拓展项目的研究过程和初步结果。 从研究设计, 到采集本校教改试点班 学生样本、对数据做量化分析、问卷调查等,本文从多种角度考察了传统纸笔考试(下称“笔 考”)和以计算机为媒介的考试(下称“机考”或“在线测试”)之间的关系,以探索机考进入大 学英语课程的校内考试的有效程度。
  2. 笔考、机考的对比研究概述
笔考转向机考,起于上世纪六、七十年代的军事和临床心理测验领域(Russell et. al. 2003: 2
  80) ,后来扩展到智商测验、认知能力测试、职业兴趣测试等范围。这样的转向当初 主要是为了便于控制测试中的变量,减少考试偏见,提高施考效率,把研究人员从单调的施 考及分数计算中解脱出来。 早期研究机考与笔考的关系, 多采用把同样的试题分别用于笔考
和机考的方法,以检验其结果可互相替代的程度。有人发现,笔考转向机考的替代程度(或 两者之间的关系) ,存在较高相关。如在个性测量(Evan & Miller 19
  69,Bisken & Kolotkin 19
  77,Bresolin, 19
  84) 、认知能力或智商测量(Elwood 1969; Elwood & Griffin, 19
  72)方面, 笔考与机考的相关可达
  0.90 以上,而在心理测试上(Scissons 19
  76,Watts et al.19
  82, Fouladi R.T. et al.20
  02)两者几无显著差异。 在教育领域,笔考转机考在 1985 年之前虽不多见,但有研究发现,数学科目机考的分 数均值低于还是高于笔考, 主要取决于机考中的答题需打草稿或作图的程度。 当初会影响机 考结果的因素还包括:取样的随意性、计算机不普及、计算机使用能力差异、软件不允许回 看试题或跳做后面的题等(Russell et. al. 2003: 2
  82) 。 1986 年对于教育领域的笔考转机考改革具有特殊意义。 那年, 美国心理协会 (American Psychological Association 或 APA)提出了机考及其分数解释的一个指导原则(Guidelines for Computer-Based Tests and Interpretations) ,规定机考和笔考如果满足分数均值、标准 差、考生等级相同三个条件,机考分与笔考分可视为等值(Russell et. al. 2003: 2
  82) 。 九十年代之后, 效度研究开始关注如何在机考中让计算机有效发挥作用, 如机考的测试 软件编制要让考生能够回看试题及修改答案(reviewing and revising) ,屏幕上如何有效展 现试题和图表(item layout and presentation of graphics) ,以及如何使考生上机熟练操作 (comfort with computers)等。有人提议,无论计算机的普及程度如何,应当允许考生选择参 加机考还是笔考(Russell et. al. 2003:2
  89)才更公平,因为总体看,机考对熟悉计算机者 更有利。 经历了几十年的缓慢起步后, 今后数年内, 教育领域的机考有可能在越来越多地国家和 地区成为笔考的转向(Russell et. al. 20
  03:2
  80) 、延伸或补充。笔考转机考,只要有质量 控制,显然能大大提高教育领域的施考效率,降低印卷、送卷等环节的考试成本,也极大地 方便了现代教育研究、测试研究或其他教学研究收集样本数据的需要。
  3. 研究设计
本项目设计包括准备工作、数据采集和数据分析三个环节,有原设计与现结构之分。因 教辅、管理等原因,较完整的原设计便删繁就简(除了自编软件一环更趋复杂) ,可图示如 下:
环节
原设计
现结构
获取和了解有关测试系统及试题 确定具体研究问题及研究假设 准备 工作 确定试点班学生样本组 300 人,对照组 300 人,任课教师 6 人为试卷和问卷使用对象 准备1份标准化水平考试卷,期初用 准备学生问卷、教师问卷 施考:1次期中机考、1次期初笔考、1次期末笔考;共获 数据 采集 考后做问卷:1份学生问卷,1份教师问卷,共获二组数据 三组考分数据
自行编制和安装测试软件系统 确定试点班学生样本组 41 人为 试卷使用对象
施考:2次期中机考、1次期初 笔考、1次期末笔考;共获四组 考分数据 考后做问卷:1份学生问卷,由 样本组、对照组两类学生做,共
获二组数据 分析三组数据:1组机考分、2组期初期末笔考分;各组含 样本组 300 人、对照组 300 人 数据 分析 分析二组数据:1组学生问卷、1组教师问卷;学生组数据 含样本组 300 人、对照组 300 人,教师组数据含任课教师 6 人、非任课教师对照组至少 6 人 报告研究过程和研究发现 分析三组数据:2组机考分、1 组期末笔考分; 各组含样本考生 41 人 分析二组数据: 2组学生问卷, 含样本组 41 人,对照组 66 人
对照原设计和现结构,不难发现前后的改变,主要有:样本数骤减、考分无对照组、无 标准卷考分、 教师无问卷等, 可见本项目之起步艰难。 现结构的亮点是自行设计的测试系统, 在当时是无奈之举:服务器购买无法落实,所了解的现成测试体系实不可用(另文) ,而时 间在一天天流逝,学期内的施考时间不容拖延,等等。现在看,这些实地研究之难处可谓前 车之鉴,宝贵经验。由此,本项目数据采集的现框架为:

  4.
效度检验-量化分析
据此框架和所获数据,本文主要围绕考分描述、均值检验、相关系数、依存度等方面展 开效度分析, 先简单界定几个常用术语。 CR 考试,
  1) 指标准参照性考试(criterion-reference) 考试,与常模参照性(norm-referenced, or NR)考试相对;CR 考试为测试具体阶段所学, NR 考试为测试抽象语言能力(Brown 2002:
  2) 。学校的平时测验、期中或期末考试等,考 察的是学生对该阶段所学(特定领域)知识的掌握程度(Bachman,1990:
  72) ,原则上, 考生在这类考试中应答对所有试题,教师则据此标准设定一个决定标准??及格线;故此, 这类课程考试大都为 CR 考试。笔者将大学英语课程教学考试归作此类,与全国四六级、四 八级统考、国际上的 TOEFL、IELTS 等考试相对。
  2)效度检验,指测试质量的论证过程。一如律师受理案子,多方取证才能达到辩护目 的, 效度检验也即取证过程(Messick 1989, in Brown et al.2002:240 & Bachman 2004:2
  62), 证据越多样化越有说服力(Bachman 2004:2
  60) ,最终达到说明某项考试使用正当、考分 解释合理之目的。多样化效度证据主要源自考生、考题和考分等方面的信息(周越美 2004:
  61) ,也称认知效度(考生特点、考试背景) 、试题内容与答题效度、评分效度,更全 面些还可考察考试以外的结果效度(Weir 20
  05:46-
  47;Shaw & Weir, in press) 。下文主 要关注考分和考生信息。
  3)量化分析,效度论证方法之一,指对量化信息的统计推理,与处理非量化信息的逻
辑推理相对。这两种分析方法也称实验观察和逻辑论证(Bachman 20
  04:2
  57) 。本文将对 两机考做量化分析,同时也将结果与传统笔考进行比较。因针对的 CR 考试,有些量化指标 会不同于常见的 NR 指标,如称依存系数(dependability coefficient)而不是 NR 考试的信 度系数(reliability coefficient) ,而名称不同其计算方法也不全一样(Bachman 19
  90: 211-2
  12) 。
考分描述 由于计量误差等非考试因素再怎样精心设计也不可能完全控制, 信度研究的
一个关键就是观察考分特点,因考分能折射出这类误差的影响(Bachman 2004:1
  54) 根据现设计,考分数据共有三组,两次机考(A
  1、A
  2)和一次笔考(B)。考虑到两次 机考在结构、题量、计分方法上相同,但所考内容不同(课本前后单元),而机考与笔考在结 构、内容、计分方法上都不同,原始分需经过转换才具可比性(Bachman 2004:2
  95);转 换后,原始分都被放在了同一标度尺上,起点为
  0,最高分为1
  00(Bahman 2004:3
  01) 。下 表左侧为原始分的统计描述,右侧为经过转换后的考分描述,也是下文分析的依据。为拓宽 ,有必 观察面,我们尝试把两次机考结果平均,作为第四组数据(见表1中最右侧的Amix列) 要时下文也作比较;该组没有百分,说明两次机考中获最高分的考生非同一人。 三次考试的考生人数相同(
  41),试题量接近(两次机考各100题,一次笔考101题)。 观察集中趋势,转换分中三组考分的均值(Mean)显示A2与B相近(
  80.
  07、
  81.
  58),都 略低于A1(
  84.
  75);同样的趋势也大致表现在中位数(Median)和众数(Mode)上(A1的众 数略低)。第二次机考与期末笔考的关系在考分的集中程度上表现较接近。 观察分布趋势, 这三组考分的标准差 (Std. Deviation) 显示A1与A2接近 (
  10.
  41、
  10.
  69) , 均略高于B(
  9.
  91);而全距(Range)值则显示A1与B接近(
  39.
  8、
  41.
  3),均低于A2(
  52.
  9); 最低分也显示A1与B接近(
  60.
  2、
  58.
  7)。这说明,两次机考本身、两次机考分别与期末笔 考在考分分布上有关系,但表现不稳定。
对此进一步作直方图观察,发现各组分数大都位于正态弧峰的略偏右(即负偏斜,为 CR考分的特点),其中A1最为显著,而A2则表现暧昧。表1中的偏斜度和峰度值已将这些现 象具体到了数字,除A2峰度值外,其余都呈负值。
均值检验 前面的考分集中度描述提到,A
  2、B 两组考分的均值相近,与 A1 差异略大,
这种近似或差异是否有显著性,还有待统计检验。为此建立如下两组假设,每组中的 a 为零
假设,b 为研究假设(Bachman 2004:2
  16) ,第二组假设中又含三对分假设: 第一组: a. 机考与机考之间没有差异,即 H
  0:A1=A2 b. 机考与机考之间存在差异,即 H
  1:A1≠A2 第二组: a. 机考与笔考之间没有差异,即 H
  0:A1=B b. 机考与笔考之间存在差异,即 H
  1:A1≠B A2=B A2≠B Amix=B Amix≠B
将表1中的四个转换分均值做配对 t (双向)检验,发现两次机考的均值之间(第一对) 存在显著差异(表
  2) ,第一次机考和笔考之间(第二对)也有显著差异,而A2和B之间(第 三对)则无显著差异,两次机考平均后与笔考均值比较(第四对) ,也无显著差异。据此, 可拒绝上述第一组假设中的a而接受b,即两次机考的均值在
  0.05水平上存在显著差异 ;同时可拒绝第二组假设中的第一对分假设b而接受第二对、第三对分假设中的a, (A1≠A
  2) ,而第二次机考与笔考的均值有 即第一次机考与笔考的均值在.05水平上差异显著(A1≠B) ,两次机考的合成分与笔考的均值在
  0.05水平上也无显著差 95%的可能无显著差异(A2=B) 。 异(Amix=B) 表 2
df=40 t
均值配对样本t检验
p =
  0.05 拒绝H
  0,有显著差异 同上 接受H
  0,无显著差异 同上
Sig.(2-tailed) .020 .041 .354 .502
第一对 A1 与 A2
  2.433 第二对 A1 与 B
  2.109 第三对 A2 与 B -.938 第四对Amix 与 B -.678
相关系数检验 相关系数是许多检验信度和效度方法的核心所在 (Ba
 

相关内容

浅谈小学英语教学

   浅谈小学英语教学 文昌市东郊中心小学 符青蝶 随着信息化时代的到来,世界经济的融合和英语的日益国际化, “地球 村”正在变成现实。中国加入 WTO,也对 21 世纪我国公民的人文素质提 出了更高的要求。英语教育在我国的普及已拉开序幕,教育部做出决定从 2001 年秋季起,积极推进小学(从三年级起)开设英语课。那么,如何教 好小学英语呢?下面是笔者的几点浅见: 一、激发学生学习英语的兴趣 孔子说: “知之者不如好之者,好之者不如乐之者。 ”著名科学家爱因 斯坦说过: “兴趣是最好的老师。 ”陶 ...

小学英语教学法1

   小学英语教育学 指教:盛礼萍 联络方式:7227806 联络方式:7227806 slp406@yahoo.com.cn Learning aims Understand the practical aspects of teaching English. Know the methodological basis for teaching English. Grasp the practical and real-life activities realand techniques as ...

电子词典与中学英语教学

   电子词典与英语教学 沛县第二中学 孔晓明 牛津高中英语第七模块第一单元 Living With Technology 中讲述了电子词典等电子产品 与当今生活的关系。笔者注意到在学生中间,电子词典已达到了相当的普及程度。对电子词 典的使用,作者做了一番探究。 电子词典在载体形式、便携程度、使用方式、功能特征等诸多方面比起传统纸质字典 来由诸多优点。他们的主要功能为学生学习英语时提供了许多方便。 1. 屏幕取词。光标可在屏幕内任意移动,并将所指单词连接到对应的中文或英语释义。这 特别适宜当今社会 ...

英语口语测试与口语教学

   ○ 外语教学与研究 2007年第18期 考试 周刊 英语口语测试与口语教学 陈 清 510520 ) ( 广东司法警官职业学院, 广东 广州 摘 要: 口语测试对口语教学有回波作用, 因此英语测试 应纳入口语测试, 其实施有助于改进目前的英语教学现状。 本 文详细论述了交际能力理论影响下的口语测试的题型、成绩 评定方法, 以及课堂口语教学模式, 并提出应重视课堂评估, 建立起教、 考三位一体的口语教学体系的建议。 学、 关键词: 交际能力 英语口语测试 英语口语教学 回波 效应 评估 一、 ...

浅谈小学英语教学中_润_情操

   浅谈小学英语教学中“ 浅谈小学英语教学中“润”情操、“磨”意志的培养 情操、 美国教育学家布卢姆说过“一个有情操学习课程的学生,应该比那些缺乏感情、乐趣或兴趣 的学生,或者比那些对学习材料感到焦虑和恐惧的学生,学习的更加轻松,更加迅速。”积极学 习英语的过程就是智力因素和情操因素的协调发展,如果把学生的“智商”和“情商”做主动比 喻,学生的“智商”是露出水面的一部分,而“情商”是沉在水下的大部分,那么我们在英语教 学中设法挖掘出学生的“情商”,使学生的认知因素和情操因素得到和谐的统一,就能进 ...

前小学英语教学中_润_情操的

   浅谈小学英语教学中“ 浅谈小学英语教学中“润”情操、“磨”意志的培养 情操、 美国教育学家布卢姆说过“一个有情操学习课程的学生,应该比那些缺乏感情、乐趣或兴趣 的学生,或者比那些对学习材料感到焦虑和恐惧的学生,学习的更加轻松,更加迅速。”积极学 习英语的过程就是智力因素和情操因素的协调发展,如果把学生的“智商”和“情商”做主动比 喻,学生的“智商”是露出水面的一部分,而“情商”是沉在水下的大部分,那么我们在英语教 学中设法挖掘出学生的“情商”,使学生的认知因素和情操因素得到和谐的统一,就能进 ...

倡导在小学英语教学中渗透

   倡导在小学英语教学中渗透 姜志林 内容摘要: 内容摘要: 英语作为国际交往的语言,使得NA世界各国领域都起到了沟通,交流的媒介。 随着时代的发展和社会的进步,英语已从一种工具变成了一种思想,一种知识库。 《英语新课程标准》的实施,对于小学英语教学提出了新的理念,如何感悟,渗 透,落实课标,构建全新的课堂教学境界,本人以为英语教学应该积极倡导以人 为本的理念,渗透人文的关怀。 关键词: 关键词:英语 数学 人文关怀 新的世纪是一个人文价值逐步走向趋同的世纪,新的世纪对教育教学提出了 “创新精神 ...

网络环境下的小学英语教学

   利用多媒体结合网络环境 实现小学英语教学 小学英语教学的可持续发展 实现小学英语教学的可持续发展 黔江区城南青杠小学 艾巧灵 摘要:随着我区远程教育模式的展开,第三模式的普及,网络教育正逐步 成为我们实际教学中先进的教育基础设施。网络技术由于能跨越时空界限,并 能提供界面友好、形象直观的交互式学习环境,对发挥学生的主体作用、创建 新型的教学结构提供了一个理想的教学环境。在小学英语教学中,运用网络技 术教学能为进一步实现教学目标提供一个平台。不但有利于英语语言环境的创 设, 还能提高学生学习英 ...

强烈推荐小学英语教学反思三

   小学英语教学反思] [小学英语教学反思] 新教材为我们提供了很好的听、说、读、写训练内容,通过听听、说说、唱唱、做 做,先培养语感,培养兴趣,然后进入字母教学。让学生在快乐中学习英语,让知识中获得成功感。我是 一位从教 5 年之久的英语教师,从初中到小学亲自目睹了新课改带给我们老师、学生的巨大变化和无穷的 益处。在我带第二轮三年级教材之后的今天,有了许多的心得感受和反思,写出来与各位分 享。 一、 课前 3 分钟自由谈(Free Talk),增强师生情感,训炼学生听说能力。 每节 课开课以前 ...

小学英语课堂教学中形成性评价初探

   小学英语课堂教学中形成性评价初探 桃浦中心小学 王建华 一、问题的提出 教学评价是教学活动中不可或缺的一个重要组成部分。 对学生的评价是 教学评价的重点。 它对教与学的活动有着巨大的导向作用, 这是不争的事实。 目前, 英语教学的评价方式主要是终结性评价。 这种评价方式发生在一个学 习阶段结束后,其目的是评估学生是否达到和在多大程度上达到了教学目 标;它关注的是学习的结果;它评价的是学习内容中易于量化的方面,如知 识、技能等,成绩多以精确的百分制来表达。由于这种评价方式是以考试成 绩作为最终 ...

热门内容

710分制英语四级考试分值和考试流程时间

   710 分制英语四级考试分值和考试流程时间: 新四级考试各题分值分配: 作文 15% 快速阅读 10% 听力分别是 15% 10% 10% 选词填空 5% 2 篇阅读 20% 完形 10% 翻译 5% 就所测试的语言能力而言,试点阶段的四级考试由以下四个部分构成:1)听力理解; 2)阅读理解;3)完型填空或改错;4)写作和翻译。 听力理解部分分值比例为 35%;其中听力对话 15%,听力短文 20%。听力对话部分包 括短对话和长对话的听力理解;听力短文部分包括选择题型的短文理解和复合式听写。 ...

初中英语单词

   收录初中英语课本全部单词,中英对照,有词性,有发音,全得不能再全了了了 英语 汉语 (not)...any more 100-metre race a a bit(of) a bottle of a few a glass of a kind of a little a lot a moment ago a moment later a pair of a piece of a place of interest a shop assistant a TV set a waste of ti ...

一位清华学子英语学习心得体会

   一位清华学子英语学习心得体会 人生总是面临着无数次选择。当你一次次站在十字路口的时候,你可曾彷徨、可曾无助、可曾一筹莫展?可是当你经过深思熟虑作出决定后,我想你已经找到了自己继续前进的方向!而接下来的问题可能更加严峻,你会发现原来按你选择的方向前进是那么的步履维艰、困难重重!前途似乎渺茫,而且好象已没有了退路。   我想上述情况可以说是我们大家通常都会遇到的一种极其普遍的现象,当然因人而异,程度会有所不同。但是当你有类似经历的时候,我想也许下面的一段话会对你有所帮助(恕鄙人浅薄,因为本人第一次 ...

英语教案七上Uni1 Topic1

   Unit 1 Topic 1 Section A The main activities are 1a, 2a and 3a. 本课重点活动是 1a, 2a 和 3a。 Ⅰ.Teaching aims and demands 教学目标 1.(1)Learn the letters Aa-Gg. (2)Learn some useful words and expressions: good, morning, welcome, to, China, thank, you, hello, I, ...

四年级英语上册lesson13教学步骤

   教学步骤与建议 1. 热身/复习 (Warm-up/Revision) 1) 组织学生齐唱歌曲 It's time to go to school,活跃课堂英语气氛。 2) 教师带领学生一起复习数字 1 至 20 的英语说法。可以用自制数字卡片,也 可以采取教师说汉语、学生说英语的形式。 2. 新课导入 (Presentation) 1) 复习完词汇以后, 教师可以把数字 20 的单词卡和数字 1 的单词卡放在一起, 学生:What is twenty and one? 启发学生说出本课生词 ...