大学英语教学在线测试效度初探
??机考与笔考对比
周越美,孙晓龙,归樱
(上海财经大学 外语系,上海 2004
  33)
摘要: 为探讨大学英语学业考试的网上测试效度,我们设计了在线测试系统,进行两次上机考试,一次期 末笔试,一份学生问卷,采集到 41 人样本数据。经均值差异、相关系数等显著性检验,分析问卷信息,发 现两组机考结果的均值虽有显著差异,考分的分布趋势在不同指标上表现不一,但两次机考的标准差非常 接近,其中一组机考与笔考均值检验无显著差异,机考与笔考的考分集中趋势也表现稳定。这些特点表明, 两种考试模式所获得的考试结果基本近似,机考有其适用性。 关键词: 大学英语;机考;笔考;效度检验
中图分类号:H319
文献标识码:A

  1.
引言
近年来,中国高校外语教学正在中国演绎着重大变革,尤其是公共英语教学(即大学英 语教学) 。这一变革将主要体现在教学思想、教学模式,教学测试或评价体系三个方面的调 整和改革(丁伟,2004) 。国家教育部以及新的大学英语教学大纲明确提出,今后的外 语教学要从传统的课堂教学模式逐渐向计算机、网络、教学软件、课堂的综合应用的方向延 伸。为此,教育部在选取百多所高校作为教改试点单位之后,又对一批教改拓展项目进行立 项资助, 其中不少项目的课题都涉及到了现代科技与现代化外语教学的关系这一主旨; 本课 题也是探讨计算机或在线测试用于高校外语教学的效度。 显然, 高速发展的计算机和网络技 术在这场变革中所发挥的独特作用及其与传统模式的相互关系, 已经成为当前外语教学研究 不容忽视的课题。 本文报告基于该拓展项目的研究过程和初步结果。 从研究设计, 到采集本校教改试点班 学生样本、对数据做量化分析、问卷调查等,本文从多种角度考察了传统纸笔考试(下称“笔 考”)和以计算机为媒介的考试(下称“机考”或“在线测试”)之间的关系,以探索机考进入大 学英语课程的校内考试的有效程度。
  2. 笔考、机考的对比研究概述
笔考转向机考,起于上世纪六、七十年代的军事和临床心理测验领域(Russell et. al. 2003: 2
  80) ,后来扩展到智商测验、认知能力测试、职业兴趣测试等范围。这样的转向当初 主要是为了便于控制测试中的变量,减少考试偏见,提高施考效率,把研究人员从单调的施 考及分数计算中解脱出来。 早期研究机考与笔考的关系, 多采用把同样的试题分别用于笔考
和机考的方法,以检验其结果可互相替代的程度。有人发现,笔考转向机考的替代程度(或 两者之间的关系) ,存在较高相关。如在个性测量(Evan & Miller 19
  69,Bisken & Kolotkin 19
  77,Bresolin, 19
  84) 、认知能力或智商测量(Elwood 1969; Elwood & Griffin, 19
  72)方面, 笔考与机考的相关可达
  0.90 以上,而在心理测试上(Scissons 19
  76,Watts et al.19
  82, Fouladi R.T. et al.20
  02)两者几无显著差异。 在教育领域,笔考转机考在 1985 年之前虽不多见,但有研究发现,数学科目机考的分 数均值低于还是高于笔考, 主要取决于机考中的答题需打草稿或作图的程度。 当初会影响机 考结果的因素还包括:取样的随意性、计算机不普及、计算机使用能力差异、软件不允许回 看试题或跳做后面的题等(Russell et. al. 2003: 2
  82) 。 1986 年对于教育领域的笔考转机考改革具有特殊意义。 那年, 美国心理协会 (American Psychological Association 或 APA)提出了机考及其分数解释的一个指导原则(Guidelines for Computer-Based Tests and Interpretations) ,规定机考和笔考如果满足分数均值、标准 差、考生等级相同三个条件,机考分与笔考分可视为等值(Russell et. al. 2003: 2
  82) 。 九十年代之后, 效度研究开始关注如何在机考中让计算机有效发挥作用, 如机考的测试 软件编制要让考生能够回看试题及修改答案(reviewing and revising) ,屏幕上如何有效展 现试题和图表(item layout and presentation of graphics) ,以及如何使考生上机熟练操作 (comfort with computers)等。有人提议,无论计算机的普及程度如何,应当允许考生选择参 加机考还是笔考(Russell et. al. 2003:2
  89)才更公平,因为总体看,机考对熟悉计算机者 更有利。 经历了几十年的缓慢起步后, 今后数年内, 教育领域的机考有可能在越来越多地国家和 地区成为笔考的转向(Russell et. al. 20
  03:2
  80) 、延伸或补充。笔考转机考,只要有质量 控制,显然能大大提高教育领域的施考效率,降低印卷、送卷等环节的考试成本,也极大地 方便了现代教育研究、测试研究或其他教学研究收集样本数据的需要。
  3. 研究设计
本项目设计包括准备工作、数据采集和数据分析三个环节,有原设计与现结构之分。因 教辅、管理等原因,较完整的原设计便删繁就简(除了自编软件一环更趋复杂) ,可图示如 下:
环节
原设计
现结构
获取和了解有关测试系统及试题 确定具体研究问题及研究假设 准备 工作 确定试点班学生样本组 300 人,对照组 300 人,任课教师 6 人为试卷和问卷使用对象 准备1份标准化水平考试卷,期初用 准备学生问卷、教师问卷 施考:1次期中机考、1次期初笔考、1次期末笔考;共获 数据 采集 考后做问卷:1份学生问卷,1份教师问卷,共获二组数据 三组考分数据
自行编制和安装测试软件系统 确定试点班学生样本组 41 人为 试卷使用对象
施考:2次期中机考、1次期初 笔考、1次期末笔考;共获四组 考分数据 考后做问卷:1份学生问卷,由 样本组、对照组两类学生做,共
获二组数据 分析三组数据:1组机考分、2组期初期末笔考分;各组含 样本组 300 人、对照组 300 人 数据 分析 分析二组数据:1组学生问卷、1组教师问卷;学生组数据 含样本组 300 人、对照组 300 人,教师组数据含任课教师 6 人、非任课教师对照组至少 6 人 报告研究过程和研究发现 分析三组数据:2组机考分、1 组期末笔考分; 各组含样本考生 41 人 分析二组数据: 2组学生问卷, 含样本组 41 人,对照组 66 人
对照原设计和现结构,不难发现前后的改变,主要有:样本数骤减、考分无对照组、无 标准卷考分、 教师无问卷等, 可见本项目之起步艰难。 现结构的亮点是自行设计的测试系统, 在当时是无奈之举:服务器购买无法落实,所了解的现成测试体系实不可用(另文) ,而时 间在一天天流逝,学期内的施考时间不容拖延,等等。现在看,这些实地研究之难处可谓前 车之鉴,宝贵经验。由此,本项目数据采集的现框架为:

  4.
效度检验-量化分析
据此框架和所获数据,本文主要围绕考分描述、均值检验、相关系数、依存度等方面展 开效度分析, 先简单界定几个常用术语。 CR 考试,
  1) 指标准参照性考试(criterion-reference) 考试,与常模参照性(norm-referenced, or NR)考试相对;CR 考试为测试具体阶段所学, NR 考试为测试抽象语言能力(Brown 2002:
  2) 。学校的平时测验、期中或期末考试等,考 察的是学生对该阶段所学(特定领域)知识的掌握程度(Bachman,1990:
  72) ,原则上, 考生在这类考试中应答对所有试题,教师则据此标准设定一个决定标准??及格线;故此, 这类课程考试大都为 CR 考试。笔者将大学英语课程教学考试归作此类,与全国四六级、四 八级统考、国际上的 TOEFL、IELTS 等考试相对。
  2)效度检验,指测试质量的论证过程。一如律师受理案子,多方取证才能达到辩护目 的, 效度检验也即取证过程(Messick 1989, in Brown et al.2002:240 & Bachman 2004:2
  62), 证据越多样化越有说服力(Bachman 2004:2
  60) ,最终达到说明某项考试使用正当、考分 解释合理之目的。多样化效度证据主要源自考生、考题和考分等方面的信息(周越美 2004:
  61) ,也称认知效度(考生特点、考试背景) 、试题内容与答题效度、评分效度,更全 面些还可考察考试以外的结果效度(Weir 20
  05:46-
  47;Shaw & Weir, in press) 。下文主 要关注考分和考生信息。
  3)量化分析,效度论证方法之一,指对量化信息的统计推理,与处理非量化信息的逻
辑推理相对。这两种分析方法也称实验观察和逻辑论证(Bachman 20
  04:2
  57) 。本文将对 两机考做量化分析,同时也将结果与传统笔考进行比较。因针对的 CR 考试,有些量化指标 会不同于常见的 NR 指标,如称依存系数(dependability coefficient)而不是 NR 考试的信 度系数(reliability coefficient) ,而名称不同其计算方法也不全一样(Bachman 19
  90: 211-2
  12) 。
考分描述 由于计量误差等非考试因素再怎样精心设计也不可能完全控制, 信度研究的
一个关键就是观察考分特点,因考分能折射出这类误差的影响(Bachman 2004:1
  54) 根据现设计,考分数据共有三组,两次机考(A
  1、A
  2)和一次笔考(B)。考虑到两次 机考在结构、题量、计分方法上相同,但所考内容不同(课本前后单元),而机考与笔考在结 构、内容、计分方法上都不同,原始分需经过转换才具可比性(Bachman 2004:2
  95);转 换后,原始分都被放在了同一标度尺上,起点为
  0,最高分为1
  00(Bahman 2004:3
  01) 。下 表左侧为原始分的统计描述,右侧为经过转换后的考分描述,也是下文分析的依据。为拓宽 ,有必 观察面,我们尝试把两次机考结果平均,作为第四组数据(见表1中最右侧的Amix列) 要时下文也作比较;该组没有百分,说明两次机考中获最高分的考生非同一人。 三次考试的考生人数相同(
  41),试题量接近(两次机考各100题,一次笔考101题)。 观察集中趋势,转换分中三组考分的均值(Mean)显示A2与B相近(
  80.
  07、
  81.
  58),都 略低于A1(
  84.
  75);同样的趋势也大致表现在中位数(Median)和众数(Mode)上(A1的众 数略低)。第二次机考与期末笔考的关系在考分的集中程度上表现较接近。 观察分布趋势, 这三组考分的标准差 (Std. Deviation) 显示A1与A2接近 (
  10.
  41、
  10.
  69) , 均略高于B(
  9.
  91);而全距(Range)值则显示A1与B接近(
  39.
  8、
  41.
  3),均低于A2(
  52.
  9); 最低分也显示A1与B接近(
  60.
  2、
  58.
  7)。这说明,两次机考本身、两次机考分别与期末笔 考在考分分布上有关系,但表现不稳定。
对此进一步作直方图观察,发现各组分数大都位于正态弧峰的略偏右(即负偏斜,为 CR考分的特点),其中A1最为显著,而A2则表现暧昧。表1中的偏斜度和峰度值已将这些现 象具体到了数字,除A2峰度值外,其余都呈负值。
均值检验 前面的考分集中度描述提到,A
  2、B 两组考分的均值相近,与 A1 差异略大,
这种近似或差异是否有显著性,还有待统计检验。为此建立如下两组假设,每组中的 a 为零
假设,b 为研究假设(Bachman 2004:2
  16) ,第二组假设中又含三对分假设: 第一组: a. 机考与机考之间没有差异,即 H
  0:A1=A2 b. 机考与机考之间存在差异,即 H
  1:A1≠A2 第二组: a. 机考与笔考之间没有差异,即 H
  0:A1=B b. 机考与笔考之间存在差异,即 H
  1:A1≠B A2=B A2≠B Amix=B Amix≠B
将表1中的四个转换分均值做配对 t (双向)检验,发现两次机考的均值之间(第一对) 存在显著差异(表
  2) ,第一次机考和笔考之间(第二对)也有显著差异,而A2和B之间(第 三对)则无显著差异,两次机考平均后与笔考均值比较(第四对) ,也无显著差异。据此, 可拒绝上述第一组假设中的a而接受b,即两次机考的均值在
  0.05水平上存在显著差异 ;同时可拒绝第二组假设中的第一对分假设b而接受第二对、第三对分假设中的a, (A1≠A
  2) ,而第二次机考与笔考的均值有 即第一次机考与笔考的均值在.05水平上差异显著(A1≠B) ,两次机考的合成分与笔考的均值在
  0.05水平上也无显著差 95%的可能无显著差异(A2=B) 。 异(Amix=B) 表 2
df=40 t
均值配对样本t检验
p =
  0.05 拒绝H
  0,有显著差异 同上 接受H
  0,无显著差异 同上
Sig.(2-tailed) .020 .041 .354 .502
第一对 A1 与 A2
  2.433 第二对 A1 与 B
  2.109 第三对 A2 与 B -.938 第四对Amix 与 B -.678
相关系数检验 相关系数是许多检验信度和效度方法的核心所在 (Ba
 

相关内容

大学英语教学在线测试效度初探

   大学英语教学在线测试效度初探 ??机考与笔考对比 周越美,孙晓龙,归樱 (上海财经大学 外语系,上海 200433) 摘要: 为探讨大学英语学业考试的网上测试效度,我们设计了在线测试系统,进行两次上机考试,一次期 末笔试,一份学生问卷,采集到 41 人样本数据。经均值差异、相关系数等显著性检验,分析问卷信息,发 现两组机考结果的均值虽有显著差异,考分的分布趋势在不同指标上表现不一,但两次机考的标准差非常 接近,其中一组机考与笔考均值检验无显著差异,机考与笔考的考分集中趋势也表现稳定。这些特点 ...

大学英语教学法论文

   大学英语教学法论文: 大学英语教学法论文:基于交互式教学法的大学英语听力教学 【摘要】 如何在听力课堂上增强听力教学的交互性,从而改变教学的单一现状,激发学生 学习兴趣,调动学生学习热情,使每一节听力课都能真正收到良好的教学效果。 【关键词】大学英语听力;交互式语言教学;交互式听力教学 0 引长期以来,大学英语听力教学模式都是以教师为中心,教师的“一言课堂”的传统 教学模式。在这样的教学模式中,教师成为教学的主体,学生基本处于被动状态,师生之间 缺乏感情沟通和知识信息的交流,课堂气氛枯燥,学 ...

大学英语教学中如何提高英语口语的应用能力

   May 2009, Volume 7, No.5 (Serial No.68) US-China Foreign Language, ISSN 1539-8080, USA 大学英语教学中如何提高英语口语的应用能力 祝丽萍 (大庆石油学院外国语学院,黑龙江大庆 163318) 摘 要:随着中国在世界地位的不断攀升,与世界的交流越来越多,因此对具有较强外语交际能力的 人才需求日益增加,本文分析了大学公共英语口语教学的现状与存在的问题,探讨了提高英语口语的应用 技能的基本培训方法。 关键词:大学 ...

5单元在线测试【英语】

   在线测试 考试说明:测试时间限制仅针对 A 卷 A 卷 开始测试 单项选择 1.What are you doing Sunday morning? A.on B.in C.at D./ 2.He help his mother do some housework. A.have to B.has to C.have to do 3.There is water in the glass. D.don't have to A.too many B.many too C.too much 4. ...

小学英语教学法读书笔记

   《小学英语教学法》读书笔记 小学英语教学法》 小学英语教学法》一书中指出,小学生学习外语具有模仿力强 小学生学习外语具有模仿力强, 《小学英语教学法》一书中指出 小学生学习外语具有模仿力强 记忆力好,勇于开口等特点和优越条件 对今后进一步学好英语 记忆力好 勇于开口等特点和优越条件,对今后进一步学好英语 培养用 勇于开口等特点和优越条件 对今后进一步学好英语,培养用 英语进行交际的能力,将起着及其重要的作用 因此 英语进行交际的能力 将起着及其重要的作用.因此 作为一名小学英语 将起着及其重 ...

电子词典与中学英语教学

   电子词典与英语教学 沛县第二中学 孔晓明 牛津高中英语第七模块第一单元 Living With Technology 中讲述了电子词典等电子产品 与当今生活的关系。笔者注意到在学生中间,电子词典已达到了相当的普及程度。对电子词 典的使用,作者做了一番探究。 电子词典在载体形式、便携程度、使用方式、功能特征等诸多方面比起传统纸质字典 来由诸多优点。他们的主要功能为学生学习英语时提供了许多方便。 1. 屏幕取词。光标可在屏幕内任意移动,并将所指单词连接到对应的中文或英语释义。这 特别适宜当今社会 ...

前学英语教学衔接之我见的

   中小学英语教学衔接之我见 宝华中学 王琴 作为初中的英语老师,常常面临中小学衔接问题。小学生升入初中一年级 前,已经学习了几年英语,并且对基本的英语交际用语、简单的句型以及基本语 音知识等有了一定的基础。当他们进入中学后,英语学习既是小学英语的终点, 又是初中英语的起点。 如果小学英语教师还是按传统的英语教学模式和方法从事 英语教学活动,势必会极大地破坏学生学习英语的积极性。这样中学英语教师难 免会埋怨小学英语教师没有为学生学习英语打下良好的基础。 小学的英语教学任务主要是培养学生听说方面的 ...

前小学英语教学中_润_情操的

   浅谈小学英语教学中“ 浅谈小学英语教学中“润”情操、“磨”意志的培养 情操、 美国教育学家布卢姆说过“一个有情操学习课程的学生,应该比那些缺乏感情、乐趣或兴趣 的学生,或者比那些对学习材料感到焦虑和恐惧的学生,学习的更加轻松,更加迅速。”积极学 习英语的过程就是智力因素和情操因素的协调发展,如果把学生的“智商”和“情商”做主动比 喻,学生的“智商”是露出水面的一部分,而“情商”是沉在水下的大部分,那么我们在英语教 学中设法挖掘出学生的“情商”,使学生的认知因素和情操因素得到和谐的统一,就能进 ...

倡导在小学英语教学中渗透

   倡导在小学英语教学中渗透 姜志林 内容摘要: 内容摘要: 英语作为国际交往的语言,使得NA世界各国领域都起到了沟通,交流的媒介。 随着时代的发展和社会的进步,英语已从一种工具变成了一种思想,一种知识库。 《英语新课程标准》的实施,对于小学英语教学提出了新的理念,如何感悟,渗 透,落实课标,构建全新的课堂教学境界,本人以为英语教学应该积极倡导以人 为本的理念,渗透人文的关怀。 关键词: 关键词:英语 数学 人文关怀 新的世纪是一个人文价值逐步走向趋同的世纪,新的世纪对教育教学提出了 “创新精神 ...

网络环境下的小学英语教学

   利用多媒体结合网络环境 实现小学英语教学 小学英语教学的可持续发展 实现小学英语教学的可持续发展 黔江区城南青杠小学 艾巧灵 摘要:随着我区远程教育模式的展开,第三模式的普及,网络教育正逐步 成为我们实际教学中先进的教育基础设施。网络技术由于能跨越时空界限,并 能提供界面友好、形象直观的交互式学习环境,对发挥学生的主体作用、创建 新型的教学结构提供了一个理想的教学环境。在小学英语教学中,运用网络技 术教学能为进一步实现教学目标提供一个平台。不但有利于英语语言环境的创 设, 还能提高学生学习英 ...

热门内容

八年级下册英语单词

   1 robot 2 won't n. 机器人 =will not 将不 3 they'll (=they will) 4 everything 5 paper 6 use 7 less 8 fewer pron. 每件事,一切 n. 纸,文件,论文,报纸; v. 用纸糊,贴壁纸; adj.纸制的 n. 利用,使用,用途; v. 使用; vt. 使用,用 a. 更少的,更小的; ad. 更少地,更小地 a. 少的; int. 较少数; a. 较少的 n. 污染 9 pollution 10 t ...

北京大学附属中学2010~2011学年度初一第一学期期中考试英语试卷10112401BJ1

   中小学 1 对 1 课外辅导专家 北京大学附属中学 2010~2011 学年度初一第一学期期中考试英语试卷 ~ 第 I 卷 (机读卷 共 65 分) 听力部分( 听力部分(共 15 分) 语言知识运用部分( 语言知识运用部分(共 50 分) 一、单项选择(共 15 分,每小题 1 分) 单项选择( 16.?? Is that his key? ?? . A.Yes, it is B.No, that isn’t C.Yes, it’s D.No, it is. 17.?? Excuse me ...

2008年河南省中考英语试题

   座号 2008 年河南省初中毕业生学业暨高级中等学校招生考试试卷 英 注意事项: 语(有答案 word 版) 1.本试卷共 10 页。满分 120 分,考试时间 120 分钟。 2.请用钢笔或圆珠笔直接答在试卷上。 3.答卷前请将密封线内的项目填写清楚。 题号 分数 一 二 三 四 五 六 七 总分 得分 评卷人 一、听力理解(20 小题,每小题 1 分,共 20 分) 第一节 听下面 5 段对话。每段对话后有一个小题,从题中所给的 A、B、C 三个选项中选出最 佳选项,并将其标号填入题前括 ...

常用英语单词分类表

   100 个常用英语单词分类表 1. 动物类 (animals) cat 猫 panda 熊猫 chicken 小鸡 wolf 狼 blue 蓝 black 黑 head 头 arm 手臂 2. 颜色 (colour) red 红 pink 粉红 hair 头发 leg 腿 white 白 purple 紫 eye 眼睛 foot 脚 yellow 黄 brown 棕 ear 耳朵 mouth 嘴 green 绿 orange 橙 nose 鼻子 hand 手 face 脸 finger 手指 ...

英语学习一定要养成的20个好习惯

   英语学习一定要养成的 20 个好习惯 1. 学习英语是随时随地的:我有一个习惯,就是每次买了一件新东西我都会对上面的包装或说明书仔 细研究一番,当然我不是在研究商品本身,我是为了看上面的英语注释,想多几个地道的英语表达 而已。前几天我买了一瓶止咳露,又从上面学到不少东西呢。比如说,有效期可以说成 validity, 规格可以说成 specification,贮藏可以说成 storage,放在儿童接触的地方可以这样说 keep out of the reach of children,等等等等 ...