题库试卷

教育测量与评价

来源：百年教育职业培训中心　更新时间：2023-07-18 02:50:29

0144《教育测量与评价》2019年6月期末考试指导一、考试说明（一）考试说明满分为100分，考试时间为90分钟，考试形式为闭卷。（二）包含的题型及各题型相应的答题技巧1.单项选择题（每题2分，共20

0144《教育测量与评价》2019年6月期末考试指导

一、考试说明

（一）考试说明

满分为100分，考试时间为90分钟，考试形式为闭卷。

（二）包含的题型及各题型相应的答题技巧

1. 单项选择题（每题2分，共20分）

答题技巧：选择你认为正确的一个选项到括号里，答案与讲义与课件中的知识点一致。

2. 简答题（每题10分，共40分）

答题技巧：答出讲义与课件中的重要知识点要点即可。

3. 论述题（每题20分，共40分）

答题技巧：答题时注意结合相关的知识点，首先找到题目对于的知识点，再阐述自己的对其的认识，然后围绕此观点展开论述，一般来说，最好分几个方面谈对某一问题的认识和看法，需要比较详细的展开论述。

二、复习重点内容

第一章　教育测量与评价的学科发展

1. 测量

所谓测量(measurement)，从广义上讲，就是根据某些法则与程序，用数字对事物在量上的规定性予以确定和描述的过程。

测量的量具、测量的单位和测量的参照点，是测量的三个基本要素或三个基本条件。

2. 教育测量和教育评价

教育测量：就是针对学校教育影响下学生各方面的发展，侧重从量的规定性上予以确定和描述的过程。

教育评价：按照一定的价值标准和教育目标，利用测量和非测量的种种方法系统地收集资料信息，对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断，并为教育决策提供依据的过程。

3.教育评价的特点

教育评价是根据一定的目的和标准，采取科学的态度和方法，对教育工作中的活动、人员、管理和条件的状态与绩效，进行质和量的价值判断。它具有以下特点：

⑴ 教育评价的对象具有广泛性；

⑵ 教育评价具有间接性；

⑶ 教育评价具有客观性；

⑷ 教育评价具有综合性。

4. 教育测量与教育评价的联系与区别

教育测量和教育评价既有各自相对独立的发展空间，也有许多相互交叉、逐步融合的领地。具体而言，两者的联系表现在教育测量是教育评价的基础，教育评价则包括了教育测量两方面。但是教育测量与教育评价也存在一定的区别，主要表现为：

（1）教育测量定量地描述所要实现的教育目标或目标实现的程度，而教育评价是对教育活动、教育系统工作情况进行的价值判断；

（2）教育测量是对测量标准的参与回应，而教育评价则是对评价标准的参与回应；

（3）教育测量是定量的表述，而教育评价是定性的表述；

（4）教育测量结果以多或少的数量表示，而教育评价则以合理、不合理、适当、不适当，好、不好、优、劣等表示。

第二章教育测量与评价的类型和功能

1. 教育测量与评价的类型

（1）按测评在教学中运用的时机分类：形成性测量与评价、诊断性测量与评价、终结性测量与评价。

（2）按解释测评结果时的参照点分类：常模参照测量与评价、标准参照测量与评价、潜力参照测量与评价。

（3）按测量与评价的内容分类：智力测量与评价、能力倾向测量与评价、成就测量与评价、人格测量与评价。

（4）按照测量与评价被试行为表现的性质分类：最佳行为测量与评价、典型行为测量与评价。

（5）其它分类：按测量对象可分为个别测量与评价和团体测量与评价；按测验材料可分为文字测验和非文字测验；按量具的标准化程度可分为标准化测验和非标准化测验。

2. 教育测量与评价的功能

（1）实现教育判断的功能

教育测量与评价的最基本、最原始、最现实、最普遍的功能，就是实现教育判断。它包括测量评定的功能、事实判断的功能、价值判断的功能、问题诊断的功能、区分选拔的功能等。

（2）改进教师教学的功能

教育测量与评价能够通过下面几点，充分发挥改进教师教学的功能

了解学生的起点行为；

作为改进教学的参考；

作为补救教与学的依据；

确保教学目标的达到

（3）促进学生学习的功能

教育测量与评价具有促进学生学习的功能，其主要体现在：激励学生的学习动机、帮助学生的记忆和促进迁移、促进学生自我评价。

（4）行使教育管理的功能

教育测量与评价具有教育管理的功能，主要是：对教师的管理、对目标的管理、对过程的管理。

第三章教育测量与评价的质量特性

1. 衡量测验质量的四个指标

作为教育测量的工具—测验，它的编制是一项十分复杂的工作，它需要懂得一些教育测量基本知识和基本方法的人来完成。从教育测量的理论上来讲，一个良好的测验应该具备恰当的难度和区分度，具备较高的信度和效度，也就是说，测验的信度、效度、难度和区分度是衡量测验质量的基本指标。其中，前两个指标主要是对整个测验而言，后来两个指标主要是对测量的项目而言。

衡量测验质量的四个指标分别是信度、效度、难度和区分度。

信度(reliability) 简单地说就是测量结果的可信程度，指的是测量结果的稳定性程度，记为rxx。具体地说，测验的信度是指同一组学生用同一测验实施两次后所得分数的一致性，或者同一组学生经过一次测验后，用另一个同质的测验再测一次，这两次测验所得分数的一致性。估算测验的信度有三种方法：重测信度、复本信度、同质性信度。

效度是指测量结果的准确性和有效性的程度，亦即测量是否达到了预期的目的。

每当进行教育、心理之类的间接测量的时候，必须考虑是否测量到了所要测量的东西，在多大程度上测量到了这些东西。也就是说，必须考虑测量的效度问题。

效度分为三大类：内容效度、效标关联效度和结构效度。

难度是指测验的难易程度。在教育测量中，某测验的难度一般是用正确解答该测验题的人数与参与测验的学生数的比值来刻画的。测验题目的难度必须根据测验的目的确定和评价。难度是试题对学生知识和能力水平的适合程度的指标，是由参与测量的被试群体的整体水平决定的。

区分度是指测验对考生实际水平的区分程度，用符号D表示。具有良好区分度的测验，实际水平高的应该得高分，实际水平低的应得低分。所以，区分度又叫鉴别力。它是评价试题质量，筛选试题的主要指标与依据。

2. 信度的估算方法

根据统计学的基本原理，估算测验的信度有三种方法：重测信度、复本信度和同质性信度。重测信度也叫稳定性系数，它指的就是用同一量表（测验或评价表）对同一组被试施测两次所得结果的一致程度，其大小等于同一组被试在两次测验上所得分数的相关系数。复本信度指的是两个平行测验测量同一批被试所得结果的一致性程度，其大小等于同一批被试在两个复本测验上所得分数的相关系数。同质性信度也叫内部一致性信度，它是指测验内部所有题目间的一致性程度。这里题目间的一致性含有两层意思：其一是指所有题目测的是同一种心理特质；其二是指所有题目得分之间都具有较高的正相关。也就是说，同质性信度就是一个测验所测内容或特质的相同程度。

3. 提高测验信度的方法

（1）适当增加测验题目的数量；

（2）测验的难度要适中（测验的难度适中，能使测验的信度达到最大，也能使测验的区分度达到最大，所以，必须使测验的难度适中）；

（3）测验的内容应尽量同质；

（4）测验的程序应统一；（5）测验的时间要充分；

（6）评分要尽量做到客观化、减少评分误差；

（7）应试者参加测验的动机水平、积极性、疲劳程度也会影响测验分数，从而影响信度。引起应试者参加测验的强烈动机，提高其积极性，使其保持旺盛的精力，都对提高测验信度有一定作用。

4. 信度和效度的关系

在效度和信度之间，首先要重点保证是高效度，因为，高效度必然高信度；反之，则不然。特别是对于教育测量而言，效度问题显得更为重要。

信度是效度的必要条件。虽然信度高的测验效度不一定高，但效度高的测验，信度却一定比较高。效度和信度的关系是：效度的最大值等于信度的平方根。但是，既要有高效度，同时又要有高信度，是不大可能的。例如，同质性测验(量表的所有题目测验相同的因素)信度较高，但对预测来说，效度却很低。非同质性测验(其测验内容测量不同因素)预测效度高，但是信度却比较低。所以，要提高预测效度的一个重要方法，是增加非同质性，即增加新因素。

在处理信度与效度的关系问题上，首先要保证高的效度。

5.难度

（1）难度对测验的影响：影响测验分数的分布状态、影响测验的鉴别能力。

难度值过大或过小，都会造成测验分数的偏态分布。难度值越接近0，测验的难度就越大，正确回答试题的人数就越少，测验分数就越是集中在低分段，其分数分布呈正偏态。

测验难度直接影响测验分数的离散程度，因为难度过大或过小，测验分数的分布都呈偏态分布，亦即测验分数都分布在高分段或低分段，这样，测验分数的离散程度就变小了。

适中的难度可使试题的区分度达到最大。

（2）影响题目难度的因素：考查知识点的多少、考查能力的复杂程度或层次的高低、考生对题目的熟悉程度、命题的技巧、利用经验判断或者通过预测调整难度。

6. 区分度与测验信度、难度的关系

（1）区分度与信度的关系

提高区分度可以达到理想的测验信度。

（2）区分度与难度的关系

难度适中，可使区分度达到最大值。

7. 提高区分度的方法

（1）使题目的难度适中，使整个考试难度适中

（2）着重考察复杂的学习结果

第四章编制教育测验的一般原理与方法

1.布卢姆的认知领域的目标分类

布卢姆将认知领域的目标分为六个类别，按照由低级到高级的难易程度形成一种递进的等级关系，前一类别是后一类别的基础，后一类别又涵盖了前面的类别。

(1) 知识/知道。这是最低等级的认知目标。此处的知识是指对具体事物和普遍原理的回忆，对方法和过程的回忆，或者对一种模式、结构或框架的回忆。

（2）领会。这是最低层次的理解，指个人把某种材料与其他材料联系起来，也不必弄清它的最充分的含义，便知道正在交流什么，并能够运用正在交流的这种材料和观点。

（3）运用。运用是指将抽象的概念用于特定的和具体的情境。这些抽象的概念，可能是以一般的观念、程序的规则或概括化的方法等形式表现出来的，也可能是那些必须记住的和能够专门运用的原理、观念和理论。

(4) 分析。分析是指把材料分解成各个组成部分，弄清各部分之间的相互关系及其构成的方式，以指出那些用来传递意义或确定交流结果的技术和手段。

(5) 综合。综合是指将各种要素和组成部分组合起来，以形成一个整体。它是对各种要素和组成部分等进行加工的过程，是一个用这种方式将它们组合起来，以构成一种原先不那么清楚的模式或结构的过程。

(6) 评价。评价是指为了某种目的，对观念、作品、答案、方法和资料的价值及符合准则的程度作定量和定性的判断。准则既可以是内在证据，如逻辑上的准确性、一致性等，也可以是外部准则，如根据挑选或回忆出来的相应领域的最高标准等。

3.测验题目类型与测量功能

测验题目是测验的基本构成元素，题目编制恰当与否直接关系到整个测验的质量。只有正确地掌握不同类型试题的测试功能及命题方法，才能根据考试的目的和要求，正确地选择合适的题型并编制出高质量的试题，组成高质量的测验试卷。

测验题目基本上分为两大类：选择型和供答型。

根据被试作答的范围和评分方法不同，测验题目可分为主观性试题和客观性试题。

客观性试题具有评分客观的特点，它有确定的正确答案，不同评分者各自独立评分，所得结果基本上是相同的。客观性试题一般适用于测量知识的掌握、理解、应用、分析几个层次的教学目标。客观性试题的答案明确，作答简便，因而在限定的时间内测验可以包含足够数量的试题，能保证对知识内容的覆盖。

主观性试题主要包括论述题、操作题和作文题等。它们适合于测量较高层次的教学目标，尤其是适合于测量综合、评价等目标层次。主观性试题鼓励被试积极地组织所学的资料，表达自己的观点。被试在作答时，耗费的时间较长，在限定的时间内，试题数量不可能太多，对知识的覆盖面较小。由于没有明确统一的标准答案，评分易受评阅者的主观因素影响，因而误差较大。

4. 如何确定测验的题型？

测验题目是测验的基本构成元素，题目编制恰当与否直接关系到整个测验的质量，正确地选择合适的题型并编制出高质量的试题，组成高质量的测验试卷。

首先，要根据学科类型和测验目的选择使用主观性或者客观性试题。

第二，要根据测验考察的教学目标选择题型。

第三，要根据被试的特点选择题型。

第五章教育测验的常模及其建立方法

1. 教育测量数据的特点

教育测量的数据，本质上不同于物理测量的数据，不能直接套用相应于物理测量数据的方法：（1）教育科学研究中绝大部分数据属于等级变量。（2）教育测量的多数数据从本质上说是主观的。（3）教育测量的数据还具有随机性。（4）教育测量的数据也具有模糊性。

2. 常模参照测验与标准参照测验

在教育与心理测验中，可依据解释测验分数的参照点不同，把测验分成常模参照测验和标准参照测验。即参照测验的常模，对测验的分数进行解释与评价的测验，称为常模参照测验；

参照测验的“标准”，对测验的分数进行解释与评价的测验，称为标准参照测验。

标准分数的使用是基于常模数据服从正态分布的假设。标准分数是以标准差为单位表示测验成绩与平均分数之间的距离。

3. 教育测量量表分类

按照测量的精确程度，教育测量量表从低级到高级分为称名量表、顺序量表、区间量表/等距量表和比率量表。

4. 连续型随机变量

取值个数无限的(不可数的)数据，称为连续型随机变量的数据。它们可能的取值范围能连续充满某一个区间。数据的单位之间可以再划分成无限多个细小的单位，数据可以用小数表不。

例如，学生的身高、体重、智商、用百分制分数表示的学科成绩等，都属于连续型随机变量的数据。

5. 等权相加

等权求和是加权求和的一种特殊情况，它是将各变量(题目、分测验或测验)的得分直接相加而获得一个合成分数。

6. 百分等级是一个地位量数，能够反映某个测验分数在一个次数据中的相对地位。

第六章教育测验的标准及其建立方法

1. 教育测验标准的含义

教育测验的“标准”指的是教育测验的成就标准，它对于编制标准参照测验以及解释标准参照测验的分数具有重要的意义。

2. 常模参照测验与标准参照测验

教育与心理测验可以按分数解释的参照体系分成常模参照测验与标准参照测验。

常模参照测验与标准参照测验的对比

（1）两者的共性

两种测验都要求说明要测量的成绩的范围。

两种测验都要求有恰当的和有代表性的测验题样本。

两种测验都使用了相同种类的测验题。

两种测验编制题目的规则是相同的(除题目难度以外)。

两种测验都用同样的质量指标加以判断(效度和信度)。

两种测验都对教育测量与评价是有用的。

（2）两者的差异

两种测验的目的有所不同。

两种测验对题目统计量的考虑有所不同。

两种测验对描述内容领域规范的详略不同。

两种测验对测量同一学习任务或目标所用题目数量不同。

两种测验对分数的解释方法有所不同。

第七章制定教育评价表的一般方法和步骤

1. 教育评价表

教育评价表是根据教育教学的特性编制而成的，它由评价指标、评价项目(条目)、评价标准、评定等级、指标权重等构成。它是进行教育测量与评价的工具，为了使评价的结果更为可靠，需要对教育评价表进行更深入的研究。

2. 教育评价表的构成要素

（1）评价指标：就是根据评价的目标，由评价指标的设计者分解出来的，能够反映评价对象某方面本质特征的具体化、行为化的主要因素，是对评价对象进行价值判断的依据。

（2）指标权重：就是表示每项评价指标在指标体系中所占的重要性程度，并赋予相应的值，这个数值就叫做对应指标的权数，或叫做权重。

（3）评价标准：衡量评价对象达到评价指标要求的尺度，是由强度和频率、标号、标度三个要素构成。

3. 常见的指标权重分配方法

常见的指标权重分配方法有

(1)关键特征调查法

关键特征调查法是先请被调查者从所提供的备择指标中找出最关键、最有特征的指标，再对指标进行筛选并求出其权重的方法。

其操作步骤包括：①提出备择指标。②请被调查者从备择指标中找出一定数量的关键指标。③计算人数和百分比。④按一定的规则选取指标。⑤计算各指标的权重系数：

(2)两两比较法

为了确定各指标的权重，可对指标进行逐对比较，并加以评分，重要者记为1分，次重要者记为0分；然后分别计算各指标得分之和，再除以所有指标得分之总和。这种方法叫两两比较法。

(3)专家评判平均法

对于已经确定的指标，分别请专家评判其权重，然后以专家评判结果的平均数作为各指标权重。这种方法叫专家评判平均法。这种方法的特点是简便易行，能够充分交流意见。不足之处是：主观随意性较大，容易受专家的素质、水平等因素的影响。因此，要保证权重确定的合理性和准确性，使确定的权重具有一定的信度和效度，关键在于专家的素质和水平。

(4)倍数比较法

对已确定的指标，以每一级指标中重要性程度最小的指标为基础，记为1，然后将其他指标与它相比，作出重要性程度是它多少倍的判断，再经归一化处理，即获得该级各指标权重。这种方法称倍数比较法。

(5) Q分类法

Q分类法是一种确定指标优先顺序及其权重的方法。总的方法是将写有指标名称的一套卡片交给被调查者，请他们按指标重要性程度分组。优点：简便易行，在指标数目较多的情况下，更为适用准确性较低。缺点：准确性较低。

第八章学生评价

1. 学生评价概述

学生评价的类型

（1）定位性评价：又称安置性评价、预备性评价，主要是在特定的教学活动之前，判断学生的前期准备。在这种评价里面要解决的问题是学生是否已经掌握了参加预定活动所需要的知识和技能，在多大程度上已经达到教学目标，学生的兴趣等基本情况等等。

（2）形成性评价：主要是指不断地反映学生学习成功或者是失败的信息，特别注重强化学生学习的成功之处，显示学生学习过程中需要改进的具体的错误。

（3）诊断性评价：诊断性评价对学生的学习进行进一步的评价，对于学习中错误的深层诊断。

（4）总结性评价：在某个期末教师对学生的测验和评价。对教学目标达到程度的判断，同时也提供教学目标适当性和教学策略有效性的信息。

2. 现代学生评价的特点

（1）强调了评价功能的形成性

现代教育评价在其目的上，十分强调参与和推动教育的发展。现代的学生评价，主要是用来诊断问题，改进教育，其目的则是创造适合儿童的教育。对评价形成性功能的重视又反过来成了现代教育评价发展的一个重要动因。

（2）重视评价内容的全面性

教育工作者要求评价须全面地反映教育目标，对学生认知、情感以及动作技能的发展做出全面的评价，以促进学生的全面发展。因而，评价活动对教育活动能提供更大的帮助。

（3）重视评价类型的多样性

根据现代教育的需要，现代教育评价注意为教育提供全方位的服务，逐步地发展了包括定位性评价、形成性评价、诊断性评价在内的多种评价。这种多样性的评价，在学校教育的不同阶段提供不同的评价服务，使得评价在推动教育的发展中能起到越来越大的作用。

3. 现代学生评价的主要内容

现代学生评价更加强调建立促进学生全面发展的评价体系。评价不仅要关注学生的学业成绩，而且要发现和发展学生多方面的潜能，了解学生发展中的需求，所以现代学生评价不仅从学业成绩、基本能力、智力、品德以及人格等方面进行发展性评价，帮助学生认识自我，建立自信，发挥评价的教育功能，促进学生在原有水平上的发展。而且在评价过程中，采用多种评价手段，如量表、档案袋、访谈、实验法等，并侧重进行形成性评价。

4. 人格

人格即指人与社会性联系最为密切的心理特质的总和。人格特征可以是外在的，也可以是隐藏在内部的。人格的形成是由先天的遗传因素和后天的环境和教育因素相互作用的结果。人格是在先天遗传因素的自然基础上形成和发展的，又主要由个体的生活史所决定，它受社会历史条件的影响。人格有其不同的侧面，通常包括：气质、性格、适应性、兴趣、态度等，所以说人格很重要的方面是自我与现实之间的和谐，以及自我和理想的自我之间的和谐。

5. 在现代社会中，具有健康人格的学生具有的特征：

在现代社会中，青少年学生所具有的健康人格应是：能客观地认识自我和外部世界；开放的；对所承担的学习和其他活动有胜任感；充分发挥自己潜能；对父母、朋友有显示爱的能力；有安全感；喜欢创造；有能力管理自己的生活；有责任感等。

6. 评价学生课业发展进步的主要方法

（1）客观题评价法与主观题评价法

（2）表现性测验评价法

（3）评定量表评价法

（4）同伴评价和轶事记录评价法

（5）档案袋评价法

（6）动态评价法

（7）学习能力评价法

综合运用以上多种评价手段，客观、全面地了解和分析学生的原有课业水平、学习特点等信息，有针对性地帮助和促进学生的发展和成长。

7. 学生认知过程基本能力的评价方法

（1）观察能力的评价方法：实验室评价法、研究报告评价法、教师观察评价法、测验评价法

（2）记忆能力的评价方法：文字记忆测验、非文字记忆测验、综合性成套记忆测验

（3）思维能力的评价方法：语言文字推理测验、图形推理测验、数学符号推理测验

（4）想象能力的评价方法：作品分析评价法、心理测验评价法

8.智力测验

对人的智力进行客观的标准化的测量。它是通过一组标准的刺激物引起被试的反应，根据这些反应来度量被试的智力高低。

这种标准的刺激物称为量表。

不能完全根据智力测验的分数来看待一个人的智力水平。分数仅仅是一个参照，还要经过多方面的综合，在使用这个分数时要慎重。

9.学校课业考评对学生发展起到的作用

课业考评对促进学生发展起着重要的作用，尤其是以现代教育理念和教育评价理论为指导而建立起来的课业考评制度与方法。

首先，课业考评对促进学生发展起着重要的作用，尤其是以现代教育理念和教育评价理论为指导而建立起来的课业考评制度与方法。

其次，合理的课业考评制度将有助于评价学生的发展进步，从而对教与学双方活动起着重要的控制、调节和促进等作用。

再次，课业考评为学生心理发展和学习进步创造必要的背景和空间，诱发学生的学习动机和自主发展的动力。

最后，课业考评在中小学生个体社会化进程中起着控制、调节、促进和加速的作用。

第九章教师评价

1. 教师评价的模式

（1）教师职责评价模式；（2）教师认知发展评价模式；（3）教师活动评价模式

2. 教师评价的方法

研究结果表明，有多种途径可用于教师评价：自我评价、家长评价、学生评教、同行评议、书面材料的收集与观察以及教学成果等等。目前常用的教师评价方法主要有教师自评、学生评教、同行评议以及观察与会谈等。

在以上评价方法中，教师自评是教师评价中一个重要的方面，这不仅因为它是收集必要的信息的一个途径，而且因为它也是教师自我诊断的一个重要方面。在一定意义上，甚至可以说，教师自我评价的过程就是教师自我激励与自我提高的过程。

在这多种资料的收集途径中，学生对课堂教学的评价也是最有力的材料。

同行评议不仅在形成性评价中有很大的潜在价值，而且对在教师中创造一种专业发展的气氛也有重要意义。使用同行评议这一方法的基本观点，是在评价教师能力方面同行具有较大的发言权。

现场观察在教师评价中一直占有重要的位置，因为它具有相当的可靠性。但研究表明，课堂观察的可靠性与有用性，直接地依赖于观察者在观察之前所掌握的信息量与信息的类型。

在实践中还没有任何一种方法，已被证明对总结性的判断来说，已达到必要的信度的要求。然而，多渠道地收集信息，有助于提高评价的信度。

第十章课程方案评价

1. 课程方案评价的内容

（1）课程计划的评价；（2）学科教学大纲的评价；（3）教材的评价

教材是教学大纲的具体化，因此，对教材的评价，核心是教材与教学大纲的一致性以及它的科学性与可读性。

2. 教材评价的原则

教材评价的原则主要有科学性原则、教育性原则、思想性原则、学科先进性原则和艺术性原则等。根据教材的类型还有其他的一些原则，比如用于远程教育的教材还要考虑远距离教育的适应性，多媒体教材还要考虑技术性原则。

第十一章教学工作评价

1. 教学工作评价的功能

教学工作评价的功能可以从不同角度去考察，主要有以下几个方面：

(1) 检查：教学工作评价是检查教学工作的重要手段。

(2) 反馈：教学工作评价可以给教学工作提供科学的反馈信息，从而有利于教学工作的改进。

(3) 激励：加强教学工作评价，也有利于激发教师的活动动机。

(4) 研究：教学工作评价有利于开展教育研究活动。

(5) 定向：教学工作评价的指标对教学工作具有指挥定向作用。

(6) 管理：教学工作评价中对教师的教学工作给予鉴定或评分，使教学管理部门更好地了解教师的教学质量和水平，可作为教师晋升、评优及使用的重要依据。

第十二章学校办学评价

1. 学校办学评价的特点

（1）地区性。（2）综合性。（3）复杂性。

2. 中小学办学水平的评价

中小学办学水平的评价包括办学条件、办学水平、社会评价和获奖情况等四方面的评价。它基本上涵盖了教育质量评价的主要指标。

第十三章现代教育测量与评价的发展趋势

现代测验理论有许多模式，其中题目反应理论最具优越性。

1.题目反应理论是建立在如下的假设中的：

假设1：一维性(即考生的某一测验结果只取决于一种潜在特质或称能力，其他能力的影响均可忽略)；

假设2：局部独立(即考生答题时不受其他试题影响)；

假设3：适合的数学模型(须经拟合度检验)。

2. 题目反应理论在哪些方面超越了经典测验理论

题目反应理论认为，一个人的行为举止就好像处于自身某些心理品质的定量控制之中，可以通过一组题目定量地估计个体在每一种特质上的位置。反之，可用所估计到的特质的量去预测和解释个体在相应情境中将会产生的行为反应。与经典测验理论相比，题目反应理论在以下方面取得突破。

第一，参数比较稳定。经典测验理论使用的题目分析法所得的题目统计量数受样本的抽样影响较大。而题目反应理论的方法具有局部独立和参数独立等特点，题目参数估计是独立于被试样本和题目样本，因而后者的参数比较稳定。

第二，能力的比较。经典测验理论对被试能力间的比较只能在相同的测验或平行复本的情况下进行。而题目反应理论是自适性测验或电脑自适应测验，它的处理较方便且灵活。

第三，平行复本难实现。经典测验理论最基本的概念是测验的信度。而信度的设定来自平行复本的假设。但事实上平行测验是很难达到的，被试不可能在两次测验中得到完全相同的结果。影响测验结果的因素很多，如遗忘、学习新知识技能、动机及焦虑程度等。经典测验理论常依赖平行复本的假设，所以研究者在现实实施中只能接受下限的信度估计或具偏差的信度估计。

第四，缺乏预测力。经典测验理论无法预测被试在一个新的测验中可能的表现。而题目反应理论使用概率的观念来表示被试能力与项目的关系表示具有某种能力的被试答对某题的概率P。

第五，测量标准误。经典测验理论是假定所有被试的测量标准误都是相等的。事实上，不难发现，不同能力组表现在测验上的稳定性是不同的。如施测几个复本，可能高能力组比中能力组稳定性高。良好的测验模式应能针对某一测验得分或被试能力进行精确的估计，不同的得分或能力有其不同的概率误差，而非统一的测量标准误。

除此之外，经典测验理论在测验的设计、偏误题的认定、测验的等值问题上还没有得到满意的解决。

三、重点习题

（一）单项选择题

1、教育测验可以按照分数解释的参照体系不同，分成常模参照测验与（）两大类。

标准参照测验

A.标准参照测验 B.认知测验

C.诊断性测验 D.实验参照测验

2、（）是试题对学生知识和能力水平的适合程度的指标。

A.信度 B.效度

C.难度 D.区分度

3、与物理测量相比,以下属于教育测量特点的是( )。

A.它一般是间接测量 B.它的度量单位是绝对的

C.它的目的是特为测量服务的 D.它的作用是单一的

4、用同一个量表（测验或评价表）对同一组被试测两次所得结果的一致性程度，其大小等于同一组被试在两次测验上所得分数的相关系数，这一概念是（）。

A.复本信度 B.重测信度

C.同质性信度 D.分半信度

5、衡量测量题目质量的两个重要指标是（）。

A.信度与区分度 B.效度与信度

C.难度与效度 D.难度与区分度

6、一个测验或量表实际能测出其所要测量的特性的程度，这是（）。

A.效度 B.稳定性

C.信度 D.可信度

7、教育评价是以教育目标为标准的（）。

A.事实判断 B.价值判断

C.过程判断 D.数据判断

8、教师依据教学目标与计划，请学生持续一段时间主动收集、组织与省思学习成果档案，以评定其努力、进步、成长情形的评价方法是（）。

A.档案袋评价 B.动态评价

C.轶事记录评价 D.同伴评价

9、把总体中各个个体按照一定标志分为不同类型或层次，然后从各类型中随机抽取若干个个体，从而构成样本的抽样方法叫做（）。

A.整群抽样 B.机械抽样

C.分层抽样 D.单纯随机抽样

10、把教育目标分为认知领域、情感领域和动作技能领域的教育心理学家是（）。

A.泰勒 B.布鲁纳

C.加涅 D.布鲁姆

（二）简答题

1、教育测量与评价有哪些类型？

2、如何确定测验的题型？

3、测验的题目主要有哪些类型？

4、在现代社会中，具有健康人格的学生具有哪些特征？

（三）论述题

1、论述《教育测量与评价》在我们专业学习中的作用。

2、简述教师评价的方法，并重点论述如何处理不同评价方法之间的关系。

四、重点习题参考答案（答案仅供参考）

说明：本部分内容只给出了重点习题答题要点，学习者需要在此基础上，结合教材中对题目相关知识点的描述，补充和完善内容并组织答题语言。

（一）单项选择题

1、A 2、C 3、A 4、B 5、B

6、A 7、B 8、A 9、C 10、D

（二）简答题

1、教育测量与评价有哪些类型?

【答题要点】根据不同的分类标准对教育测量与评价进行分类，写出具体类型即可

教育测量与评价按照不同的分类标准分成不同的类型，现在常见的有以下分类方法。

（1）按照测量与评价在教学中的应用时机分类；

（2）按照解释结果时的参照点分类；

（3）按照测量与评价被试行为表现的性质分类

2、如何确定测验的题型？

【答题要点】回答确定测验题型的步骤即可，不需详细描述

首先，要根据学科类型和测验目的选择使用主观性或者客观性试题。

第二，要根据测验考察的教学目标选择题型。

第三，要根据被试的特点选择题型。

3、测验的题目主要有哪些类型？

【答题要点】回答基本的题目类型即可，不需要详细描述每一类题目中内容和特点。

测验题目是测验的基本构成元素，题目编制恰当与否直接关系到整个测验的质量。测验题目基本上分为两大类：选择型和供答型。若根据被试作答的范围和评分方法不同，又可分为主观性试题和客观性试题。

其中主观性试题包括论述题、作文题与操作题等题型，而客观性试题主要包括选择题、匹配题和供答题中的填空题、简答题等。

4、在现代社会中，具有健康人格的学生具有哪些特征？

【答题要点】回答具体的特征即可，不需详细描述

（三）论述题

1、论述《教育测量与评价》在我们专业学习中的作用。

【答题要点】教育测量与评价课程是教育技术学、小学教育以及教育管理专业学习的重要组成部分。无论我们将来是从事教育研究、管理、课程开发，还是当老师，掌握教育测量与评价知识都是必需的。

答题说明：本题目要求学生回答出学习教育测量与评价课程的意义，特别要求学生结合自己的学习体会以及所学专业课程的设置说明学习教育测量与评价课程的重要作用。

2、简述教师评价的方法，并重点论述如何处理不同评价方法之间的关系。

【答题要点】研究结果表明，有多种途径可用于教师评价：自我评价、家长评价、学生评教、同行评议、书面材料的收集与观察以及教学成果等等。目前常用的教师评价方法主要有教师自评、学生评教、同行评议以及观察与会谈等。

在这多种资料的收集途径中，学生对课堂教学的评价也是最有力的材料。

在实践中还没有任何一种方法，已被证明对总结性的判断来说，已达到必要的信度的要求。然而，多渠道地收集信息，有助于提高评价的信度。。

说明：本考试指导只适用于201903学期6月期末考试使用，包括正考和重修。指导中的章节知识点涵盖考试所有内容，给出的习题为考试类型题，习题答案要点只作为参考，详见课程讲义或课程ppt。在复习中有任何问题请到课程答疑区咨询。祝大家考试顺利！

教育测量与评价

来源：百年教育职业培训中心 更新时间：2023-07-18 02:50:29

来源：百年教育职业培训中心　更新时间：2023-07-18 02:50:29