题库试卷

心理测量学

来源：百年教育职业培训中心　更新时间：2023-07-17 21:04:12

0276《心理测量学》2019年6月期末考试指导一、考试说明本课程闭卷考试，满分100分，考试时间90分钟。考试包括以下5种题型：选择题根据题干选择合适的选项，每一题有一个正确选项，可采用直接选择法、

0276《心理测量学》2019年6月期末考试指导

一、考试说明

本课程闭卷考试，满分100分，考试时间90分钟。

考试包括以下5种题型：

选择题

根据题干选择合适的选项，每一题有一个正确选项，可采用直接选择法、排除法等进行选择。

计算题

理解考核的概念，记住相关计算公式。

简答题

简要回答问题的答案，无需深入阐述。

案例分析

结合所学知识，具体分析题目中的案例，切忌理论与案例截然分开。

论述题

基于理论，结合实际详细论述。

二、重点复习内容

第一编心理测量的基本内涵及其评价

第一章绪论

一、心理测验的先驱是高尔顿，第一次对个体差异进行测量的人。首创 “心理测验”一词的是卡特尔。

二、世界上第一个智力量表：比内-西蒙量表

1905年，他在《心理学年报》上发表了文章《诊断异常儿童的新方法》，介绍了该量表。也是最早使用智力年龄概念的量表。

三、心理卫生评估的任务

（1）描述个体或人群有关疾病的特征，协助诊断分类，确定科研入组标准，寻找各类疾病的特征性表现。

（2）描述个体或群体的健康状况，全面评估构成健康的诸要素，为增进人群健康提供依据。

（3）评估日常健康行为和日常功能的有效水平。

（4评估疾病发展中的心理过程。

(5)评估疾病康复过程中的各种治疗方法的效果及其与心理社会影响因素的相互作用。

第二章心理测量的基本概念

一、心理测量：基于测量的定义，心理测量指的是依据一定的心理学理论，使用一定的操作程序，对人的行为和心理属性确定出数量化的价值。它所测的是人的心理现象的外显行为。

二、测验量表：用于测量的标尺，它是由具有单位和参照点的连续体，将被测量的事物置于该连续位置，看它离参照点多少单位的计数，可以得到测量值。

三、测量的要素是：参照点和单位。

四、量表的种类有：命名量表、顺序量表、等距量表和等比量表。

1、命名量表：只是用数字来代表事物或对事物进行分类。命名量表中的数字没有任何数值意义，不能作量化分析。无大小意义，只表明类别。无参照点和单位。无法比较大小或进行任何数学运算。

2、顺序量表：表明类别的大小或某种属性的多少。主要用于分等论级和分类。数字仅表示等级并不表示某种属性的真正量或绝对值。无参照点（没有绝对零度）和单位。无法进行数学运算。

3、等距量表：存在大小关系。无绝对零点，但存在相对零点，参照点是人为制定的，能表明量的相对大小，可以进行数学加减运算，有相等单位。例如0ºC并不意味着没有温度。一般来说，心理测验的分数属于等距量表。

4、等比量表：是最精确的测量。又称比率量表，是理想的，最高等级的量表。不仅可以进行数学加减运算，还可以进行乘除运算。大多是物理量表，而心理量表一般只能达到等距量表水平。

第三章测验信度（公式不要求记忆）

一、信度概述

1、信度也指测量的可靠性，即测量结果的稳定性，如能用同一测验反复测量某对象的同一种心理特质，多次测量结果间的一致性程度就是信度。

信度代表测验量表的稳定性和一致性，只受随机误差的影响，随机误差控制得越好，测验信度越高。信度在解释个人分数时估计真实分数的范围和了解实得分数再测时可能的变化情形。

2、信度的操作化定义：

误差理论认为：一个人的测验分数X是由真实分数（T）和误差（E）两部分构成的，

X = T + E

误差理论假设：①测量的平均误差为0；②真分数和误差不相关；③不同测量的误差之间不相关。

确定可接受的信度水平的一般原则是，当rxx＜0.70时，测验不能用于对个人做出评价或预测，而且不能进行团体比较。

二、不同信度指标的变异来源。

信度系数类型	误差方差
再测信度	时间取样
复本信度（即时）	内容取样
复本信度（延迟）	时间取样和内容取样
分半信度（比较测验奇数项目与偶数项目的得分）	内容取样
库-理信度和α系数（内部一致性指标）	内容取样和内容异质性
评分者信度	评分者之间差异

第四章测验效度

一、效度：即准确性，指一个测验能测量到它所要测量的心理特质的程度。简单的说就是指一个测验的准确性。可分为内容效度、结构效度和实证效度。在测验理论中，效度被定义为在一组测验中，与测量目标有关的真实方差（或称有效方差）与总体方差的比率。

二、表面效度：一个测验在被试或参与者看来，直觉地认为它在测量什么，是否测到了所要测量的东西。是被试的一种主观认识，并不是真正意义上的效度。

三、内容效度：测验题目对有关内容或行为总体取样的适当性程度，即一个测验实际测量的内容与要测量的内容温和的程度。主要考查学绩和技能测验。

四、结构效度：也称构想效度，即一个测验测量到它要测量的某一理论概念或特质的程度。一个新测验与现存的经常使用的同类测验的相关是构想效度的证据。

1、构想：心理学中提出的人假定具有的属性或特质，如智力，动机，兴趣，创造性等。

2、确定构想效度的方法：测验内部的方法、测验间的方法、效标效度的研究、实验和观察法验证。

3、结构效度的特点

（1）结构效度大小取决于事先假定的心理特质理论。具有不同理论构思的测验，其结构效度是无法进行比较的；

（2）结构效度有时很难获得，也就是说没有得到实际测量的资料证实并不意味着理论一定不成立（实验设计不当也可能有影响）；

（3）结构效度没有单一的指标，是由各方面的证据累积起来进行评价的。

一般来说，内容效度主要用于学科测验，而结构效度主要用于心理测验。

五、区分效度：新老测验之间的相关（两测验测的不是同一心理特质），若相关低，则说明新测验可能有较高的效度。

六、实证效度：指的是一个测验对于处于特定情境中的个体的行为进行估计的有效性。一个测验是否有效，应该以实践的效果作为检验标准。

七、高考成绩与大学学习成绩有高度的正相关，那么可以认为，对于大学学习而言，高考分数具有较高的预测效度。

八、信度与效度的关系

1、测验的效度受它的信度制约：根据效度的数学定义效度= Sco2/ St2，信度的数学定义S∞2/St2

以及St2= S∞2+ Se2，推出效度=信度—Se2/ St2

一个测验的信度必然比效度高，至少相等。

假如要测一个儿童的智力水平，你对其眼眉以上头的周长进行了测量，并测了5次，得到一个平均值，然后将平均值乘以7得到该儿童的IQ，这种测量IQ的程序不可信，但有效。

2、要使测验具有较高的信度和效度，需要对测验进行标准化，主要包括测验内容标准化、测验过程标准化、测验评分标准化、解释测验分数标准化。

第五章项目分析

一、难度

①不分组的计算方法：

题目以0、1计分，难度值P= R/ N（P为通过率，R为答对人数，N为参考总人数）

题目不以0、1计分，难度值P= X′/Xmax （X′为所有人在此题上得分的平均数，Xmax为该题满分，比如在一次语文考试中，作文题的满分是50分，全班同学在这道题上的平均分是36分，P=36/50=0.72。）

②分组的计算方法：（被试人数较多时可使用）

分组：将试卷按测验总分由高到低排列，最高分往下取全部试卷的27%作为高分组，从最低分往上取全部试卷的27%作为低分组。

题目以0、1计分：

P=(RH+RL)/2n

RH 为高分组答对人数

RL为低分组答对人数

N为一个组（高分组或低分组）的人数

题目不以0、1计分：

P=(XH+XL-2nL)/2n(H-L)

XH为高分组得分总和

H为该题最高分

L为该题最低分

注意：难度值P大，表明通过率越高，即难度越小。如果难度越低，会出现天花板效应、得分聚在高分段、分数分布狭窄。测验的难度过高时，测验分数的分布聚集在低分段，分数分布狭窄。

二、区分度：测验项目对被试心理品质水平差异的区分能力或鉴别能力。区分法是检验测验分数能否有效地区分由效标所定义的团体的一种方法。如果某测验中的一个项目经分析后得知其区分度为0.275，对此项目的评价应是尚可，仍需修改。

1、区分度分析的一般方法：鉴别力指数、项目-总分相关、项目间相关。比如，一份语文卷子的满分为150分，现在要分析试卷中作文题（满分为50）的区分度，应该采用等级相关法。

2、鉴别力指数：运用极端组计算项目鉴别力的一种简单方法。公式为：D = PH－PL是高分组在项目上的通过率，而是低分组在项目上的通过率。当D＜0.19是，项目差，必须淘汰；但D在0.20 ~ 0.29之间时，项目尚可，但必须修改；当D在0.30 ~0 .39之间时，项目良好，但还是最好稍做修改；而当D＞0.40时，项目完全可以被接受，但一般测验，D＞0.30，项目就可以接受了。 D值的取值范围为-1—1。

3、区分度是评估一个测验项目有效与否的重要指标，但是不能将其作用过于绝对化：

（1）对于区分度而言，存在不同的计算方式，而不同的计算方法下所得区分值是不同的，有时甚至差异较大。

（2）计算区分度时，测验样本容量大小影响相关法区分度值的大小。

（3）进行区分度计算时，高分组和低分组的分组标准也会影响鉴别指数。

（4）被试样本的同质性程度影响区分度值的大小，高度同质的被试样本也会导致区分度下降。

因此，在评价项目有效性时，要考虑测验的目的，功能，对象，不能将区分度值绝对化。

三、测验难度对测验的影响

（1）测验难度影响测验分数的分布形态

如果测验项目的难度普遍较大，被试的得分会普遍较低，使得测验分数集中在低分端，其分数分布呈现正偏态；如果难度普遍较小，被试的得分普遍较高，测验分数集中在高分端，会呈现出负偏态，而对取样有代表性，难度中等的测验，分数呈现正态分布。

（2）测验难度影响分数的离散程度

过难或过易的测验会使得测验分数相对集中在低分端或高分端，从而使得分数的全距缩小。

如果在某次期末考试中，语文测验的结果是大部分学生得分较低，全校学生的分数分布呈现正偏态；而数学测验结果刚好相反，大部分学生得分较高，分数分布呈负偏态。则这两门测验的项目取样并不具有代表性，不是好的测验。

三、请对比判断题、选择题和简答题的优缺点。

（1）判断题优点：命题容易，评分简单，作答方便，在教育测验中使用广泛；缺点：只适用于简单观念和知识的考察，容易猜测，可靠性低；

（2）选择题优点：适用范围广，呈现的内容形式多样；评分简单，省时，客观，相比判断题受猜测影响少。缺点：编写难度较大；对于言语表达、概括、组织能力测量效果差；猜测的影响依然存在。

（3）简答题优点：编写简单，灵活，不受猜测的影响；适用范围较为广泛；易于编制；缺点：不能考察复杂知识和能力；评分不够客观，较为费时。

第二编测量的一般步骤和方法

第六章测验分数的解释与应用

一、常模：以标准化的考生团体在测验上的平均分为参照点，以适当的分数距离为单位建立起来的数量连续体。常模分数构成的分布，就是通常所说的常模，它是解释心理测验分数的基础。

二、常模团体：构成参照标准的被试团体，就叫常模团体，也叫参照团体。常模团体是由具有某些共同特征的人所组成的一个群体，或者是该群体的一个样本。对一个测验而言，通常有数个常模团体。

三、常模样本的容量：总体的数目。一般情况，最小样本为30 ~ 100个。要是全国性的常模，一般地要求有2000 ~ 3000人为宜，一般不少于800到1000。

四、年级当量：即年级常模，用年级代替年龄，指把学生的测验成绩与各年级学生的平均成绩比较，看他相当于几年级的水平。常模样本中6年级的算术平均分为35，某儿童的算术测验得分为35，那就是说，该儿童的算术年级当量为6年级水平。

五、标准分数：是以标准差为度量单位原始分数离开其平均数的分数之上多少个标准差，是一个抽象值，不受原始测量单位影响，不仅具有可比性，还具有可加性，是等距量表。当原始分数不是正态分布时，也可以使之正态化，这一转换过程是非线性的。

1、百分等级：某个分数的百分等级就是得分低于这个分数的人数的百分比。百分等级指示个体在常模团体中的相对位置。百分等级越低，个体所处的地位越低。

比如，一次化学考试中，小王的得分为90分，在40名同学中排名第5，所以小王的百分等级是：100-{(100*6-50)/40}=88.75。

2、Z分数：指的是以一批分数的平均数为参照点，以标准差为单位的等距量表，不仅具有可比性，而且具有可加性。

举例：某中学期末考试，已知数学期末考试的全班平均分为75分，标准差为5分，甲得了90分，计算其标准分数Z。

Z=（90-75）/5=3

3、T分数：由标准分数（Z分数）线性转换而得，T=10*Z+50，经过这种转换弥补了Z分数存在负数和小数的缺陷，最早使用T分数者是推孟，T是为了纪念推孟和桑戴克的意思。

4、标准九分是一种标准分系统，其量表是个9级的分数量表。它是以5为平均数，以2为标准差。

5、标准分数变式的评价：

优点：

具有相等单位，便于进一步统计应用。

正态分布下，可以将各种导出分数与百分等级换算，便于理解。

正态分布下，可以将不同测验的分数直接比较（注意常模团体应该是一致的）。

缺陷：

过于抽象，不易理解

非正态分布下，形态不同的变式分数不能互相比较，不能加和。

第七章测验的编制与实施

一、测验的标准化：指测验的一致性；包括：编制、实施、计分及解释程序；上述过程都会对测验的准确性产生影响。编制：行为的代表性；实施：考试环境不同等等。

编制测验应带避免直接翻译国外测验的题目。

二、测验编制过程中如何做到标准化。

要做到测验编制过程中的标准化，就要做的遵循以下程序：

确定测验的目的

1．明确测量用途，首先确定将要编制的测验是用于测量哪一种心理特质或心理结构，其理论基础是什么；其次确定将要编制的测验是标准参照测验还是常模参照测压；

2．明确测量对象，每一个测验都有其针对性的测量对象群体。要考虑到年龄、教育水平和文化背景的差异。

3．明确测量目标，确定能表现将测量的心理特质的行为（确定有代表性的行为样组）；确定项目比例，考虑到每一类行为在所测心理特质中的比重。

产生测量题目

1．测题形式与目的匹配。利用不同测题形式的优点和使用范围，将其与测验目的相结合。

2. 初步形成测题，由于经济和实践上的考虑，我们不可能收集能够说明某一行为的所有测题，因此必须确保测题的代表性。可供考虑的测题来源：（1）已有的优秀的相关测验；（2）修改前人测验中的有关测题：（3）自己编写。初选题库项目数量是计划题数的2-3倍。

3. 测题检查及修改，包括：（1）测题编制的技术性问题，如：措辞，语法，歧义，文化偏见问题等；（2）初步确定测题的可靠性和可信度。

4. 预测验及分析，在此过程中注意满足下列要求：

（1）预测样本和测验对象必须来自同一全域，即预测样本的代表性；

（2）人数不必太多，但也不能太少，教育测验一般370人，智力测验至少30人，同时要考虑到预测题目的数量，题多则要求人数也高。

（3）按照正式测验的过程实施；

（4）时间要充分，便于收集充分的反应资料；

（5）随时记录预测过程中的反应情况，如时间，题意不清的问题，误解，停顿等。

预测结果分析：难度、鉴别力。

5．测题选择，编排和确定

（1）选择标准：鉴别力高，难度介于0.35-0.65之间，并补充部分极易和极难的题目，形成正态分布。选择题目后必须对照项目说明书检定测题所代表的行为类别之间比例是否失调，必要时进行调整。测验时间最好不超过1小时。

（2）编排时遵循并列直进式、螺旋式、混合式的原则，不是随意编排，减少反应定式。应该排除难度逐步上升，先易后难。

（3）测题确定，将上述步骤得到的测验在全域中的另一个样本中进行验证，甚至复核，修改多次，才能最终确定正式题本。

三、在测验实施中，主试应该注意以下问题

（1）施测前做好准备工作；

（2）指导语不应该暗示受测者应该如何反应；

（3）测验过程中要不受外界和参测者的干扰；

（4）评分要客观公正。无论哪种测验，为使评分尽可能客观应该准确无误地记分、合分。

四、测验的客观性包括测验的刺激、对反应的量化和对结果的推论。

第八章心理测验的使用

一、在实际测量工作中，选择测验应该注意的问题有：

1、选择与测验活动目的相符的测验；

2、考虑测试对象的受测条件；

3、分析所选测验的特点；（了解测验的概况，适用范围，考察测量学指标；）

实际工作中要同时对上述三个方面加以考虑。

第三编常用心理测验

第九章智力测验

一、斯坦福-比内智力量表：最早的智力测验是由比内于1905年编制的。

二、韦克斯勒智力量表。

（一）韦氏测验作为智力测验领域的重要代表，具有非常鲜明的特色：

（1）10~12个分测验：使用多个分测验，不仅可以得到总IQ，还可以分析个体在智力上的强项和弱点；

（2）言语量表和操作量表各由5~6个分测验组成，可以单独评价言语或操作的各项智力成分，体现了左右脑功能的整合，而且可以显示个体的职业能力倾向。

（3）共同的IQ计分系统：对所有测验和所有年龄组，IQ平均为100，标准差为15。而且每个分测验的平均分为10，标准差接近3分。这样就可以比较被试的各项分测验分数，了解其相对强弱。某人的韦氏智力测查结果提示智商为130，这意味着其成绩高于平均值2个标准差。

（4）不同年龄组有相同的分测验：例如，WAIS-R，WISC-R，WPPSI-R有相同的8个核心分测验。这不仅方便施测者，而且有助于测验之间的相互比较。

（二）韦氏儿童智力测验是一种构造测验、常模参照测验和个别测验。

三、导致智力测验误差的因素包括：应试动机水平、测验焦虑水平、参与测验的经验。

四、从不同测验获得的离差智商只有当标准差相同时或接近时，才可以比较。

五、传统智力测验仍在应用的原因

（1）智力虽然具有可变性，但从另一个角度来说，它也具有稳定性。其稳定性主要体现在：个体智力在其相应群体中的相对位置可以长时间保持稳定。这种相对位置的稳定首先归因于遗传素质。个体智力的相对稳定性为智力测验具有一定预测效度提供了可能性。并且，个体的智力水平发展到一定年龄之后会越来越慢，最终达到顶峰并在此后长时间保持不变，所以智力测验的预测效度会出现随着受测者年龄递增的趋势。

（2）智力测验用于选拔和安置人员时，往往被实践证明其对学生和职业等校标的预测具有良好的效度，因而可以有效的帮助决策者提高决策效率。

（3）由于智力测验对于不同的群体存在可能的不公平性，人们已经试图从改善智力测验本身来缓解这一问题，当智力测验被用于人员选拔时，更应看重其预测效度而不是公平性。

（4）虽然人们指出传统智力测验的种种不是和局限，并且从各种角度提出了更为完善更全面的评估手段的设想，也有初步的尝试和实践，但目前为止仍未出现成熟的，超越了传统智力测验的智力评估工具。

因此，传统智力测验工具在智力评估中仍然占据了主流和主导的位置，目前仍是不可替代的。

第十章人格测量

一、自陈量表：又称自陈问卷，客观式人格问卷，指根据要测量的人格特质编制相关问题，由被试根据自己的真实情况作答，然后根据答案衡量被试在这种人格特质上的表现程度。

比如EPQ。适宜团体施测，当被试人数很多，测验经费和时间又较为有限时，最好选用团体施测。

1、自陈测验存在的问题：

（1）测量对象

人格特质复杂多样；对人格的定义、结构、分类等问题存在争论，不同人格测验之间难以进行比较。对人格的动态性质难以准确描述。

（2）信度和效度

影响测验分数稳定性的因素复杂；缺乏可靠的效标（专家评定的可靠性不高）；人格测验的信度、效度比智力测验要低。

（3）测验的题目

题目范围难以界定；措辞的细微差别会导致反应的巨大差异；题目含义笼统；在自陈量表选项中，经常、有时、很少，每个人的理解也不一样。

（4）分数解释

用同样的标准对不同的人的行为进行解释存在疑问；用统计标准评价个体的行为容易导致从众行为，限制个人发展。

（5）对于伪装和社会称许性的问题没有很好解决，导致测量误差。

2、直陈人格量表的编制、注意事项及其特点

直陈量表的编制：

编制直陈人格量表的第一个步骤就是确定所要测量的人格特质，并明确给出该特质的操作性定义，然后围绕着该特质选择能够表现该特质的行为情境和反应。可以用是否式、是否折中式、文字等级式和数字等级式等形式来编制题目。

在编制量表的过程中，要注意：

避免带有明显社会评价色彩的问题，代之以中性的陈述；

对于量表中必须涉及的个人私生活问题，应当采用适当隐蔽的措辞加以陈述。

所提供的选项最好排列成若干个等级，以便受测者选择更接近他实际情况的答案。

直陈量表的特点

题量较大，多数用于测量人格的多种特质

直陈量表多数采用纸笔形式作答，可以同时对大样本人群施测，效率较高；

直陈量表的记分规则简单而客观，施测便捷，测量分数容易获得解释，是人格测验中使用最为广泛的形式。

二、因素分析量表的典型代表：

卡特尔16种人格因素问卷：16PF适用于16岁以上的青年及成人。

EPQ-艾森克人格问卷：其中的L量表是效度量表。

MMPI：10个临床量表；3个效度量表；采用T分数计分；可以根据廓图进行分析。

三、投射测验

1、投射测验：指向受测者提供一些意义比较含糊的刺激情境，让他在不受限制的情境下，自由表现出他的反应，分析反应的结果，便可推断他的人格结构，受应试者动机影响不太大。主要用于决定情绪和动机功能。比如，主题统觉测验（TAT），投射测验属于非文字测验。

四、自陈量表和投射测验的不同点。

（1）自陈量表采用客观测验的形式，刺激材料文字描述，明确清晰；投射测验的刺激材料没有明确的结构和意义，反应不受限制；

（2）自陈量表施测简单，分数解释较为容易；投射测验施测较难，难以进行定量分析；

（3）自陈量表多数用于测量人格的若干特质，投射测验着眼于人格特征的整体性了解，而不是对某一个或几个特质的关注。

（4）自陈测验多为纸笔测验，投射测验的内容多为无明确意义的图片，不受语言文字的限制，多用于跨文化人格研究。

五、情境测验：人格测验的一种，是指把受测者置于特定的情境中，由主试人员观察其在此情境下的行为反应，从而判断其人格特征。

第十一章能力测验

能力倾向测验与特殊能力测验

能力倾向测验可以从不同的能力因素上来评估个体，但如果只用于评估某一种特殊的能力，成套的能力测验就显得过于繁杂，而且不够充分。特殊能力测验是针对一种特殊的能力所包含的各个方面进行测量，其性质介于成就测验和能力测验之间，测量的目的既是为了了解个体在此专业领域的既有水平，又想预测今后个体在此专业领域的成功可能性。

第十二章其他心理测验介绍

其他心理测验包括创造力、兴趣测验、心理卫生测验、神经心理测量。

重点复习题

选择题

1、全国性常模样本的大小，一般最低不小于（）。

a 1000—2000 b 800—1000 c 3000—4000 d 4000—5000

2、如果研究表明，高考成绩与大学学习成绩有高度的正相关，那么可以认为，对于大学学习而言，高考分数具有较高的（）

a 表面效度 b 预测效度 c 构想效度 d 区分度定

3、从不同测验获得的离差智商只有当（）相同时或接近时，才可以比较。

a 标准差 b 平均数 c 标准分数 d 原始分数

4、一般来说，心理测验的分数属于（）。

a 称名量表 b 等级量表 c 等距量表 d 等比量表

5、确定可接受的信度水平的一般原则是，当（）时，测验不能用于对个人做出评价或预测，而且不能进行团体比较。

a rxx＜0.70 b 0.70≤rxx <0.85 c rxx≥0.85 d rxx =1.00

（二）计算题

1、在一次语文考试中，作文题的满分是50分，全班同学在这道题上的平均分是36分，求作文题的难度值P。

2、某中学期末考试，已知数学期末考试的全班平均分为75分，标准差为5分，甲得了90分，计算其标准分数Z。

（三）简答题

1、简述自陈量表和投射测验的不同点。

2、在实际测量工作中，选择测验应该注意的问题有哪些？

（四）论述题

1、测验编制过程中如何做到标准化？

2、应该如何正确理解测验的效度？

（五）案例分析

在某次期末考试中，语文测验的结果是大部分学生得分较低，全校学生的分数分布呈现正偏态；而数学测验结果刚好相反，大部分学生得分较高，分数分布呈负偏态。结合测验难度对测验影响的知识，分析这两门测验是否是好的测验。

四、习题答案

（一）选择题

bbaca

计算题

1、在一次语文考试中，作文题的满分是50分，全班同学在这道题上的平均分是36分，求作文题的难度值P。

P=36/50=0.72。

2、某中学期末考试，已知数学期末考试的全班平均分为75分，标准差为5分，甲得了90分，计算其标准分数Z。

Z=（90-75）/5=3

（三）简答题

1、答案要点：

自陈量表和投射测验的不同点

（1）自陈量表采用客观测验的形式，刺激材料文字描述，明确清晰；投射测验的刺激材料没有明确的结构和意义，反应不受限制；

（2）自陈量表施测简单，分数解释较为容易；投射测验施测较难，难以进行定量分析；

（3）自陈量表多数用于测量人格的若干特质，投射测验着眼于人格特征的整体性了解，而不是对某一个或几个特质的关注。

（4）自陈测验多为纸笔测验，投射测验的内容多为无明确意义的图片，不受语言文字的限制，多用于跨文化人格研究。

2、答案要点：

（1）选择与测验活动目的相符的测验；

（2）虑测试对象的受测条件；

（3）分析所选测验的特点；（了解测验的概况，适用范围，考察测量学指标；）

实际工作中要同时对上述三个方面加以考虑。

（四）论述题

1、测验编制过程中如何做到标准化？

要做到测验编制过程中的标准化，就要做的遵循以下程序：

一、确定测验的目的

2．明确测量对象，每一个测验都有其针对性的测量对象群体。要考虑到年龄、教育水平和文化背景的差异。

3．明确测量目标，确定能表现将测量的心理特质的行为（确定有代表性的行为样组）；确定项目比例，考虑到每一类行为在所测心理特质中的比重。

二、产生测量题目

1．测题形式与目的匹配。利用不同测题形式的优点和使用范围，将其与测验目的相结合。

3. 测题检查及修改，包括：（1）测题编制的技术性问题，如：措辞，语法，歧义，文化偏见问题等；（2）初步确定测题的可靠性和可信度。

4. 预测验及分析，在此过程中注意满足下列要求：

（1）预测样本和测验对象必须来自同一全域，即预测样本的代表性；

（2）人数不必太多，但也不能太少，教育测验一般370人，智力测验至少30人，同时要考虑到预测题目的数量，题多则要求人数也高。

（3）按照正式测验的过程实施；

（4）时间要充分，便于收集充分的反应资料；

（5）随时记录预测过程中的反应情况，如时间，题意不清的问题，误解，停顿等。

预测结果分析：难度、鉴别力。

5．测题选择，编排和确定

（2）编排时遵循并列直进式、螺旋式、混合式的原则，不是随意编排，减少反应定式。

（3）测题确定，将上述步骤得到的测验在全域中的另一个样本中进行验证，甚至复核，修改多次，才能最终确定正式题本。

2、应该如何正确理解测验的效度？

效度是指测验的准确性，即测验能够测出他们所欲测的特质的程度。

对效度的理解：（1）效度是针对测验结果的，测验的有效性是指测验结果的有效性。（2）效度是一个相对的概念：每个测量工具都有自己的目的，对A目的有效不意味着对B目的有效；内隐特质是通过外显行为间接测得的，不可能百分之百准确，对于一个有目的的测验其效度不会为零，如数学测验的文字即使很难，也总是能够测到一些数学能力；效度只有程度上的差别，而不是“全或无”的差别，对效度进行评价时，要考虑到其用途的基础，由于宣布优秀学生有效的测验，对于诊断差生就不一定有效。（3）判断一个测量是否有效要从多方面收集证据表面看获取效度的办法就是拿实测结果和心理特性作比较，但心理特性本身就是要测量的，未知的，无法直接比较。因此，要从多角度对特性进行描述，这些角度途径是丰富的，因此获取效度指标的手段也是多样的。

（五）案例分析

答案要点：

测验难度对测验的影响

（1）测验难度影响测验分数的分布形态

（2）测验难度影响分数的离散程度

过难或过易的测验会使得测验分数相对集中在低分端或高分端，从而使得分数的全距缩小。

这两门测验的项目取样并不具有代表性，不是好的测验。

说明：本考试指导只适用于201903学期6月期末考试使用，包括正考和重修。指导中的章节知识点涵盖考试所有内容，给出的习题为考试类型题，习题答案要点只作为参考，详见课程讲义或课程ppt。在复习中有任何问题请到课程答疑区咨询。祝大家考试顺利！

心理测量学

来源：百年教育职业培训中心 更新时间：2023-07-17 21:04:12

来源：百年教育职业培训中心　更新时间：2023-07-17 21:04:12