Классические шкалы оценки знаний

Развитие образования » Оценка качества теста » Классические шкалы оценки знаний

Страница 2

где — итоговый балл i-го испытуемого, и квадрат отклонения от среднего или варианты этого показателя — среднеквадратическое отклонение или дисперсия. Для сравнения результатов используется коэффициент корреляции между заданиями и между испытуемыми.

Как вариант, иногда используется взвешенный средний балл вида

,

где — соответствующие весовые коэффициенты.

Из всех перечисленных выше предположений труднее всего доказывать равнозначимость ответов, поскольку это требует доказательств субъективного равенства всех трудностей соответствующих ответов и одновременно доказательств одинаковой важности всех поставленных вопросов. Предположение о вычислимости упомянутых статистических показателей требует содержательных доказательств корректности гомеоморфного вложения шкалы баллов в шкалу действительных чисел, в которой на самом деле выполняются подобные вычисления. Другими словами, вопросы как по критериальной, так и по конструктной валидности обычно остаются открытыми.

Кроме упомянутых стандартных статистических показателей (вопрос о математической корректности которых обычно не обсуждается) для испытуемых, оцениваются некоторые психометрические характеристики измерительных процедур с ясным прагматическим, но сомнительным математическим смыслом, например, коэффициент лёгкости задания

,

где — средняя оценка, полученная за задание , — максимально возможная оценка за это же задание, при том, что минимальная возможная оценка за любое задание по умолчанию предполагается нулевой, коэффициент дискриминации задания, т. е. коэффициент корреляции между результатом задания и итоговым результатом, или считающийся более информативным вариант — коэффициент корреляции между результатом задания и итоговым результатом без учёта этого задания, и некоторые другие коэффициенты, толкование которых в этой науке отличается от общепринятого.

В частности, надёжность здесь, в отличие от стандартного понимания, считается качеством не системы или объекта, а измерения, и оценивается не через время исправной работы или какие-либо варианты этого времени, например, в терминах наработки на отказ, а как возможность получения сопоставимых показателей, оцениваемых через коэффициент корреляции. Из такого толкования получаются последовательная надёжность, т. е. коэффициент корреляции между результатами выполнения двух заданий, расстояние по времени между которыми достаточно для того, чтобы эти задания можно было бы считать субъективно независимыми, параллельная надёжность, т.е. коэффициент корреляции между результатами вариантов заданий, надёжность частей, т.е. коэффициент корреляции между результатами всей процедуры измерений и какой-либо его части, и другие показатели. Другими словами, последовательной надёжностью в этой науке называют то, что в профессиональной теории измерений считают количественной мерой test-retest-валидности, параллельной надёжностью и надёжностью форм — мерой test-subtest-валидности, и в целом наблюдается путаница в терминологии, что приводит к смешиванию валидности и надёжности.

Страницы: 1 2 3 4 5 6 7

Навигация

Copyright © 2024 - All Rights Reserved - www.creativeeducation.ru