Дипломы, курсовые, рефераты, контрольные...
Срочная помощь в учёбе

Показатели качества тестов

РефератПомощь в написанииУзнать стоимостьмоей работы

Этот вид валидности определяется в тех случаях, когда представление об измеряемом феномене (конструкте) существует только в сознании исследователя. Разработчик теста может лишь строить гипотезу о существовании данного конструкта, его формах и характере проявления. Устанавливается концептуальная валидность путём доказательства правильности теоритических концепций, положенных в основу теста. Это… Читать ещё >

Показатели качества тестов (реферат, курсовая, диплом, контрольная)

Требования к тестам как измерительному инструменту содержат требования к расчету показателей качеств тестов и требования к их оснащению.

Надежность Надежность теста является одним из критериев его качества и показывает, насколько точно измеряет данный тест изучаемое явление, его «помехоустойчивость». Она, как правило, определяется после проведения анализа задач и составления окончательной формы теста.

Надёжность характеризует точность теста как измерительного инструмента, его устойчивость к действию помех (состояния испытуемых, их отношения к процедуре тестирования и т. п.). Качественный тест не может быть создан без тщательного изучения этого важного аспекта измерения. Использование ненадёжных тестов, допуск большого количества ошибок в таком ответственном деле, каким является тестирование людей, могут стать причинами педагогических и административных ошибок, последствия которых трудно исправить.

В психологии термин «надёжность» применяется в двух значениях. Во-первых, тест называется надёжным, если он является внутренне согласованным.- Во-вторых, тест называется надёжным, если он даёт одни и те же результаты для каждого испытуемого при повторном тестировании. Такая надёжность называется ретестовой.

Для тестов учебных достижений особую важность приобретает ретестовая надёжность, поскольку специфика заданий тестов учебных достижений делает внутреннюю согласованность достаточно прозрачной.

Если балл, полученный учеником в результате теста по оценке результатов, будет соответствовать той оценке, которую они получили бы при повторном прохождении того же теста или идентичного с ним по форме, то данная оценка считается высоко надёжной. Все тестовые результаты содержат некоторый процент ошибок (в связи с различием факторов, таких, как условия тестирования или студенческие ответы), но процент ошибок может быть уменьшен путём увеличения количества и усовершенствования качества вопросов, задаваемых в тесте. Чем длиннее тест, тем более надёжными и адекватными будут результаты.

Надёжность определяется как коэффициент корреляции.

Для его выявления необходимо получить два ряда оценок, в которых будут присутствовать результаты оцениваемого инструмента. Результаты должны быть получены в разных условиях.

Теоретически может быть всего три варианта получения таких рядов: либо разнесение результатов по времени, либо разделение теста на две части и проведение этих частей на одинаковой выборке учащихся, либо разделение группы учащихся на эквивалентные подгруппы и тестирование их одним инструментом.

На практике используются три основных метода оценки надёжности тестов:

  • 1. Повторное тестирование (ретестирование).
  • 2. Расщепление теста (тестирование параллельной формой теста).
  • 3. Расщепление группы.

Метод повторного тестирования (ретестирование) является основным при определении надёжности психологических тестов, но его применение к тестам достижений ограничено.

Этот метод предусматривает повторное тестирование через некоторый промежуток времени. Однако за это время дети успевают подрасти, узнать что-то новое, иногда забыть известное. Таким образом, высокая динамика изменений объекта измерения ограничивает применение данного метода для тестов школьных достижений.

Поэтому при подготовке тестов школьных достижений для использования остаются два способа — разделение теста на части и тестирование эквивалентных групп.

Источниками неудовлетворительной надёжности тестов могут быть:

  • · запоминаемость содержания задач и способов их решения;
  • · интересность и оригинальность задач; - небольшое количество задач;
  • · небольшое время между первым и вторым проведением теста;
  • · причины, связанные с испытуемыми: усталость, скука, невнимательность, жара или холод, самочувствие, различная мотивация и т. д.

Повышение надёжности возможно двумя путями — ужесточением инструкции и повышением качества подготовки экспериментаторов.

Валидность Ещё одной важнейшей характеристикой теста является его валидность.

Валидность особенно значима для тестов, ориентированных на критерий, поскольку определение надёжности для них затруднено. По мнению Н. Гронлунда, «в связи с тем, что традиционные оценки надёжности теста основаны на разнообразии баллов, возникают особые проблемы при разработке надёжного теста, не требующего такого разнообразия баллов, как это бывает в случае с тестами, ориентированными на критерий. В этом случае появляется более сильная зависимость от соответствия тестовых вопросов конкретным учебным задачам, что достигается путём использования достаточного числа вопросов для каждой изучаемой задачи и разработкой письменных вопросов, которые вызывают ожидаемый ответ».

Валидность и надёжность — связанные понятия. В литературе мы находим различные примеры, иллюстрирующие их связь. Вот один из них. Допустим, имеются два стрелка: А и В. Стрелок, А выбивает 90 очков из 100, а стрелок В — только 70. Соответственно, надёжность стрелка В — только 0,7. Однако стрелок, А всегда стреляет по чужим мишеням, поэтому на соревнованиях его результаты не засчитываются. Стрелок В всегда правильно выбирает мишени. Поэтому валидность стрелка, А нулевая, а стрелка В — 0,7, то есть равна надёжности. Если стрелок, А станет правильно выбирать мишени, его валидность тоже будет равна его надёжности. Если же он будет иногда путать мишени, то часть результатов не будет зачтена и валидность стрелка, А будет ниже надёжности.

В этом примере аналогом надёжности является меткость стрелка, а аналогом валидности — точность стрельбы по строго определённой «своей» мишени. В истории тестологии известны случаи, когда тест с низкой валидностью для измерения одних свойств (тех, для которых он создавался) оказывался валидным по отношению к другим. Ненадёжный тест не может быть валидным, и, наоборот, валидный тест всегда надёжен.

Понятие «валидность» очень часто вызывает путаницу не только среди педагогов, но и среди психологов. Причины этой путаницы носят исторический и лингвистический характер.

Валидность определяет, насколько тест отражает то, что он должен оценивать.

В современной тестологии выделяются следующие основные виды валидности:

  • 1. Валидность по содержанию (содержательная).
  • 2. Конструктная (концептуальная) валидность.
  • 3. Валидность по критерию (критериальная или эмпирическая валидность).
  • 1. Валидность по содержанию (содержательная)

Содержательная валидность устанавливается экспертами для деятельности, близкой или совпадающей с реальной.

Определение содержательной валидности — основное для тестов достижений и тестов профессиональной успешности, когда должен быть точно определён материал, применяемый для тестирования, и когда существует достаточная ясность смысла измеряемого параметра.

Очевидно, что содержательная валидность будет полезна только тогда, когда могут быть определены специальные навыки и особенности поведения. Это довольно легко можно сделать на элементарном уровне — при тестировании арифметических навыков (правил выполнения четырёх арифметических операций, правил вычислений с 0 и т. п.), знаний в области искусства (правил нотной записи, принципов архитектуры и др.), а также знаний базовых элементов для большинства научных дисциплин, в которых накоплен багаж фактических данных. Содержательная валидность определяется на основе экспертных методов.

П. Клайн предлагает следующую процедуру определения содержательной валидности для тестов достижений:

  • 1. Укажите точно категорию лиц, для которой предназначен тест.
  • 2. Определите навыки, подлежащие тестированию (возможно, вам потребуется их проанализировать). Составьте список.
  • 3. Передайте этот список экспертам в данной области (учителям и т. п.) для проверки — нет ли упущений.
  • 4. Преобразуйте этот список в перечень заданий, используя, когда это возможно, равное количество заданий на каждый навык.
  • 5. Представьте эти задания экспертам для проверки.
  • 6. Подвергните задания обычным процедурам конструирования тестов. В результате должен быть получен содержательно валидный тест.
  • 2. Конструктивная (концептуальная) валидность

Этот вид валидности определяется в тех случаях, когда представление об измеряемом феномене (конструкте) существует только в сознании исследователя. Разработчик теста может лишь строить гипотезу о существовании данного конструкта, его формах и характере проявления. Устанавливается концептуальная валидность путём доказательства правильности теоритических концепций, положенных в основу теста. Это особенно необходимо в тех случаях, когда результаты тестовых измерений используются не просто для предсказания поведения, а как основа для выводов о том, в какой степени испытуемые обладают некоторой характеристикой.

Если эмпирические данные подтверждают гипотезу, то тем самым подтверждается концепция, положенная в основу теста, и способность теста служить инструментом измерения данного конструкта. Ошибки при проведении валидности могут возникнуть как следствие неправильной теоретической концепции, положенной в основу теста, или отсутствия соответствия между тестом и теоретической концепцией, или ошибочного выдвижения гипотез.

Непосредственно для тестов учебных достижений этот вид валидности не используется, однако овладение этим методом может быть чрезвычайно полезно для системы мониторинга, поскольку он даёт возможность обоснования истинности, реальности существования понятий и явлений.

3. Валидность по критерию (критериальная или эмпирическая валидность) Суть её заключается в определении способности теста служить индикатором или предсказателем строго определённой психической особенности, формы поведения человека и др.

Валидизация теста по критерию состоит в сравнении баллов, полученных испытуемыми за решение теста, с данными по критерию и вычислении коэффициента корреляции тестового результата с внешним критерием. Например, школьный тест умственного развития (ШТУР) валидизировался на основе критерия школьной успеваемости — оценок детей по предметам. В качестве критерия может выступать любой показатель, независимо и бесспорно измеряющий ту же психологическую характеристику, что и валидизируемый тест.

Для тестов учебных достижений наибольшее распространение нашли такие способы определения внешнего критерия, как метод коллективной оценки, метод средневзвешенной оценки, метод ранжирования и метод парного сравнения.

В литературе можно встретить немало других видов валидности, которые получены классификацией по другим основаниям: очевидная (с точки зрения испытуемого), конкурентная (определяется по корреляции с результатами использования инструмента, определяющего тот же показатель, что и создаваемый инструмент), внешняя, внутренняя, прогностическая и т. д.

Для всех тестов учебных достижений должна быть определена содержательная валидность, а для тестов, используемых для аттестации учащихся, — содержательная и критериальная.

Нормирование Одно из преимуществ тестов по сравнению с другими видами измерений заключается в том, что они имеют основания для сравнения. Для тестов, ориентированных на критерий, — это полученный на основе экспертных оценок критерий значимости, превышение которого учеником означает, что он успешно справился, готов, прошёл и т. д., в зависимости от целей тестирования.

Для нормативно-ориентированных тестов основанием для сравнения служат статистические нормы. Возможно сравнение показателя некоторого испытуемого с показателями в генеральной совокупности или других релевантных группах, что в конечном счёте даёт возможность адекватной интерпретации полученного показателя. Таким образом, нормализация тестов наиболее важна в тех случаях, когда осуществляется явное или неявное сравнение показателей испытуемых, как, например, при профориентации или отборе в целях обучения, построении систем мониторинга в образовании.

Тестовые нормы представляют собой установленные на базе репрезентативной выборки эмпирические усреднённые количественные данные о результатах выполнения теста, полученные в стандартных условиях.

По широте охвата можно выделить:

  • · универсальные нормы — устанавливаются для широкого контингента людей и лишь в малой степени зависят от действия каких-либо признаков;
  • · национальные нормы — применяются для представителей конкретной народности или страны в целом и учитывают особенности культуры, норм и традиций обследуемых;
  • · региональные нормы;
  • · локальные нормы.

В образовании в настоящее время мы можем вести речь о региональных и локальных нормах — нормах для Екатеринбурга, для Калуги, нормах для Тульской области, нормах для Санкт-Петербурга и т. д.

ЕГЭ как форма итоговой аттестации должен быть «нормированным инструментом» на национальном уровне.

При разработке тестовых норм необходимо учитывать следующее:

  • 1. Нормы устанавливаются при разработке нового теста, адаптации или редактировании существующего, если он используется на выборке, отличающейся от стандартизированной по каким-либо критериям,
  • 2.

    Введение

    нового типа нормировочного балла при разработке теста должно быть обосновано.

  • 3. Стандартизированная выборка при разработке норм должна быть хорошо сбалансирована по составу и численности.
  • 4. Все отклонения от процедуры нормирования тестовых результатов должны оговариваться в прилагаемых руководствах.
Показать весь текст
Заполнить форму текущей работой