Ким В.С., Тестирование учебных достижений. - Уссурийск, 2007

5.7. АНАЛИЗ РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ НА ОСНОВЕ RASCH MEASUREMENT

Педагогический тест,  как средство измерения учебных достижений, может дать достоверный результат только в случае его корректного применения. Корректность применения теста – это многоаспектное понятие, включающее в себя вопросы конструирования и дизайна теста, вопросы разработки и применения  тестов и, разумеется, интерпретации результатов тестирования. В данной работе основное внимание уделено вопросам корректности интерпретации результатов педагогического тестирования, проводимого на основе модели Г.Раша. Анализ результатов обычно проводится на  основе классической теории тестов или на основе Item Response Theory.

После выполнения работ по созданию теста и сбора данных на репрезентативной выборке испытуемых, производится интерпретация результатов. Этот этап принципиально отличается от технологии, принятой, скажем в экспериментальной физике. Там экспериментальные данные пытаются описывать с помощью той или иной теории. Если теоретическая зависимость между исследуемыми величинами не соответствует наблюдаемой в эксперименте, то делается вывод, что теория недостаточно развита и требует дальнейшей разработки. В теории педагогических измерений может применяться  иной  подход. Если в физике законы природы не зависят от исследователя, то  тесты в немалой степени зависят от его воли. Это принципиально важный момент.

IRT в настоящий момент является общепризнанной теорией. В качестве латентных параметров модели выступают как характеристики тестируемых, так и самого теста. Ю.Нейман и В.Хлебников2  делают вывод, что «…уникальность моделей семейства Г.Раша состоит в том, что они задают определенный механизм преобразования формальных наблюдений за исходом событий в объективные измерения на метрической шкале латентных стимулов этих событий». Это очень важно, так как недостаточно глубокое осознание этого факта, может приводить к тому, что положения педагогических измерений могут критически восприниматься специалистами в области точных наук

Таким образом, несоответствие эмпирических данных модели Раша означает, что, например, имеются неточности в формулировке заданий, были нарушения в процедуре тестирования и т.д. Как отмечает В.Аванесов17, в литературе можно встретить немало критики по поводу неприменимости модели Раша к множеству «тестов», и поэтому ведется поиск других моделей, более адекватных полученным результатам. Но здесь есть один очень важный вопрос. В теории Г.Раша никогда не ставилась задача адекватного описания данных. Напротив, это пример другой философии измерения - model based  measurement, где утверждается противоположное – не модель должна соответствовать эмпирическим данным, а данные должны соответствовать модели. Об этом можно спорить, но в соответствии с философией Rasch шкалу (педагогический тест) образуют только те задания, которые отвечают данной модели измерения. Все остальные в тест не включаются. 

Итак, при анализе результатов тестирования, нам необходимо проверить соответствие эмпирических данных модели Раша.

Согласно Ф.Бейкеру18  для этого всех N тестируемых, выполняющих M заданий теста распределяют по шкале θ (ability) по своим диапазонам уровня подготовленности. Испытуемые делятся на J групп вдоль шкалы θ так, чтобы все тестируемые внутри данной группы имели одинаковый уровень подготовленности  θj.  Всего внутри группы с номером j  окажутся  mj тестируемых, где j принимает значения из интервала   j = 1,2,3,…,J.

В пределах каждой группы rj тестируемых отвечают правильно на данное задание теста. Таким образом, для уровня подготовленности (уровня знаний) равного θj  вероятность правильного ответа на данное задание   равна

Величина  p(θj) является экспериментальным значением вероятности правильного ответа на  данное задание. На рисунке 5.7.1 показаны данные из  работы  Ф.Бейкера18.

На следующем этапе проверяется, насколько хорошо эмпирические данные описываются IRT-моделью. Результат сравнения показан на рисунке 5.7.2.

Из рисунка 5.7.2 видно, что наблюдается хорошее согласие эмпирических  данных с  IRT. В целом  задача разработчика тестов состоит в том, чтобы разработать такие тестовые задания и так осуществить процедуру тестирования, чтобы получить результаты, аналогичные тем, что показаны на рисунке 5.7.2.


 Рис. 5.7.1.

 Рис. 5.7.2.

Проанализируем результаты тестирования учащихся средних общеобразовательных учреждений по теме «Механика» учебной дисциплины «Физика». Нормативно-ориентированный тест содержал 30 заданий закрытого типа заданной специфической формы.  Всего было протестировано 60 испытуемых, т.е. использовалась бинарная матрица размером 30х60. После упорядочения матрицы по строкам и столбцам по стандартной процедуре  были рассчитаны логистические кривые по модели Раша. Для этого использовалась методика, подробно описанная в предыдущих параграфах данной главы.

Для модели 1PL вероятность успеха в j-м задании равна

где  d – фактор шкалирования, равный   1,702.

На рисунке 5.7.3 приведены результаты расчетов для  всех 30 заданий теста. Экспериментальные значения Pj, полученные по методике18,  приведены на рисунках 5.7.4-5.7.7. Экспериментальные данные показаны выборочно для четырех заданий различного уровня трудности – 3, 8, 20, 30 задания.

 

Рис.5.7.3.

По результатам тестирования сразу  можно получить матрицу, анализируя которую можно избавить тест  от некоторых неподходящих заданий19. Дальнейшие расчеты возможны в трех вариантах:

Рис.5.7.4.

Рис.5.7.5.

Однопараметрическая  логистическая модель  (1PL), или модель Раша20;

Двухпараметрическая логистическая модель (2PL) Бирнбаума;

Трехпараметрическая логистическая модель (3PL) Бирнбаума.

Как известно, модели 2PL и 3PL предлагались для лучшего согласования теории с наблюдаемыми эмпирическими данными. Если считать, что согласования следует добиваться не видоизменением теории, а получением других эмпирических данных, то следует принять модель Раша.

Рис.5.7.6.

Рис.5.7.7.

Иными словами, если экспериментальные данные не соответствуют модели Раша, то необходимо переработать тестовые задания и повторно провести эксперимент, добиваясь лучшего согласия с теорией, как указывалось выше.

Следуя такой парадигме, в данной работе все построения проводились по модели Г.Раша.

Из рисунка 5.7.3 видно, что задания теста  по шкале уровня знаний q перекрывают диапазон примерно от -3,5  до +3,5 логитов. Графики показаны последовательно слева- направо от 1-го  (самого легкого)  до 30-го самого трудного задания. Характеристические кривые некоторых заданий, а именно 3 и 4; 10 и 11; 13, 14 и 15;  19, 20 и 21; 23 и 24; 25, 26 и 27 перекрываются. В связи с этим 4, 11,  14, 15, 19, 21, 24, 26, 27  задания могут быть удалены из теста без ущерба его измерительным свойствам.

На семействе характеристических (логистических) кривых тестовых заданий отчетливо наблюдается явная недостаточность отдельных заданий. Наличие «провалов» в монотонной последовательности характеристических кривых указывает на необходимость дополнительной оптимизации теста путем добавления новых тестовых заданий или переработки имеющихся.  Переработкой тестовых заданий необходимо добиться  появления добавочных характеристических кривых в интервале от  -1,5  до - 0,5  и от   +0,7  до +1,2  логита (на уровне Pj = 0,5).

Экспериментальные данные для Pj  имеют примерно одинаковое согласие с моделью Раша, которое можно считать  удовлетворительным. Приведенные на рисунках 4-7 характеристические кривые некоторых  заданий иллюстрируют это. При анализе вся совокупность тестируемых разбивалась на 12 групп (J=12).

Экспериментальные точки для характеристической кривой 3-го задания группируются  в области  от -1 до +1 логита для Pj  от 0,5 до 1,0.  Это относительно легкое задание и экспериментальные точки приблизительно  соответствуют верхнему участку характеристической кривой.  Задания 8 и 20 находятся примерно в средней области тестовых заданий (рисунок 5.7.3) и соответствуют заданиям средней сложности. Экспериментальные точки в этом случае группируются вблизи линейной области характеристических кривых P8 и P20

Задание №30 самое трудное и экспериментальные точки в основном сосредоточены вблизи нижнего загиба характеристической кривой P30

Для проверки гипотезы Ho на соответствие полученных эмпирических данных одномерной модели IRT для всех заданий теста проводилось вычисление критерия  χ2 согласно18

Расчетное значение  критерия  χ2  оказалось в пределах от 7 до 15 для различных заданий теста.

Таким образом, несмотря на довольно заметный разброс данных, что вероятнее всего обусловлено недостаточной репрезентативностью выборки (60 испытуемых), все же можно констатировать  более или менее удовлетворительное согласие экспериментальных результатов  с одномерной моделью IRT.

Ким В.С., Тестирование учебных достижений. - Уссурийск, 2007