Ким В.С., Тестирование учебных достижений. - Уссурийск, 2007

1.1. КРАТКАЯ ИСТОРИЯ РАЗВИТИЯ ТЕСТОВ ДОСТИЖЕНИЙ

История тестов учебных достижений насчитывает, по мнению В.Кадневского, по крайней мере, несколько тысячелетий5.  В.Аванесов  указывает на факты, свидетельствующие о еще более древнем применении тестов6

Древние вавилоняне знали 400 клинописных знаков, использовали шестидесятеричную систему счета, умели вычислять проценты, измерять площадь и объем различных геометрических фигур.  Среди изучаемых предметов были те, которые отвечают современному понятию «профессиональная пригодность». За 2200 лет до н.э. в Китае успешно действовала система проверки способностей и отбора персонала для различных государственных должностей. В частности проверялось умение писать, читать, знать порядок проведения придворных ритуалов и церемоний. В течение последующих 2000 лет в систему отбора чиновников были внесены экзамены по гражданскому праву, военному делу, финансам, сельскому хозяйству, географии5.

 

По мнению  А.Н.Майорова7 одним из первых ученых, попытавшихся измерить различия между людьми в области элементарных психических процессов, был англичанин Френсис Гальтон (Galton F.; 1882-1911). 

Гальтон ввел в теорию тестирования три фундаментальных принципа, используемых и по сей день:

1. Применение серии одинаковых испытаний к большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

 

Все современные тесты построены на основе статистической теории измерений, а идея эталона оценки лежит в основе определения теста как стандартизованного инструмента.

Термин «умственные тесты» ввел Дж. Кеттел (Cattel J., 1860-1944). Дж.Кеттел считал тест средством для  проведения научного эксперимента с соответствующими требованиями к чистоте эксперимента. Такими требованиями он определял7:

1. одинаковость условий для всех испытуемых;
2. ограничение времени тестирования приблизительно одним часом;
3. в лаборатории, где проводится эксперимент, не должно быть зрителей;
4. оборудование должно быть хорошим и располагать людей к тестированию;
5. одинаковые инструкции и четкое понимание испытуемыми, что нужно делать;

6. результаты тестирования подвергаются статистическому анализу, находят минимальный, максимальный и средний результат, рассчитывают среднее арифметическое и среднее отклонение.

 

Эти идеи, выдвинутые Дж.Кеттелом, составляют основу для современной тестологии. Одинаковость условий для всех испытуемых, одинаковые инструкции и четкое их понимание испытуемыми – фундаментальные принципы, положенные в основу стандартизации процедуры проведения тестирования; ограничение времени, в настоящее время, после дополнительных исследований, устанавливается в зависимости от возраста испытуемых и особенностей применяемого инструментария; идеи статистической обработки результатов реализованы в достаточно сложных методах статистического анализа и моделирования7.

Большой вклад в развитие тестов интеллекта внес французский психолог Альфред Бине (Binet A., 1857-1911). Совместно с Теодором Симоном (Simon T., 1873-1961) он разработал тест, позволяющий дифференцировать нормальных и умственно отсталых детей.

В 1911-1912 годах американские психологи Л.Термен и Х.Чальдс дополнили тест Бине - Симона четырьмя новыми8:

1) «Образец обобщения», то есть пояснения сущности или морали басни.
2) Постепенный дополнительный тест по методу Эббингауза.
3) Тест для испытания запаса слов (из 100 слов).
4) Испытание «Практическое суждение» (тест  мяча и поля).
Тест на практическое суждение показан на рис.1.1.1.

 

Задание теста формулировалось в графической форме (рис.1.1.1). Изображался круг, обозначавший поле,  заросшее густой травой. Где-то в поле лежит мяч, увидеть который можно, только если подойти к нему не более чем на 10 шагов. Испытуемому нужно выбрать варианты таких траекторий передвижения, чтобы время поиска мяча было наименьшим.

Л.Термен и Х.Чальдс лучшими считали  ответы  «д» и «е». Интересно отметить, что это не совсем верно. Варианты «д» и «е» обеспечивают успешный поиск мяча, но, сравнение времен поиска для обоих вариантов, показывает, что они не равноценны. Предположив, что скорость перемещения во всех случаях одинакова, мы можем сравнивать не время, а длину пути (траектории) поиска. Из рисунка видно, что длина траектории поиска в случае «д» почти в 3 раза превышает длину в случае «е». Таким образом, верный ответ – «е».

Если первоначально развивалось психологическое тестирование, то в последующем, Маккол В.А. предложил различать тесты психологические - тесты умственного развития (Intelligence Test) и педагогические - тесты учебных достижений (Educational Test)7.

Основоположником педагогических измерений считается Эдуард Ли Торндайк. Именно Торндайком были созданы первые научно обоснованные педагогические тесты, снабженные нормами.

Большой вклад в развитие  теории тестирования внесли   Spearman C.E.9,  Gulliksen H.10, Guttman L.11 Lord F.M. & Novick M.12, Kuder G.F. & Richardson M.W. (теория надежности тестов)13, Crocker Linda & Algina James14 (современная классическая теория тестов).

В настоящее время за рубежом и в нашей стране широкое применение находит современная теория тестирования - Item Response Theory (IRT). Однопараметрический вариант IRT предложен Георгом Рашем (G.Rasch)15. Развитие IRT основывалось на появлении двух и трехпараметрических моделей - Birnbaum A.16 . Обширная деятельность по развитию IRT осуществляется Д.Эндричем (D.Andrich)17, Б.Райтом (B.Wright)18

Рис.1.1.1. «Тест мяча и поля» Л.Термена и Х.Чальдса.

Фундаментальный труд Анны Анастази «Психологическое тестирование»19 представляет собой классическую работу, вобравшую в себя все достижения западной тестологии. В 2006 году вышло 7-е издание совместно с С.Урбиной, куда были добавлены главы по современным методам тестирования.

В своей «Педагогической диагностике» Карлхайнц Ингенкамп3 утверждает, что традиционные способы оценки, существующие в системе образования, срочно нуждаются в систематическом дополнении объективными методами. При этом необходимо найти научное обоснование методики оценок. Без разумного  использования информативных тестов добиться существенного улучшения в оценочной практике учителей невозможно. Это, безусловно верное утверждение, справедливое не только для Германии, но и для России.

Наряду со всеобщим распространением тестов, нарастала и их критика. Дж.Равен20 указывает на  научные  и этические аспекты экспан­сии тестологии в сфере образования. Он называет «безнравственным» пренебрежение  ущербом, который практика тести­рования наносит судьбам детей и интересам общества. Дж. Равен считает, что  традиционные тесты достижений не могут должным образом оценить результаты педагогического  процесса, в частности, они не подходят для выявления одаренности учащихся.

Отмечая справедливость его критики, следует все же признать, что развитие тестологии, дающей в руки педагоги качественный измерительный инструмент, явление нужное и прогрессивное. Правда, это должен быть не единственный измеритель, определяющий ход учебного процесса.

 

РАЗВИТИЕ ТЕСТОЛОГИИ В РОССИИ

 

Среди российских исследователей занимавшихся тестированием, можно назвать П.П.Блонского, Г.И.Залкинда, М.С.Бернштейна и др. К сожалению, в 1936 году вышло постановление ЦК ВКП(б) «О педологических извращениях в системе Наркомпросов». Тестирование было признано противоречащим советской идеологии со всеми вытекающими последствиями.

В послевоенные годы, работы в области тестирования начали возрождаться, а в 70-80-х годах прошлого столетия педагогическое тестирование стало усиленно развиваться в рамках технологии программированного обучения.

Важную роль в становлении отечественной тестологии сыграли работы Беспалько В.П.21, 22 и Талызиной Н.Ф.23, 24, 25 Согласно В.П.Беспалько процесс обучения должен быть технологичным и диагностичным. Если нет достоверной диагностики, то нет и учебного процесса. Н.Ф.Талызина, рассматривая вопросы управления процессом учения, анализирует проблемы педагогической оправданности применения тестов различного типа.

Работы отечественных и зарубежных тестологов были в основном изолированы от друг от друга. В СССР фундаментальные труды зарубежных тестологов были практически неизвестны.

В этой связи следует отметить трудно переоценимую деятельность В.C.Аванесова по применению и развитию  передовых идей и достижений зарубежной тестологии  в отечественной теории и  практике педагогического тестирования.

Под руководством В.C.Аванесова в 1985 году на базе Московского института стали и сплавов был организован Исследовательский центр по проблемам управления качеством подготовки специалистов. В этом центре началась планомерная переподготовка руководящих работников и преподавателей в системе высшего образования СССР.  В Москву на краткосрочные (1  месяц) курсы съезжались преподаватели, доценты, профессора со всех регионов страны - от Дальнего Востока, до Прибалтики и Средней Азии. Именно этот период, видимо следует считать началом широкомасштабного применения современных научных методов в педагогическом тестировании.

В 1989 году В.C.Аванесовым было выпущено учебное пособие «Основы научной организации педагогического контроля в высшей школе»26, внесшее большой вклад в развитие теории и практики отечественной тестологии.  В.C.Аванесов является приверженцем современных технологий в образовании, большую просветительскую деятельность он осуществляет в глобальной сети Интернет. Его сайт www.testolog.narod.ru  содержит массу постоянно обновляемой информации весьма полезной для тестологов. Журнал «Педагогические измерения», главным редактором которого является В.С.Аванесов, является авторитетным изданием, где публикуются работы отечественных и зарубежных тестологов. А.Н.Майоров называет Вадима Сергеевича Аванесова классиком отечественной тестологии и с этим трудно не согласиться. 

Вместе с В.C.Аванесовым в Исследовательском центре начала свою деятельность М.Б.Челышкова. К этому моменту она защитила кандидатскую диссертацию  и увлеченно читала в Исследовательском центре лекции по Item Response Theory (IRT). Это были очень актуальные лекции, следует отметить, что значимость IRT в тестологии возрастает с каждым годом. Ныне, профессор Марина Борисовна Челышкова широко известна в кругах тестологов, а ее учебное пособие «Теория и практика конструирования педагогических тестов»27, вышедшее в 2002 году пользуется всеобщим признанием.

Очень важные вопросы стандартизации педагогических тестовых материалов подняты в работе  Б.У.Родионова,  А.О.Татура28.  Педагогический тест является измерительным инструментом и это должен быть качественный инструмент, позволяющий получать достоверные результаты.  В создании качественных педагогических тестов чрезвычайно велика роль стандартов, которым должны соответствовать педагогические тестовые материалы.

Полный комплекс работ по составлению и использованию тестов школьных достижений представлен в работах А.Н.Майорова7, 29. В нашей стране остро стоит проблема подготовки кадров для системы тестирования. А.Н.Майоров отмечает, что существует «миф о том, что для составления тестового инструмента нет необходимости иметь специальные знаний. В последние годы, особенно в связи с введением ЕГЭ, появилось множество книг с описанием тестов по любым школьным предметам. Следует понимать, что это не тесты, а некоторые совокупности сырых заготовок,  которые следует еще переработать в задания в тестовой форме, а затем, если удастся – в тестовые задания. Только после этого можно говорить, что создан тест для той или иной предметной области.

Если работы А.Н.Майорова имеют больше практическую направленность, то работы Ю.М.Неймана и В.А.Хлебникова носят больше теоретический характер30, 31, 32. Им принадлежит русскоязычная трактовка названия теории Раша (G.Rasch) - «Теория моделирования и параметризации педагогических тестов» (ТМППТ). Эти работы имеют большое значение для развития теоретических основ отечественной тестологии. Традиционные контрольные процедуры страдают субьективизмом и неопределенностью оценок. В этой связи Ю.М.Нейман и В.А.Хлебников отмечают, что принципиально изменить ситуацию можно лишь в том случае, если подходить к оцениванию знаний как к процессу объективного измерения, а результаты таких измерений обрабатывать стандартными  математическими методами и сопровождать стандартными характеристиками точности. Ими указывается, что педагогический тест, в отличие от, например, контрольной работы, можно рассматривать как своеобразный измерительный инструмент определенной разрешающей силы и точности.

Информационные и телекоммуникационные технологии оказывают сильное воздействие, как на организационные формы, так и на обработку результатов тестирования. В работе В.И.Нардюжева и И.В.Нардюжева33 рассмотрены вопросы построения системы компьютерного тестирования. Программные разработки этих авторов использовались для организации абитуриентского компьютерного тестирования Федеральным центром тестирования Минобразования РФ (ЦТ МО РФ). Прикладные программные средства Tester - для проведения тестирования, Operator - для конфиденциальной передачи результатов тестирования в ЦТ МО РФ, StatInfo - для статистической обработки результатов тестирования, показали себя как надежные и удобные программные продукты.

Термин «Дидактическая тестология» вводит Е.А.Михайлычев34. Если исходить из того, что дидактика - это теория обучения, а педагогика - теория и обучения и воспитания, то термин, предложенный Е.А.Михйлычевым представляется более точным, нежели термин «педагогическое тестирование». Однако следует отметить, что в научной терминологии уже устоялся термин «педагогическое тестирование».  Е.А.Михайлычевым  очень обстоятельно описаны проблемы валидизации теста и пути их решения.

Применение модели G.Rasch (Раш) к изучению латентных переменных в образовании в социально-экономических системах развивается в работах А.А.Маслака35. Следует отметить вклад А.А.Маслака в разработку конструктов, содержащих индикаторные переменные для социально-экономических систем, анализ точности педагогических измерений на основе модели Раша.  В качестве эффективного инструмента в исследованиях А.А.Маслака  используется программное средство RUMM (Rasch Unidimensional Measurement Model), разработанное под руководством профессора  Д.Эндрича17.

В монографии В.Ю.Переверзева36  рассматриваются характеристики критериально-ориентированных тестов и их сравнение с нормативно-ориентированными тестами, описываются методики определения оптимального количества заданий в тесте. В справочном руководстве37 приводится обширный справочный материал по разработке тестовых заданий, как для бланкового, так и для компьютерного тестирования.

Вопросы применения тестовых технологий для гуманитарных и экономических специальностей рассмотрены в учебном пособии Войтова А.Г.38. Приведена методика применения прикладного программного средства «СУБД Системное тестирование» для компьютерного тестирования.

На Дальнем Востоке большой вклад в развитие тестологии внес И.А.Морев39.   В Тихоокеанском институте дистанционных образовательных технологий (ныне Открытый университет ДВГУ), руководимым профессором В.И.Вовной, И.А.Морев теоретически обосновал и реализовал на практике технологию «мягкого, непрямого» тестирования (зарубежные аналоги - «grading» и др.) в форме деловых компьютерных игр. Под руководством И.А.Морева был разработан ряд компьютерных программ-тестеров, среди которых следует отметить программные пакеты STEACHER, DIALOG, PHRACON и DIDACTOR40. Большой статистический материал (несколько десятков тысяч испытуемых) позволил И.А.Мореву обнаружить важные закономерности, взглянуть на тестирование не только как на  измерительный, но и как на полноценный дидактический инструмент. И.А.Моревым показано, что тестирование, при определенных технологических условиях, способно успешно стимулировать рост мотивации учащихся к учебе, рост показателей их обученности и обучаемости40, [xxxvii].

Проблемы использования IRT  в учебном процессе вуза исследуются К.Т.Кузовлевой42 в Дальрыбвтузе. В Тихоокеанском военно-морском институте В.В.Черненко проводит интересные исследования как в  области технологии применения тестов достижений, так и в области интерпретации полученных результатов. Работы К.Г.Кречетникова43, 44 посвящены  вопросам организация контроля и корректировочных действий в информационной образовательной среде вуза.

Педагогическое тестирование развивалось и в Уссурийском государственном педагогическом институте. С 1994 года в УГПИ разрабатывались тестовые задания по школьному и вузовскому курсам физики, информатики. Выполнялась статистическая обработка результатов тестирования, создавались компьютерные программы, как для тестирования, так и для обработки полученных результатов45, 46, 47, 48, 49. Технология «мягкого, непрямого» тестирования разрабатывается О.Н.Фалалеевой50. Для организации абитуриентского тестирования  был создан  региональный межвузовский центр тестирования.

Из приведенного, очень краткого и неполного обзора следует, что тестирование учебных достижений широко используется за рубежом и довольно высокими темпами развивается в России.

Ким В.С., Тестирование учебных достижений. - Уссурийск, 2007