Тестирование учебных достижений является важной составной частью учебного процесса. Управление учебным процессом, как известно, является одним из определяющих факторов повышения его эффективности.
Процесс обучения, согласно Н.Ф.Талызиной1, как один из видов управления требует циклического (замкнутого) управления, осуществляемого по принципу «белого ящика». Замкнутость системы управления обусловлена наличием цепи обратной связи. Н.Ф.Талызина рассматривает коррекцию процесса усвоения, за счет действия обратной связи как самостоятельный и важный этап управления.
Коррекция возможна, если есть возможность получения достоверной, объективной информации о состоянии системы, в том числе педагогической. В этой связи необходимо отметить важность диагностичности целей и задач, решаемых системой. Только наличие диагностичных целей позволяет контролировать состояние процесса обучения, а следовательно, его коррекцию и оптимизацию.
Согласно В.П.Беспалько2 вариативными характеристиками, определяющими качество обучения, являются уровень усвоения деятельности и степень усвоения (автоматизации) деятельности.
Эти величины можно контролировать, то есть достижение высокого качества обучения является диагностичной целью. Наличие диагностичных целей позволяет организовать реально действующий процесс управления обучением.
Достижение высокого качества обучения возможно только при наличии объективных методов диагностики. К сожалению, традиционная форма оценивания уровня знаний в форме опроса, экзамена, проводимого человеком, весьма субъективна.
По мнению К.Ингенкампа3 при использовании пятибалльной шкалы преподаватель выставляет оценки с разбросом плюс, минус 1 балл, то есть с точностью 20%. Из этого следует, что за одни и те же знания, испытуемый может быть оценен разными экзаменаторами на «2», на «3» и на «4». Более того, К.Ингенкамп указывает, что один и тот же экзаменатор в разные моменты времени, например с интервалом в 1 месяц, также по разному оценивает один и тот же ответ (на экспериментах использовались видеозаписи ответов испытуемых).
Ясно, что столь неточный «измерительный прибор», каковым является человек, существенно снижает эффективность диагностики учебного процесса. По этой причине, в качестве контрольно-измерительного мероприятия выбирается тестирование. Сам процесс тестирования учебных достижений разбивается на три процесса: 1) разработка теста; 2) процедура тестирования; 3) обработка и интерпретация результатов тестирования.
При обработке результатов используется либо классическая теория тестирования, либо IRT (Item Response Theory), позволяющая измерять уровень достижений испытуемого в специальных единицах измерения – логитах.. Итерационные процедуры оптимизации тестовых заданий позволяют создавать надежные и валидные тесты. Особо следует отметить тот факт, что IRT позволяет получить числовые значения уровня достижений испытуемого в логитах на интервальной шкале. Наличие интервальной шкалы позволяет использовать мощный аппарат математической статистики для интерпретации полученных результатов.
Напомним, что оценки, выставляемые человеком-экзаменатором, размещены на порядковой шкале, что сильно ограничивает возможности математической обработки результатов контроля. Давно критикуемая теоретически и, тем не менее, широко используемая на практике идея расчета среднего балла как среднего арифметического не имеет под собой методологических оснований. По оценкам, например, из школьного классного журнала можно определить моду или медиану. Полученную медиану можно, если угодно, трактовать как средний балл, но надо ясно отдавать себе отчет в том, что это не среднее арифметическое всех оценок, выставленных в журнале.
Тестирование же лишено подобных недостатков, поскольку, при правильном применении, дает результаты на интервальной шкале. Помимо достоверности тесты обладают и высокой степенью объективности. В практике любого преподавателя есть конфликтные случаи недовольства учащегося (студента) экзаменационной оценкой, в то же время подобные конфликты практически исключены при тестировании.
Отдавая должное объективности тестирования, необходимо еще раз подчеркнуть, что тесты должны быть надежными и валидными. Талызина Н.Ф.4 приводит пример неудачного использования контролирующих устройств (тестеров). Программа контроля (тест) для этих устройств разрабатывалась различными преподавателями. Последовательная проверка одного и того же контингента учащихся по одной и той же теме, но по разным тестам, показала различные уровни достижений. Это говорит о том, что тесты были невалидными, а возможно и ненадежными. Разумеется, объективность контроля в этом случае низкая и такое тестирование использовать нельзя.
Важность тестов в учебном процессе давно осознана за рубежом. Там теория и практика тестирования развиваются уже сотню лет. В России (в Советском Союзе) интерес к этому виду контроля знаний возродился в 60-х годах прошлого века в связи с развитием программированного обучения. Несмотря на востребованность, ситуация с обеспеченностью тестологической литературой пока еще далека от идеальной. Появление новых учебных пособий, монографий, справочников по тестированию можно только приветствовать.
В данной монографии рассмотрены вопросы теории и практики тестирования учебных достижений.
Первая глава посвящена основным понятиям, определениям и терминам теории тестов, а также содержит краткие сведения о развитии тестирования в России и за рубежом.
Во второй главе рассмотрены формы тестовых заданий. Важность тщательного соблюдения формы задания далеко не сразу осознается теми, кто только приступает к разработке собственных тестов. Казалось бы, что тут может быть неясного? Составить 30-40 вопросов, придумать к ним ответы - вот и вся работа. Это очень глубокое заблуждение. Это настоящее искусство - создание хорошего задания в тестовой форме.
Можно испытать истинное эстетическое наслаждение, наблюдая как, поначалу неуклюжее, многословное, какое-то кургузое словесное сооружение превращается в ясное, прозрачное, предельно лаконичное задание, из которого невозможно убрать ни единого слова, ни единой запятой! У каждого тестового задания есть цель и все должно работать на достижение этой цели. Начертание и размер шрифта, взаимное расположение элементов задания, место для ответов, графическое и цветовое оформление - все должно содействовать легкому и быстрому восприятию задания.
Третья глава посвящена статистической обработке результатов тестирования. Даже если разработчику удалось создать хорошие, отличные задания в тестовой форме, это еще не означает, что созданы тестовые задания. Только после испытания в реальных условиях становится ясно, работают задания теста или нет. Статистическая обработка, анализ результатов тестирования позволяет выявить неблагополучные задания, наметить пути их совершенствования. После внесенных исправлений тест вновь проверяется и вновь исправляется. Этот процесс повторяется неоднократно. Создание надежного, валидного теста с устойчивыми характеристиками - очень сложное и трудоемкое дело. Статистическая обработка результатов позволяет его облегчить.
В четвертой главе рассмотрены некоторые вопросы тестирования учебных достижений, важные для практического применения. Особое внимание уделено «человеческому фактору» в системе тестирования. Человек не машина, его поступки плохо формализуемы и трудно предсказуемы. Однако есть общие факторы, примерно одинаково влияющие на поступки людей. В их числе - мотивация человеческой деятельности. Рокуэлл Кент приводил пример «истины» - чем больше платят денег, тем больше человек работает. Эскимосы же, после обеда бросали топоры и пускались в разговоры. Они не желали работать весь день. На американский вопрос «Почему?» они отвечали - «Не интересно!». Это очень важно - учитывать мотивы поведения, в том числе и в тестировании.
Пятая глава посвящена очень злободневному вопросу применения «современной» теории тестов - Item Response Theory (IRT) и особенно модели Раша (Rasch Measurement). Слово «современная» взято в кавычки, потому, что она развивается уже около полувека, но до сих пор еще не вошла в широкую практику тестирования. Классической теории тестов в этом повезло больше. Главное достоинство IRT это то, что она позволяет получить результаты на интервальной шкале. Любая наука начинается с измерений. Если нельзя повторить эффект, измерить его, то нельзя ни подтвердить, ни опровергнуть исследовательскую гипотезу. Такая картина пока еще, к сожалению, характерна для гуманитарных наук. IRT делает революционный шаг вперед, давая исследователям мощный инструмент для подлинного измерения латентных (скрытых) свойств человека.
Модель Раша крайне необычна, она противоречит стандартной парадигме научных исследований. Как рассуждает исследователь? Если теория плохо описывает эмпирические данные, то ее надо улучшать. Георг Раш считает иначе, если эмпирические данные противоречат его теории, то эти данные следует отбросить, они недостоверны! Иногда говорят, что теория Раша это однопараметрический вариант IRT. Формально это так, но по самой сути, на концептуальном уровне, это совершенно другая, отдельная теория. Ведь когда А.Бирнбаум вводил в IRT второй и третий параметры, он пытался улучшить теорию, с тем чтобы она точнее описывала экспериментальные данные. Прадигма Rasch Measurement совершено иная - надо улучшать не теорию, а данные. С этим непросто согласиться, особенно исследователям в области естественных наук, но в тестировании учебных достижений это так.
IRT требует очень больших объемов статистических расчетов, причем в итерационных циклах. Без вычислительной техники ее практическое использование невозможно. В конце пятой главе кратко описано применение прикладного программного средства RUMM (Rasch Unidimensional Measurement Model), разработанное под руководством профессора Дэвида Эндрича (D.Andrich). Это программное обеспечение ЭВМ позволяет довольно легко и быстро осуществлять IRT-анализ результатов тестирования.
В заключение хочу выразить надежду, что данная монография окажется полезной всем тем, кто использует тестирование учебных достижений в своей деятельности.