Быть или не быть. Или почему 700 лучше 4000?


Автор: Александр Слепец

Не так давно, на конференции «Искусство разработки курсов» было отличное выступление на тему «Разработка тестов, результаты которых имеют значение» (Алексей Корольков, Websoft). Когда я с утра увидел программу, то подумал, что этот блок, наверное, будет самым скучным, но я ошибался. Доклад спикера вызвал активную дискуссию не только на конференции, но и за ее пределами.
Рекомендую перед прочтением поста просмотреть данную презентацию.

******************
Не смотря на, то что «классика жанра» говорит нам о трех этапах тестирования: 


1.       Проектирование и разработка теста.
2.       Реализация (запуск) тестирования.
3.       Анализ, оценка и интерпретация результатов тестирования.

Алексей предложил более детализированные процесс разработки тестирование:
Как часто при создании и запуске нового тестирования мы проходим все эти этапы? Вопрос оставлю открытым, но на 100% соглашусь со спикером, что если Вы хотите достичь эффективности от тестирования, то это оптимальный путь.
Определения целей тестирования – это всему голова. Ведь в зависимости от цели у Вас будет меняться формат и параметры теста, а в некоторых случаях и отказ от тестирования. Но об этом стоит писать в отдельном посте.

Поскольку я себе ставил за цель написать о том, как в один день мы «удалили» около 4000 вопросов из системы и почему мы так сделали. 

База в 4000 тестовых заданий досталась нам в наследство, при попытке оптимизировать – поняли, что лучше не надо. А теперь почему:
1) большая часть тестовых заданий (вопросов) были легкими или очень лёгкими, вторая часть – непонятными или неактуальными;
2) в большинстве вопросов страдали варианты ответов (дистракторы): верный вариант был в большинстве случаев очевидным (длина, местоположения, не похожесть на другие варианты); недостаточное количество вариантов ответов; отсутствие перемешивание вариантов ответов;
3) наличие множества дублей тестовых заданий (создавались или различными сотрудниками, или для различных тестов)

На текущий момент – действующих вопросов около 700, из них около 10% в течение года переносятся в архив (нет надобности дальнейшего использования), 90% в течении года пересматриваются на актуальность (од одного до несколько раз, в зависимости от потребности). Большинство вопросов включены сразу в несколько тестов и в случае внесения изменений – мы вносим корректировки только в один вопрос, во всех остальных тестах будет актуальная версия. При перенесении вопроса в архив мы просматриваем с помощью агрегированного отчета в каких тестах данный вопрос еще использовался, чтобы его тоже своевременно исключить. Это то что касается управления базой тестовых заданий.

Мы четко себе отдавали отчет, если мы не изменим подход к написанию тестовых заданий и вариантов ответов к ним, а также если не будет изменён подход к созданию теста и анализа результатов тестирования, то ни про какую эффективность тестирования лучше и не говорить.

Перед нами стоял вопрос, как можно повысить и за счет чего эффективность тестирования. Ответы мы нашли, в свойствах теста. Кстати при нарушении одного из их делает любой тест неприменимым. Вот эти свойства:
§  Валидность – соответствие измеряемым знаниям, умениям.
§  Сложность – объем умственных усилий для выбора ответа.
§  Надежность – правильность и адекватность отражения уровня знаний.
§  Устойчивость – равнозначность для различных групп участников тестирования.
§  Репрезентативность – полнота охвата темы тестирования.
§  Значимость – актуальность включения в тест. 

Управлять ими посредством качественно разработанным тестовым заданиям (вопросов) и дистракторов.

Дистракторы (от англ. distract — отвлечение внимания) — варианты ответов в заданиях с выбором, не являющиеся правильными решениями, но внешне близкие к правильному решению.

За время создания различных тестов и их последующего анализа, хочу поделиться некоторыми рекомендациями.

Рекомендации по написанию тестовых заданий (вопросов)
- Тестовое задание должно быть сформулировано ясно и четко.
- Старайтесь формулировать задание в виде одного предложения, которое должно легко восприниматься каждым участником тестирования. 
- Задания тесте должны проверять конкретные знания, умения или конкретные навыки ваших сотрудников.
- Тестовые задания должны быть информативными.
- Необходимо использовать простую, грамматически правильную утвердительную форму задания в виде одного предложения из 5-20 слов, без оборотов, используя простые придаточные предложения.
- Не используйте в заданиях «нестрогие» слова типа «иногда», «часто», «все», «всегда», «никогда», «большой», «небольшой», «малый», «много», «меньше», «больше» и грамматические обороты «Почему не может не…», «Правда ли, что…», «Возможно ли…».
- Умело используйте вопросительные слова «Кто», «Что», «Где», «Когда», «Как», «Какая», «Какой». В большинстве случаем они не нужны в тестовом задании J.

Рекомендации по составлению верного варианта и дистракторов тестового задания.
- Неправильные ответы должны быть разумны, умело подобраны, не должно быть явных неточностей, подсказок.
- Все варианты ответов должны быть грамматически согласованы с основной частью задания; в любом случае следует использовать короткие, простые предложения, без зависимых или независимых оборотов.
- Правильные и неправильные ответы должны быть однозначны по содержанию, структуре и общему количеству слов.
Применяйте правдоподобные ошибочные варианты, взятые из опыта.
Не используйте варианты ответов «ни один из перечисленных» и «все перечисленные», особенно для типов вопросов «единственный выбор».
Убедитесь, что различия между вариантами ответов точны.
Чем больше варианты ответа походят друг на друга, тем труднее распознать правильный ответ и тем лучше тестируется умение понимать, например, прочитанный текст. Но когда различия не очень четки, то может случиться так, что тестируемый, зная правильный ответ, выберет правдоподобный.
Избегайте повторения в вариантах ответов, особенно для вопросов, которые следуют последовательно.
Лучше использовать длинный вопрос и короткий ответ. В противоположной ситуации на прочтение ответов уходит больше времени и больше сил тратится на анализ высказываний.

Совет «С ног на голову»

Создать тестовые задания очень просто. Когда у Вас четко поставленная цель и Вы точно знаете, какие знания Вы должны проверить в участников тестирования, тогда смело начинайте из написания верных вариантов ответов. К верным вариантам ответов подберите правдоподобные дистракторы. И тогда смелой приступайте к написанию самого вопроса (тестового задания).

Сколько должно быть вариантов ответов? Как минимум 4 для вопросов типа «единичный выбор». А для вопросов «множественный выбор» все зависит от количества верных ответов. А что бы участники тестирования не играли «в морской бой» во время тестирования, не забывайте установить перемешивания вариантов ответов (следования вариантов - случайно).
Да, в большинстве тестовых заданий у нас проставлен вес 1 бал за верный вариант ответа, но это не стандарт для нас. 2, 3, 5 баллов за верный ответ также имеет право на жизнь. Количеством баллов мы определяем сложность вопроса.  Был опыт, когда мы ставили и 0 балов. При удобном случае поделюсь данным кейсом.

Длина теста. Оптимальное значение - 25-30 вопросов. Выборка должна быть в 3-4 раза больше. То есть в тест включаем пул из 75 вопросов, а каждому слушателю выдаем по 25-30 вопросов.

Помните, что затрачиваемое время на сдачу теста должно быть не больше 60 мин., а минимальное время зависит от занятости Ваших сотрудников. Мы делаем тесты так, чтобы время, затраченное на его прохождения, не превышало 20-30 минут.

Параметры теста. Как минимум, перемешивайте вопросы в тесте и используйте выборку вопросов. А все остального будет исходить от цели тестирования.

Пример, когда нам нужно было включить в тест вопросы с различным весом верного ответа:  
15 вопросов с весом 1 балл за верный ответ;
10 вопросов с 2 балами за верный ответ;
5 вопросов с 5 балами за верный ответ.

Почему именно так? Ведь проще было поставить настройку показать 30 вопросов из 100. Но в таком случае может получиться так, что кому-то попадутся все 30 вопросов с весом в 1 балл, а кому-то только вопросы с высоким весом. 

Как понять, что с тестом что-то не то? После каждого тестирования каждый из нас выгружает из системы как минимум отчет по завершенном тестировании. Постройте на его основе диаграмму, которая бы показала частоту распределения результатов теста.  Если в результате у Вас получилось что-то на подобие вот такой картинки, значит тест и тестовые задания требуются пересмотра.


Чтобы понять в чем причина, следует сделать выгрузку во варианты ответов участников тестирования. В большинстве LMS это стандартный отчет. Названия его может отличаться, а вот суть нет.  Он имеет приблизительно вот такой вид.


На что обращать внимание:
1. На вопросы, которые имеют слишком высокий средний балл.
2. На вопросы, которые имеют слишком низкий средний балл.
3. На количество выбранных тех или иных вариантов ответов.

Давайте попробуем понять на примерах, что нужно улучшить в некоторых вопросах (тексты вопросов и вариантов ответа показывать не буду, так как в них может содержаться конфиденциальная информация).

Кейс 1.
Средний бал 0,96, только 4% участников тестирования предоставили неверный ответ.

Ошибка №1. Не достаточное количество дистракторов (помним не меньше 4), требуется увеличениях их количества.
Ошибка №2. Второй дистрактор скорее всего не правдоподобный, так как его никто из 50 участников, так и не выбрал - смело его убирайте и придумайте новый.  

Кейс 2.
Средний балл 1.

Ошибка №1. Не используйте вариант ответа «Все ответы верны». В таком случае слушателю достаточно знать только два верных ответов и поскольку тип вопроса не позволит их выбрать одновременно у слушателя появляется мысль «Значит все варианты ответа».
Решения. Если уж не хочется добавлять дистракторы, то хотя бы замените тип вопроса на «множественный выбор» с одним верный вариантом ответа. Но в таком случае будьте готовы править результаты руками для тех участников, которые выберут все первые 4 варианта, что тоже будет правильно. Так что не ленитесь и добавляйте дистракторы и убирайте вариант ответа «Все ответы верны».

Кейс 3.
Вот пример, когда тестовое задание имеет проблемы с дистрактором (вариант 1 та вариант 4). 

Кейс 4.

Обратите внимания, первые два дистрактора никто так и не выбрал, лучше их заменить. А теперь обратите внимание на дистрактор 6, которые ввел в заблуждения более 90% участников тестирования. И здесь могут быть различные сценарии: к примеру дистрактор 6 может демонстрировать, то что сотрудники выбирают его по старинке (раньше был верный вариант ответа) так и то, что он плохо составлен.

Кейс 5.

Вот такая картинка, сигнал что тестовое задание или сформулирована непонятно, или двузначно.
Вот такой небольшой и не затратный анализ поможет Вам повысить эффективность Вашего тестирования. Успехов Вам в роботе!


It Is TomorrowAnd Me, то что меня вдохновляло в процессе написания данного поста. 

Комментарии

Популярные сообщения из этого блога

Что мотивирует сотрудников к обучению?

Про курсы, на которые нет времени, или когда дело не в мотивации, а в стратегии

Симуляция ПО в Adobe Captivate