Метод тестирования в педагогике. Педагогическое тестирование как средство повышения качества контроля и оценки эффективности учебного процесса

Тест это объективное и стандартизированное измерение, поддающееся количественной оценке, статистической обработке и сравнительному анализу. Тест служит оценке знаний испытуемого и должен отвечать ряду принципов:

1. Применение серии одинаковых испытаний к большому количеству испытуемых.

2. Статистическая обработка результатов.

3. выделение эталонов оценки.

В данный момент тестовые задания широко используются в целях изучения и запоминания учебных материалов в образовательных учреждениях нашей страны. Одна из важных задач тестирования - быстрая и надежная оценка знаний человека. Теория педагогических тестов рассматривается как часть педагогической квалиметрии. Исследовалось состояние контроля знаний учащихся школ с применением тестовых измерителей и выявлялись основные проблемы при использовании тестов: качество и валидность содержания тестовых заданий, надежность результатов тестирования, недостатки обработки результатов по классической теории тестов, отсутствие использования современной теории обработки тестовых материалов с применением вычислительной техники. Высокая погрешность измерения тестовых результатов не позволяет говорить о высокой надежности результатов измерения.

Достоинства и недостатки тестирования.

Одним из недостатков тестового метода контроля знаний студентов является то, что создание тестов, их унификация и анализ - это большая кропотливая работа. Чтобы довести тест до полной готовности к применению необходимо несколько лет собирать статистические данные, хотя бы с потоком студентов 100-120 человек. Возможно возникновение и других трудностей. Довольно часто встречается значительный субъективизм в формировании содержания самих тестов, в отборе и формулировке тестовых вопросов, многое также зависит от конкретной тестовой системы, от того, сколько времени отводится на контроль знаний, от структуры включенных в тестовое задание вопросов и т.д.

Но не смотря на указанные недостатки тестирования, как метода педагогического контроля, его положительные качества во многом говорят о целесообразности использования такой технологии в учебных заведениях.

К достоинствам следует отнести:

как было сказано, большая объективность и, как следствие, большее позитивное стимулирующее воздействие на познавательную деятельность студента, учащегося; исключается воздействие негативного влияния на результаты тестирования таких факторов как настроение, уровень квалификации и др. характеристики конкретного преподавателя;

ориентированность на современные технические средства на использование в среде компьютерных (автоматизированных) обучающих систем; универсальность, охват всех стадий процесса обучения. Отметим другие достоинства. Тестированный опрос многофункционален. Он позволяет быстрее понять, как дальше работать с данным студентом, а также помогает лектору скорректировать курс.

В итоге следует заметить, что использование с 1 курса тестирования студентов поможет объективно провести аттестацию вуза, которая проводится с целью установления соответствия содержания, уровня и качества подготовки выпускников требованиям государственных образовательных стандартов.

Систематическое проведение контрольных мероприятий с помощью составленных на высшем уровне инструментов контроля позволяет ВУЗам формировать высококлассных специалистов в различных областях знаний, готовых применять накопленный багаж знаний в любую минуту.

Именно в таких специалистах и в настоящее время, и в будущем нуждается наша страна, чтобы с их помощью провести быстрое оздоровление экономики.

Разработка качественного тестового инструментария - длительный, трудоемкий и дорогостоящий процесс. Стандартные наборы тестов для большинства дисциплин ещё не разработаны, а разработанные обычно имеют очень низкое качество. Данные, получаемые преподавателем в результате тестирования, хотя и включают в себя информацию о пробелах в знаниях по конкретным разделам, но не позволяют судить о причинах этих пробелов. Тест не позволяет проверять и оценивать высокие, продуктивные уровни знаний, связанные с творчеством, то есть вероятностные, абстрактные и методологические знания. Широта охвата тем в тестировании имеет и обратную сторону. Учащийся при тестировании, в отличие от устного или письменного экзамена, не имеет достаточно времени для сколько-нибудь глубокого анализа темы. Обеспечение объективности и справедливости теста требует принятия специальных мер по обеспечению конфиденциальности тестовых заданий. При повторном применении теста желательно внесение в задания изменений. В тестировании присутствует элемент случайности. Например, учащийся, не ответивший на простой вопрос, может дать правильный ответ на более сложный. Причиной этого может быть, как случайная ошибка в первом вопросе, так и угадывание ответа во втором. Это искажает результаты теста и приводит к необходимости учета вероятностной составляющей при их анализе.

Существуют два основных вида тестов: традиционные и нетрадиционные. Тест обладает составом, целостностью и структурой. Он состоит из заданий, правил их применения, оценок за выполнение каждого задания и рекомендаций по интерпретации тестовых результатов. Целостность теста означает взаимосвязь заданий, их принадлежность общему измеряемому фактору. Каждое задание теста выполняет отведенную ему роль и потому ни одно из них не может быть изъято из теста без потери качества измерения. Структуру теста образует способ связи заданий между собой. В основном, это так называемая факторная структура, в которой каждое задание связано с другими через общее содержание и общую вариацию тестовых результатов.

Традиционный тест представляет собой единство, по меньшей мере, трех систем:

формальной системы заданий возрастающей трудности;

статистических характеристик заданий и результатов испытуемых.

Традиционный педагогический тест нужно рассматривать в двух существенных смыслах: как метод педагогического измерения и как результат применения теста. Удивительно, что тексты на русском языке тяготеют к смыслу метода, в то время как в большинстве работ западных авторов понятие тест чаще рассматривается в смысле результатов. Между тем, оба эти смысла характеризуют тест с разных сторон, потому что тест надо понимать одновременно и как метод, и как результат педагогического измерения. Одно дополняет другое. Тест, как метод, не мыслится без результатов, подтверждающих качество его самого и качество оценок измерения испытуемых различного уровня подготовленности.

В приведенном выше определении традиционного теста получили развитие несколько идей.

Первая идея - тест рассматривается не как обычная совокупность или набор вопросов, задач и т.п., а в виде понятия "система заданий". Такую систему образует не всякая совокупность, а только та, которая обусловливает возникновение нового интегративного качества, отличающего тест от элементарного набора заданий и от других средств педагогического контроля. Из множества возможных систем наилучшую образует та целостная совокупность, в которой качество теста проявляется в сравнительно большей степени. Отсюда вытекает мысль о выделении первого из двух главных системообразующих факторов - наилучшего состава тестовых заданий, образующих целостность. Исходя из этого, можно дать одно из самых коротких определений: тест - это система заданий, образующих наилучшую методическую целостность. Целостность теста - это устойчивое взаимодействие заданий, образующих тест как развивающуюся систему.

Вторая идея состоит в том, что в данном определении теста совершен отход от укоренившейся традиции рассмотрения теста как простого средства проверки, пробы, испытания. Всякий тест включает в себя элемент испытания, он не сводится весь к нему. Ибо тест - это еще и концепция, содержание, форма, результаты и интерпретация - все, требующее обоснования. Этим подразумевается, что тест является качественным средством педагогического измерения. В соответствии с положениями теории, тестовые оценки не являются точными оценками испытуемых. Правильно говорить, что они лишь репрезентируют эти значения с некоторой точностью.

Третья идея, развиваемая в нашем определении традиционного теста - это включение нового понятия - эффективность теста, который ранее в литературе по тестам не рассматривался в качестве критерия анализа и создания тестов. Ведущая идея традиционного теста - минимумом числом заданий, за короткое время, быстро, качественно и с наименьшими затратами сравнить знания как можно большего числа учащихся.

К традиционным тестам относятся тесты гомогенные и гетерогенные. Гомогенный тест представляет собой систему заданий возрастающей трудности, специфической формы и определенного содержания - система, создаваемая с целью объективного, качественного, и эффективного метода оценки структуры и измерения уровня подготовленности учащихся по одной учебной дисциплине. Легко видеть, что в своей основе определение гомогенного теста совпадает с определением традиционного теста.

Гомогенные тесты распространены больше других. В педагогике они создаются для контроля знаний по одной учебной дисциплине или по одному разделу такой, например, объемной учебной дисциплины, как физика. В гомогенном педагогическом тесте не допускается использование заданий, выявляющих другие свойства. Наличие последних нарушает требование дисциплинарной чистоты педагогического теста. Ведь каждый тест измеряет что-то заранее определенное.

Например, тест по физике измеряет знания, умения, навыки и представления испытуемых в данной науке. Одна из трудностей такого измерения заключается в том, что физическое знание изрядно сопряжено с математическим. Поэтому в тесте по физике экспертно устанавливается уровень математических знаний, используемых при решении физических заданий. Превышение принятого уровня приводит к смещению результатов; по мере превышения последние все больше начинают зависеть не столько от знания физики, сколько от знания другой науки, математики. Другой важный аспект - стремление некоторых авторов включать в тесты не столько проверку знаний, сколько умение решать физические задачи, вовлекая, тем самым, интеллектуальный компонент в измерение подготовленности по физике.

Гетерогенный тест представляет собой систему заданий возрастающей трудности, специфической формы и определенного содержания - система, создаваемая с целью объективного, качественного, и эффективного метода оценки структуры и измерения уровня подготовленности учащихся по нескольким учебным дисциплинам. Нередко в такие тесты включаются и психологические задания для оценки уровня интеллектуального развития.

Обычно гетерогенные тесты используются для комплексной оценки выпускника школ, оценки личности при приеме на работу и для отбора наиболее подготовленных абитуриентов при приеме в вузы. Поскольку каждый гетерогенный тест состоит из гомогенных тестов, интерпретация результатов тестирования ведется по ответам на задания каждого теста (здесь они называются шкалами) и кроме того, посредством различных методов агрегирования баллов делаются попытки дать общую оценку подготовленности испытуемого.

Напомним, что традиционный тест представляет собой метод диагностики испытуемых, в котором они отвечают на одни задания, в одинаковое время, в одинаковых условиях и с одинаковой оценкой. При такой ориентации задачи определения точного объема и структуры освоенного учебного материала отступают, по необходимости, на задний план. В тест отбирается такое минимально достаточное количество заданий, которое позволяет сравнительно точно определить, образно говоря, не "кто что знает", а "кто знает больше". Интерпретация результатов тестирования ведется преимущественно на языке тестологии, с опорой на среднюю арифметическую, моду или медиану и на так называемые процентильные нормы, показывающие - сколько процентов испытуемых имеют тестовый результат хуже, чем у любого взятого для анализа испытуемого с его тестовым баллом. Такая интерпретация называется нормативно-ориентированной. Здесь вывод достраивается рейтингом: задания ответы выводы о знаниях испытуемого рейтинг, понимаемый как вывод о месте или ранге испытуемого.

Интегративные тесты. Интегративным можно назвать тест, состоящий из системы заданий, отвечающих требованиям интегративного содержания, тестовой формы, возрастающей трудности заданий, нацеленных на обобщенную итоговую диагностику подготовленности выпускника образовательного учреждения. Диагностика проводится посредством предъявления таких заданий, правильные ответы на которые требуют интегрированных (обобщенных, явно взаимосвязанных) знаний двух и большего числа учебных дисциплин. Создание таких тестов дается только тем преподавателям, которые владеют знаниями ряда учебных дисциплин, понимают важную роль межпредметных связей в обучении, способны создавать задания, правильные ответы на которые требуют от учащихся знаний различных дисциплин и умений применять такие знания.

Интегративному тестированию предшествует организация интегративного обучения. К сожалению, существующая сейчас классно-урочная форма проведения занятия, в сочетании с чрезмерным дроблением учебных дисциплин, вместе с традицией преподавания отдельных дисциплин (а не обобщенных курсов), ещё долго будут тормозить внедрение интегративного подхода в процессы обучения и контроля подготовленности. Преимущество интегративных тестов перед гетерогенными заключается в большей содержательной информативности каждого задания и в меньшем числе самих заданий. Потребность создания интегративных тестов возрастает по мере повышения уровня образования и числа изучаемых учебных дисциплин. Поэтому попытки создания таких тестов отмечаются, в основном, в высшей школе. Особенно полезны интегративные тесты для повышения объективности и эффективности проведения итоговой государственной аттестации учащихся и студентов.

Методика создания интегративных тестов сходна с методикой создания традиционных тестов, за исключением работы по определению содержания заданий. Для отбора содержания интегративных тестов использование экспертных методов является обязательным. Это связано с тем, что только эксперты могут определить адекватность содержания заданий целям теста. Но, прежде всего, самим экспертам важно будет определиться с целями образования и изучения тех или иных образовательных программ, а затем и договориться между собой по принципиальным вопросам, оставив для экспертизы лишь вариации в понимании степени значимости отдельных элементов в общей структуре подготовленности. Согласованный, по принципиальным вопросам, отобранный состав экспертов в зарубежной литературе нередко панелью. Или учитывая различия в смысле последнего слова, в русском языке, такой состав можно назвать представительной экспертной группой. Группа подбирается так, чтобы адекватно представлять подход, используемый при создании соответствующего теста.

Адаптивные тесты. Целесообразность адаптивного контроля вытекает из необходимости рационализации традиционного тестирования. Каждый учитель понимает, что хорошо подготовленному ученику нет необходимости давать легкие и очень легкие задания. Потому что слишком высока вероятность правильного решения. К тому же, легкие материалы не обладают заметным развивающим потенциалом. Симметрично, из-за высокой вероятности неправильного решения нет смысла давать трудные задания слабому ученику. Известно, что трудные и очень трудные задания снижают учебную мотивацию многих учащихся. Нужно было найти сопоставимую, в одной шкале, меру трудности заданий и меру уровня знаний. Эта мера была найдена в теории педагогических измерений. Датский математик Г. Раск назвал эту меру словом "логит". После появления компьютеров эта мера легла в основу методики адаптивного контроля знаний, где используются способы регулирования трудности и числа предъявляемых заданий, в зависимости от ответа учеников. При успешном ответе следующее задание ЭВМ подбирает более трудным, при неуспешном - легким. Естественно, этот алгоритм требует предварительного опробования всех заданий, определения их меры трудности, а также создания банка заданий и специальной программы.

Использование заданий, соответствующих уровню подготовленности, существенно повышает точность измерений и минимизирует время индивидуального тестирования до, примерно, 5 - 10 минут Адаптивное тестирование позволяет обеспечить компьютерную выдачу заданий на оптимальном, примерно 50%-ом уровне вероятности правильного ответа, для каждого ученика.

В западной литературе выделяется три варианта адаптивного тестирования. Первый называется пирамидальным тестированием. При отсутствии предварительных оценок всем испытуемым дается задание средней трудности и уже затем, в зависимости от ответа, каждому испытуемому дается задание легче или труднее; на каждом шаге полезно использовать правило деления шкалы трудности пополам. При втором варианте контроль начинается с любого желаемого, испытуемым, уровня трудности, с постепенным приближением к реальному уровню знаний. Третий вариант - когда тестирование проводится посредством банка заданий, разделенных по уровням трудности.

Таким образом, адаптивный тест представляет собой вариант автоматизированной системы тестирования, в которой заранее известны параметрами трудности и дифференцирующей способности каждого задания. Эта система создана в виде компьютерного банка заданий, упорядоченных в соответствии с интересующими характеристиками заданий. Самая главная характеристика заданий адаптивного теста - это уровень их трудности, полученный опытным путем, что означает: прежде чем попасть в банк, каждое задание проходит эмпирическую апробацию на достаточно большом числе типичных учащихся интересующего контингента. Слова "интересующего контингента" призвано представлять здесь смысл известного в науке понятия более строгого понятия "генеральная совокупность".

До появления первых компьютеров наиболее известной системой, близкой к адаптивному обучению, была так называемая "Система полного усвоения знаний".

Критериально-ориентированные тесты. При критериально-ориентированном подходе создаются тесты для сопоставления учебных достижений каждого ученика с планируемым к усвоению объемом знаний, умений или навыков. В этом случае в качестве интерпретационной системы отсчета используется конкретная область содержания, а не та или иная выборка учеников. При этом упор делается на то, что может выполнить ученик и что он знает, а не на то, как он выглядит на фоне других.

Есть свои трудности и при критериально-ориентированном подходе. Как правило, они связаны с отбором содержания теста. В рамках критериально-ориентированного подхода в тесте стараются отразить все содержание контролируемого курса или, по крайней мере, то, что можно принять за этот полный объем. Процент правильного выполнения заданий рассматривают как уровень подготовки или как степень овладения общим объемом содержания курса. Конечно, в рамках критериально-ориентированного подхода для последней интерпретации есть все основания, так как тест включает все то, что можно условно принять за 100%.

Критериально-ориентированные тесты закрывают довольно широкий спектр задач. В частности, они помогают собрать полную и объективную информацию об учебных достижениях каждого учащегося в отдельности и группы учеников; сравнить знания, умения и навыки ученика с требованиями, заложенными в государственных образовательных стандартах; отобрать учеников, достигших планируемого уровня подготовленности; оценить эффективность профессиональной деятельности отдельных преподавателей и групп преподавателей; оценить эффективность различных программ обучения.

Акцент на содержательном подходе может оказать благотворное влияние на педагогическое тестирование в целом. От такого подхода выигрывает, например, интерпретация тестовых баллов при текущем контроле. Ученик получает информацию не о том, как он выглядит на фоне других, а о том, что он может делать и что знает по сравнению с заданными требованиями к уровню подготовки по предмету. Разумеется, такая интерпретация не исключает сочетания с отнесением результатов к нормам, что, как правило, происходит при текущем контроле знаний учеников в повседневном учебном процессе. В этом случае тестирование интегрировано с обучением и помогает учащемуся выявить возможные затруднения, а также своевременно исправить ошибки в усвоении содержания учебного материала.

Тест (анг. - проба, испытание, исследование) представляет собой совокупность вопросов и заданий, предъявляемых испытуемому с целью измерения (диагностирования) его личностных характеристик.

Тестирование - это стандартизированный метод, используемый для измерения различных характеристик отдельных лиц. Часто оно является наименее трудоемким способом получить сведения об объективных данных или субъективных позициях. Оценка теста производится по числу правильных ответов в порядковой или интервальной шкапе.

Тестирование - целенаправленное, одинаковое для всех испытуемых обследование, проводимое в строго контролируемых условиях, позволяющее объективно измерить изучаемые характеристики педагогического процесса.

Тестовая методика позволяет получать более объективные и точные данные по сравнению с анкетным опросом, облегчает математическую обработку результатов.

Однако тестирование уступает другим методикам по глубине качественного анализа, лишает испытуемых разнообразия возможностей самовыражения.

В зарубежной психологии и педагогике тестирование применяется весьма широко; в нашей стране официально тесты применялись только для целей профессионального отбора, психопатологической диагностики, изучения физиологических возможностей человека в различных видах спорта и некоторых других областях. В настоящее время тестологические обследования применяются в образовательных учреждениях для проверки знаний, умений и навыков учащихся.

Контролирующая программа, заложенная в тесте, может иметь глобальный, общегосударственный статус (стандартизированный тест) или местный, локальный, самодеятельный (нестандартизированный тест). Стандартизация теста предполагает создание единообразного содержания, процедуры проведения и оценки выполнения тестовых заданий. Такой тест строится на научно-методической основе и подвергается проверке на большом количестве испытуемых. После этого тест принимается в качестве интервальной шкалы оценки того или иного качества (и называется стандартизированным).

В практике массового педагогического экспериментирования применяются адаптированные (видоизменение стандартизированных) и самостоятельно разрабатываемые педагогами и методистами тесты. Результаты их применения имеют поэтому ограниченную надежность.

По функциональным признакам различают:

интеллектуальные тесты;
тесты достижений;
тесты специальных способностей;
личностные тесты;
тесты интересов, установок, ценностей;
тесты, диагностирующие межличностные отношения.

Распространенный за рубежом тест количественного определения уровня умственного развития детей (коэффициент интеллекта) содержит определенное количество вопросов и заданий. Количество правильных ответов и решений переводится с помощью таблиц, заранее отработанных на большом контингенте испытуемых, в соответствующий показатель. По мнению большинства психологов, коэффициент интеллекта оценивает главным образом наличный уровень знаний, степень приобщенности личности к культуре, а не общую характеристику качеств интеллекта.

Обычно тестирование как метод педагогического исследования сливается с тестированием текущей успеваемости, выявлением уровня обученосги. В образовательной практике применяются тесты достижений. Оценка знаний педагогом - это педагогическое тестирование, т. е. выявление уровня знаний, умений, навыков, приобретенных в процессе изучения того или иного предмета. Выделяется два вида тестов: скорости и мощности. По тестам скорости у испытуемого обычно не хватает времени ответить на все вопросы, по тестам мощности у каждого такая возможность есть.

Тесты способностей - совокупность методик для изучения и оценки творческих способностей личности: способности порождать необычные идеи, отклоняться от традиционных схем мышления, быстро решать проблемные ситуации. Однако надежных способов и критериев для этих тестов пока не найдено.

По структурным признакам могут быть:

закрытые тесты и тесты со свободно конструируемым ответом (открытые);
тесты с альтернативным, множественным и перекрестным выбором ответа;
тесты на скорость и на сложность (состоящие из все более усложняющихся заданий);
тесты с выводом и обработкой ответов с помощью вычислительной техники и без нее.

Наконец, имеется целая серия тестов, основывающихся на предположении о том, что качества личности могут отражаться не только в формализованных ответах на вопросы, айв реакциях на неопределенные, произвольные ситуации. Это могут быть картинки, неоконченные предложения, продукты свободной творческой деятельности, игра и т. д. Предполагается, что такой тестовый материал должен выступать как своего рода экран, на который испытуемый «проецирует» свои мысли, потребности, чувства и т. д. Такие тесты называются проективными (например, методики незаконченных предложений, рисуночных ассоциаций, чернильных пятен (тест Роршаха), и др.). Проективные тесты - методики, направленные на выявление определенных психологических качеств человека.

Для того чтобы тест можно было назвать научным и отличить его от «любительского», он должен обладать критериями качества. Эти качества - валидность, надежность, научность, стандартизация результатов.

1. Валидность (от лат. «valid» - действительный, пригодный) - означает пригодность для измерения именно того качества, на которое он направлен, то есть означает ответы на вопросы: для какой цели применяется тест? что он измеряет? насколько хорошо он способен работать?

Существуют хорошо разработанные процедуры проверки теста на валидность: по содержанию теста, по связи с объективными критериями, по конструкции теста.

Интересен тот факт, что если для педагогического исследования мы подберем тесты, отвечающие качественному критерию валидности в диагностическом смысле, то их прогностическая валидность всегда будет сомнительной. Используя тесты, исследователь должен учесть, что с их помощью можно определить уровень развития или наличие какого-либо свойства личности на данный момент. Прогнозировать, как оно будет проявляться в дальнейшем, нельзя.

2. Надежность - означает точность психолого-педагогических измерений, свободу от погрешностей процедуры тестирования, т. е. постоянство показателей тестовых испытаний. В качестве цифрового показателя может выступать коэффициент корреляции с результатами, полученными с помощью других тестов (методик). Качественные показатели могут быть получены путем: проверки результатов с помощью других тестов (методик); деления теста на две половины (если это опросник, практикуют деление на четную и нечетную половины); анализа содержания вопросов и ответов; оценки степени стабильности результатов при повторном тестировании.
3. Научность - означает связь теста с фундаментальными исследованиями, т. е. в основе теста должна лежать какая-либо научная концепция. Настоящий критерий качества позволяет отличить научный тест от «любительского».
4. Стандартизация результатов тестирования. Использование теста подразумевает единообразие процедуры и обработки результатов. Оценка результатов осуществляется с помощью нормативов, которые, как правило, получены на представительной выборке испытуемых, соответствующей той, на которую тест ориентирован. Норму (норматив) можно получить графическим способом - путем построения нормального распределения результатов для каждого показателя.

В современном психолого-педагогическом исследовании чаще всего используются три разновидности тестов:

собственно психодиагностические тесты. Они используются, как правило, в целях оптимального управления процессом формирования личности учащегося и коррекции стиля педагогической деятельности педагога;
дидактические тесты. Они применяются в целях изучения результатов педагогико-образовательной деятельности, оптимизации процесса обучения. В эту группу входят: тесты способностей, тесты достижений, тесты интеллекта, ориентировочные тесты знаний (часто их комплекс по нескольких учебным предметам), прогностические тесты;
функциональная проба в виде экспериментальных заданий, призванных активизировать умственные операции, мотивы, интересы и т.д.