Mérhető jelenségek vizsgálata: a tesztelés

A teszt méréses próbát jelent. A pedagógiai kutatásban mérésről beszélünk, amikor adott dolog valamilyen tulajdonságához elfogadott szabály alapján számot rendelünk. A tesztek három jóságmutatója a validitás, a reliabilitás és az objektivitás. A tesztelmélet a tesztekkel kapcsolatos kérdéseket matematikailag fogalmazza meg. A tesztelméletek újabb generációját jelentő modern tesztelméletek a teszt használata során elkövethető hibát a klasszikus tesztelmélettől eltérően veszi figyelembe: a tesztitemek tulajdonságait valószínűségelméleti eszközökkel írja le.

Ez az alfejezet a tesztelés elméletébe nyújt betekintést.

A klasszikus tesztelmélet alapjai

A pedagógiai tesztelés az írásbeli produktumok mellett szóbeli, manipulatív, valamint pszichomotoros teljesítmények mérésére is irányul. A teszt olyan mérőeszköz, amely megfelelő skálán méri az adott pszichikus tulajdonságo(ka)t. A teszt kisebb, önállóan értékelhető egységekből, a feladatokból, esetleg feladatokból álló résztesztekből (szubtesztekből) áll. A feladatok legkisebb – tovább már nem bontható – önállóan értékelhető elemei az itemek. A klasszikus tesztelmélet feltevése szerint elegendő a teszt és az item értelmezése, amelynél 1 pontot ér a jól megoldott item, és 0 pontot a hibás. Következőleg a teszt összpontszáma azonos a helyesen megoldott itemek számával.

Az axiomatikus felépítésű klasszikus tesztelmélet kiindulópontja az úgynevezett alapegyenlet:

Valódi pontérték = Megfigyelt (mért) pontérték + Hiba.

Ehhez további igaznak elfogadott feltevések (axiómák) társíthatók. Ilyen értelemben az összes ezekből levezethető állítás is igaz. Így – a klasszikus tesztelméletet felhasználva – matematikai formában fogalmazhatjuk meg azt, hogy milyen jól méri a mérendő tulajdonságot a teszt: mennyire függ össze (korrelál) a valódi érték a mért értékkel.

Ez az elmélet azonban számos gyakorlati problémára nem tudott választ adni. Ráadásul egy pedagógiai tesztnél (például tudásszintmérő tesztnél) törekedhetünk arra, hogy a tanulók többsége minél jobban teljesítsen, amikor is az eredmények nem mutatnak normális eloszlást. Szélsőséges esetben, ha mindenki hibátlan teljesítményt nyújt, akkor a klasszikus tesztelmélet összes formulája használhatatlan. Egyfelől a felmerült tesztelméleti, matematikai problémák kezelése elvezetett a valószínűségelméleti (probabilisztikus) tesztelméletek kidolgozásához, másfelől megjelent a gyakorlati követelményeknek jobban megfelelő tesztek kidolgozását megalapozó kritériumorientált tesztelmélet.

A tesztek és itemek főbb mutatói

A tesztek, itemek minőségét különböző mutatókkal jellemezhetjük. Ami a jó minőségű teszteket illeti, a megfelelően alkalmazhatók, mert tárgyszerűek, érvényesek és megbízhatóak.

A teszt tárgyilagossága, objektivitása azt jelenti, hogy a mérés eredménye független a mérést végző személyektől. Mivel a tesztelés különböző fázisaiban a személyek szerepe eltérő (tesztet kitöltető és javító személy, valamint az eredményeket értelmező), így az objektivitás három alapesetéről beszélhetünk: (1) adatfelvételi objektivitás, (2) értékelési objektivitás és (3) interpretációs objektivitás. Az első a tesztelési helyzetre vonatkozó egyértelmű útmutatókkal, a második használható javítókulccsal, értékelési utasításokkal, míg a harmadik például referenciaadatokat tartalmazó útmutatókkal biztosítható.

A teszt érvényessége, validitása az a tulajdonság, hogy a teszt valóban azt méri, aminek a mérésére kidolgozták. Több formája ismeretes. Az előrejelző (prediktív) validitás például fontos jellemzője a felvételi teszteknek. A tudásszintmérő tesztek megfelelő validitása érdekében a tananyagot pontosan kell leképezni a mérésére szolgáló mérőeszközbe. Itt utalunk arra, hogy a teszt validitásáról egyáltalán csak akkor beszélhetünk, ha teszt megbízható.

A teszt megbízhatóságának, reliabilitásának számszerű jellemzésére a reliabilitásmutatók szolgálnak. A reliabilitásmutatók kiszámítására sokféle – különböző értékeket adó – formula van. Fontos tudni azonban, hogy a reliabilitás valódi értéke minden számított értéknél csak nagyobb vagy vele megegyező lehet. A megbízhatóság számításának egyik alapgondolata szerint ha a teszt jól mér, akkor az egyes feladatok megoldása között magas korreláció várható. Más megközelítésben a reliabilitás állítása azt jelenti, hogy egy bizonyos tulajdonság ismételt mérése ugyanazt az eredményt adja. Érdemes megjegyezni, ha egy teszt validitása rossz, attól még igen magas lehet a reliabilitása.

Az itemek jellemzésére is használhatók paraméterek. Az item nehézsége vagy nehézségi indexe azt mutatja meg, hogy az adott itemet mekkora valószínűséggel oldja meg egy tanuló. Ez alapjában a helyes megoldások száma osztva az itemet megoldók teljes számával, vagyis 0 és 1 közé eső szám (minél nagyobb, az item annál könnyebb).

Az item differenciáló ereje vagy megkülönböztető képessége azt fejezi ki, hogy az item mennyire képes különbséget tenni az eltérő tudásszintű tanulók között.

Az itemek megbízhatósága, reliabilitása is értelmezhető, amely szintén sokféle mutatóval írható le. A legegyszerűbb mutató az item és a teszt összpontszámának a korrelációja. Jó item esetében ugyanis, akik megoldják azt, azok az egész testen jól teljesítenek. Ha a korreláció alacsony, akkor az item nem azt méri, amit a teszt egésze.

Normaorientált és kritériumorientált tesztelés

A mérés célja és a vizsgálati eszközök szerint is megkülönböztethető a normára irányuló tesztelés és a kritériumra irányuló tesztelés. Azt említettük már, hogy a klasszikus tesztelmélet szemléletmódbeli fejlődése megmutatkozik a kritériumorientált tesztelmélet kialakulásában.

A normaorientált tesztelés során az elért teljesítményt – a pszichometriai hagyományoknak megfelelően – a populáció jellemzőihez, a kiválasztott minta átlagához viszonyítjuk. Ezt a viszonyítási eljárást normavonatkozású viszonyításnak is nevezik. Ebben az esetben tehát egy kiválasztott teszteredményt a tesztmegoldók csoportjának a teljesítményével vetjük össze, azaz lényegesen más csoportban más lesz a tesztpontszám jelentése.

A kritériumorientált teszteléskor a mért tulajdonság valamilyen természetes viszonyítási pontjához (például természetes maximumához) viszonyítunk, amennyiben az létezik. A pedagógia gyakorlatban jobbára a viszonyítási alap valamilyen tantervi követelmény-együttes. Természetesen a mérés szükséges feltétele nemcsak a tananyag szerkezetének az alapos elemzése, a pontosan kidolgozott tantervi, tantárgyi vagy tanulmányi követelmény, hanem a kialakítandó tudás természetének az ismerete. A cél- és követelményrendszer a tudásszintmérő tesztek validitásának a megítélését is segíti. Az adott külső kritériumot a vizsgált tulajdonság 100%-ának tekinthetjük, s a mért tudást ehhez képest elemezzük. Éppen ezért használja a klasszikus tesztelmélet a normára irányuló mérést, hiszen sok pszichikus tulajdonság (például intelligencia, kreativitás) esetében nem adható meg természetes maximum.

Az objektív mérés lehetősége a pedagógiában: a Rasch-modell

A valószínűségi tesztelméletek a klasszikus tesztelmélettől eltérően kezelik a teszt használatakor elkövethető hibát. Az elméletben egy item megoldása valószínűségi jellegű, azaz minél nagyobb a megoldó tudásszintje annál valószínűbb, hogy meg is oldja az adott itemet. Az összefüggés tehát nem determinisztikus: az item megoldásához szükséges tudásszintet meghaladó tudással – még az igen magas szintű tudással – rendelkező megoldókról sem mondhatjuk biztosan, hogy hibátlanul oldják meg azt, csak nagyobb esélyük van arra. Hasonlóképpen a megkövetelt mértékű tudást még nem birtokló tanulók is bizonyos – bár kicsi – valószínűséggel megoldják a kérdéses itemet, amelyet átlagosan a megfelelő (elvárt) tudásszinttel rendelkezők oldanak meg.

Az itemek valószínűségi függvényét úgy ábrázoljuk, hogy az x tengelyen a tanulók tudása, az y tengelyen a megoldás valószínűsége van feltüntetve. A valószínűség-eloszlást jellegzetes S alakú görbék tükrözik. A determinisztikus szögletes, lépcső alakú görbe – ahol az ugrás a szükséges tudásszintnél van – csak megközelíthető határesete az ilyen típusú görbéknek. Ebben az esetben a küszöbérték (a szükséges tudásszint) alatt senki nem oldja meg az adott itemet, míg a felett mindenki. Ez tehát egy nagy differenciáló erejű item lenne, amely nagyon pontosan két csoportra tagolja a tanulókat a megfelelő tudásszintre nézve: elérték azt vagy nem. Ha egy item karakterisztikus görbéje elnyújtott, jobban lapos, akkor az item a megoldók között nem nagyon differenciál. Párhuzamosan ívelő göbékhez tartozó itemek esetében a különbség a nehézségükben van, a többi jellemzőjük azonos.

A karakterisztikus görbéket megadó függvények két- vagy háromparaméteresek. A pedagógiai tesztelés egyik legelterjedtebben alkalmazott valószínűségelméleti modellje a kétparaméteres Rasch modell, s annak további finomított változatai.

KÉRDÉSEK, FELADATOK

  1. Mit nevezünk tesztnek? Mik az itemek?

  2. Jellemezze a klasszikus tesztelméletet!

  3. Milyen főbb alapesetei vannak az objektivitásnak? Mondjon példákat!

  4. Mit nevezünk validitásnak? Milyen formái vannak?

  5. Mi a reliabilitás? Hogyan becsülhető?

  6. Hogyan írható le a validitás és a reliabilitás viszonya?

  7. Az itemek jellemzésére milyen paraméterek használatosak?

  8. Mi a normaorientált tesztelés?

  9. Mi a kritériumorientált tesztelés?

  10. Hogyan jellemzik a valószínűségi tesztelméletek az itemeket?