BLOG
Každý rok ve Scio chystáme pro Národní srovnávací zkoušky (NSZ) desítky testů pro desítky tisíc uchazečů o studium na vysoké škole. Každý ze 17 928 studentů, kteří loni absolvovali například náš test Obecných studijních předpokladů (OSP), je unikátní. Ze statistického pohledu však dokážeme identifikovat různé skupiny uchazečů:
Při přípravě testu (nejen OSP) jsme si různých skupin uchazečů vědomi a děláme vše, co je v našich silách, abychom žádnou skupinu nezvýhodnili. Nebylo by například fér:
Klíčem ke správně postavenému testu jsou zkušení autoři úloh, detailní zadání a přesně definovaný proces včetně sbírání zpětné vazby – detailně jsme přípravu testů pro Národní srovnávací zkoušky popsali v nedávném článku.
Kontrola férovosti úloh je u nás přísná. Přesto se po dokončení testů vracíme ke všem otázkám, analyzujeme odpovědi a zpětně zjišťujeme, jestli úlohy fungovaly tak, jak měly. Pouhé percentilové výsledky pro posouzení celkové férovosti testu nestačí.
„Například na právnické obory se obvykle hlásí víc žen než mužů. Průměrný percentil bývá u mužů vyšší než u žen, což však neznamená, že jsou muži chytřejší nebo že jim otázky nadržují. Faktorů je víc, například už to, že sledované skupiny mužů a žen jsou různě velké, může indikovat, že z populace žen chodí k NSZ jiná podmnožina co do počtu a struktury uchazečů než z populace mužů. Je tedy možné, že se muži, kteří by v testu dosáhli špatných výsledků a snížili průměrný „mužský percentil“, na zkoušku vůbec nepřihlásí,“ popisuje úskalí hodnocení testů analytička Scio Lenka Fiřtová.
Stejně jako autoři high-stakes zkoušek v zahraničí tedy používáme analýzu odlišného fungování položek (Differential Item Functioning Analysis, DIF). Laicky řečeno tímto přístupem ověřujeme, jestli například:
Při přípravě testu si stanovte, co chcete měřit, radí expertka Scio >>
DIF nám umožňuje vyhodnotit, jestli se v daném testu vyskytly otázky, které některá ze skupin vyřešila nadproporčně hůře či lépe. Jde tedy o odhalení systematických chyb.
V ideálním světě bychom zjistili, že takové úlohy v testech vůbec nejsou. „V reálném světě se tomu nejde úplně vyhnout. Když jsme například porovnávali NSZ v loňském roce, zjistili jsme, že verbální oddíl testu OSP obsahoval 9,8 % úloh těžších pro ženy a 8,1 % úloh těžších pro muže. U ZSV nám vyšlo 16 % úloh těžších pro ženy a 17 % těžších pro muže,“ uvádí příklady Fiřtová.
Z výsledků mimo jiné vyplývají tato zjištění ohledně rozdílů mezi muži a ženami:
Když se ale vrátíme k procentům, jaký výsledek je pro férovost testu akceptovatelný? Vždy záleží na kontextu, interpretaci a další práci se zjištěními. „DIF odhalí určité zvýhodnění téměř vždy. Přikláním se však k názoru, aby to zvýhodnění nebylo disproporční. Pokud bude 5 % úloh jednodušších pro ženy a 5 % pro muže, je to pro autory testu přijatelný výsledek,“ hodnotí Fiřtová.
Výsledky analýz bereme ve Scio vážně a promítáme je do ještě detailnějších pokynů pro autory úloh. „V manuálech teď už stojí, aby se autoři úplně vyhýbali tématům jako fotbal nebo auta,“ popisuje Fiřtová a uvádí i další příklady opatření: „Upravujeme online prostředí pro NSZ tak, aby se co nejméně lišilo od řešení úloh na papíře, a bavíme se s fakultami, jaké znalosti nebo dovednosti jsou pro ně u uchazečů důležité.“
„Vždy záleží, jaké studenty fakulta chce. Pokud je pro fakulty důležité, aby studenti znali moderní dějiny, zůstanou tyto úlohy v testech i v budoucnu, ačkoliv DIF ukazuje, že na otázky lépe odpovídají muži,“ uzavírá Fiřtová. O to důležitější je pak dobře odvedené řemeslo při tvorbě úloh, aby bylo zvýhodnění co nejmenší.
Zjistěte, co je to reliabilita a validita testu, ať se při tvorbě otázek vyhnete častým chybám >>