BLOG
Online zkoušky s proctoringem nabízí desítky dodavatelů z celého světa. Některá řešení připomínají spíše jednoduché studentské aplikace, jiná jsou opravdu kvalitní – v technologické i metodické rovině. Naše velká výhoda je ve znalosti českého a slovenského vzdělávacího prostředí a v know-how z odvětví Educational Assessment.
Laicky řečeno: když vytváříme test, víme, jak to udělat. Protože to úspěšně děláme už od roku 1995.
V několika článcích vás postupně seznámíme s ingrediencemi, bez kterých se kvalitně připravený test neobejde. Začneme vybranými základními pojmy pro ověření kvality celého testu i jednotlivých otázek.
A hned na úvod doplníme důležitý disclaimer – tento článek nemá ambici promlouvat k odborníkům (tímto vás zveme na kávu nebo čaj k nám do Karlína), chceme v něm složitou látku zpřístupnit širší veřejnosti.
Začneme reliabilitou testu, nebo také spolehlivostí. Tento pojem značí míru konzistence výsledků. Test je považován za spolehlivý, pokud poskytne podobné výsledky i při opakování za stejných podmínek. Obvykle se reliabilita zjišťuje jedním z těchto principů:
Výsledkem analýzy je číslo v rozmezí 0–1. Čím vyšší je hodnota, tím spolehlivější je test. Obecně platí, že tzv. high-stakes zkoušky (např. přijímací zkoušky na vysoké školy) by neměly mít nižší spolehlivost než 0,8. Pokud má test spolehlivost 0,8, lze o něm říci, že 80 % výsledku je dáno skutečnými znalostmi studenta, zatímco 20 % výsledku tvoří tzv. chyba měření. V praxi je při hodnocení testu nezbytné počítat s několika proměnnými:
Pokud reliabilita testu vyjde pod 0,8, není od věci test přepracovat. Případně by o rozhodnutí o přijetí/nepřijetí na vysokou školu měly rozhodnout i další podklady než jen výsledek testu.
Validita testu. Zatímco reliabilita je čistě datový pohled na test, validita doplňuje hodnocení testů o jiný aspekt. Tento koncept pomáhá pochopit, jestli test skutečně měří to, co má. Pokud by např. test matematických dovedností obsahoval textově složitá zadání úloh, ve kterých se řešitel snadno ztratí, znamená to, že daný test není zcela validní k měření matematických znalostí. K dobrému výsledku totiž student potřebuje i dobré čtenářské dovednosti. Validita se obvykle ověřuje několika způsoby:
Při posuzování konkrétního testu nebývají všechny uvedené typy validity stejně důležité. Například u vědomostního testu je zásadní obsahová validita, zatímco u testu studijních předpokladů v přijímacím řízení zase kriteriální validita.
Na proces vývoje testu jsme se podívali v samostatném článku >>
Položková analýza. Díky ní zjistíte, jestli jednotlivé otázky skutečně přispívají ke splnění účelu testování – a odhalíte ty, které danému cíli brání. Běžně se setkáte s využitím matematických modelů nebo odhadů (např. teorie odpovědi na položku, kam patří třeba 2PL IRT model), nejsrozumitelnější je však z naší zkušenosti tzv. celková diskriminace (někdy také upper-lower index) – rozdíl průměru úspěšností pro skupiny 20–30 % nejlepších a nejhorších řešitelů.
Co to znamená prakticky? Všechny účastníky rozdělíme podle celkových výsledků do tzv. decilů a ověřujeme na skutečných datech, jestli u dané otázky mají opravdu nejlepší výsledky ti, kteří nejlépe zvládnou celý test.
Na grafu níže vidíte úlohu s výbornou diskriminací. Počet lidí, kteří ji vyřešili správně, totiž stoupá decil od decilu – dokládá to stoupající křivka. Rozdíl v průměrné úspěšnosti nejlepší a nejhorší třetiny řešitelů činí 72 procentních bodů.
Níže je naopak úloha se špatnou diskriminací. Křivka nestoupá (ve 3., 5. a 9. decilu dokonce klesá), rozdíly mezi decily jsou minimální a rozdíl mezi průměrnou úspěšností nejlepší a nejhorší třetiny řešitelů je pouze 13,4 procentních bodů. Pokud při pilotním testování zjistíme, že konkrétní úloha dopadne takto, do výsledného testu se nedostane.
Příprava funkčního testu vyžaduje vyšší desítky hodin odborné práce i pečlivé ověření výstupů se zástupci cílové skupiny (u přijímacích zkoušek to jsou středoškoláci).
V dalším díle seriálu se podíváme na to, jak typický test pro ScioLink vzniká.