Supporting the community

Apreciere practica, cercetare si evaluare

Un jurnal electronic revizuit de colegi

 

 

 

 

Dreptul de autor este retinut de catre primul sau singurul autor, care acorda dreptul la prima publicare la Apreciere, cercetare & evaluare practica. Se acorda permisiunea de a distribui acest articol in scopuri non-profit, educationale daca este copiat in acest scop intregsi jurnalul este creditat.

 

Volumul 14, Numarul 8, aprilie 2009 ISSN 1531-7714

 

Punctajulsi clasificarea examinatorilor

utilizand teoria masurarii deciziei

 

Lawrence M. Rudner, Consiliul de Admitere in Managementul Universitar

 

Aceasta lucrare descrie si evalueaza utilizarea teoriei deciziei de masurare (MDT) pentru a clasifica examinatorii bazati pe modelele de raspuns ale elementelor acestora. Modelul are un cadru simplu care porneste de la probabilitatile conditionale de examen in fiecare categorie sau stadiu de masterat care raspunde corect la fiecare element. Evaluarea prezentata investigheaza: (1) precizia de clasificare a testelor obtinute utilizand teoria deciziei; (2) eficacitatea diferitelor proceduri de testare secventiala; si (3) numarul de articole necesare pentru a face o clasificare. Un procent mare din examinatori pot fi clasificati cu exactitate cu foarte putine elemente folosind teoria deciziei. Un Applet Java pentru instructiuni si software pentru generarea, calibrarea si scorarea datelor MDT.

 

In introducerea manualului lor clasic, Cronbach si Gleser (1957) sustin ca scopul final al testarii este de a ajunge la deciziile de clasificare. Multe dintre deciziile de astazi sunt intr-adevar binare, de exemplu, daca sa angajeze pe cineva, daca o persoana a stapanit un anumit set de abilitati, daca sa certificati un individ. Categoric, spre deosebire de rezultatele continue rezultatele sunt comune, de exemplu, procentul de studentii care au o experienta de baza, competenti sau avansati in evaluarile de stat.

 

Modelele IRT au fost aplicate pentru a ajuta la clasificarea deciziile prin plasarea fizica a indivizilor pe scara de capacitate si apoi folosind puncte de taiere pentru a face clasificari. Modelele IRT, totusi, nu sunt intotdeauna aplicabile in situatii practice. IRT este destul de complexa, se bazeaza pe cateva destul de restrictive presupuneri, necesita esantioane mari de etalonare si nu poate sa utilizeze eficient intrebarile atunci cand scopul este simplu clasificare. Clasificarea este un rezultat mai simplu si un model mai simplu de masurare ar trebui sa fie suficient. Aceasta hartie prezinta si evalueaza folosirea teoriei deciziei ca instrument pentru clasificarea examenelor pe baza modelelor de raspuns ale elementelor acestora.

 

Adesea creditate la Wald (1939, 1947, 1950), poate mai intai aplicata masurarii de catre Cronbach si Gleser (1957) si acum utilizate pe scara larga in inginerie, agricultura si calcul, teoria teoriei ofera un model simplu pentru analiza date categorice. Aplicata la masurare, teoria deciziei necesita doar o singura presupunere cheie - ca elementele sunt independent. Astfel, domeniul testat nu trebuie sa fie capacitatea unidimensionala, examinata, nu trebuie sa fie distribuite in

mod normal, si nu trebuie sa fii la fel de preocupat cu potrivirea datelor intr-un model teoretic asa cum este cazul cu teoria raspunsului elementului (IRT) sau in cea mai mare clasa latenta modele. Sunt necesari foarte putine examene pilot, iar cu foarte putine elemente, precizia de clasificare poate depasi valoarea articolului raspuns teorie. Mai mult, asa cum spera acest articol, acest lucru modelul mai simplu poate fi relativ usor de explicat.

Avand in vedere aceste caracteristici, este surprinzator faptul ca teoria deciziei nu a atras atentia mai larga in cadrul masuratorilor comunitate. Intr-adevar, o mare parte din clasificarea computerizata (TCT) revizuita de Thompson (2007) si de Parshall, Spray, Kalohn si Davey (2006) se bazeaza pe IRT. Modelul teoriei de decizie poate functiona bine pentru licenta de proba mica si examene de certificare, ca mecanism de rutare pentru sisteme inteligente de indrumare, pentru examene la sfarsitul unitatii si pentru testarea adaptiva.

Articole cheie din literatura de testare a anilor '70 au folosit teoria deciziei (Hambleton si Novick, 1973;Huynh, 1976; Van der Linden si Mellenbergh, 1978) si ar trebui sa fie reexaminate in lumina masuratorilor problemelor de astazi. Lewis si Sheehan (1990) si altii au luat teoria deciziei pentru a selecta in mod adaptabil trusele si articolele. Kingsbury si Weiss (1983), Reckase (1983) si Spray si Reckase (1996) au folosit teoria deciziei pentru a determina cand sa opreasca testarea. Majoritatea cercetarilor de pana acum au aplicat teoria deciziei testule sau baterii de testare sau ca supliment la raspunsul la articol teoria si modelele clasei specifice latente. Articole notabile de catre macready si Dayton (1992), Vos (1997) si Welch si Frick (1993) ilustreaza aplicatia la nivel de element mai putin raspandita teoria deciziei examinata in aceasta lucrare.

Aceasta lucrare prezinta o imagine de ansamblu si conceptele-cheie ale modelului teoriei deciziei de masurare si le ilustreaza folosind un caz de clasificare binara (pass / fail) si un test de proba cu trei elemente. Calitatea modelului este demonstrata prin examinarea 1) preciziei de clasificare a testelor obtinute prin utilizarea teoriei deciziei, 2) eficacitatii diferitelor proceduri de testare secventiala prin compararea acuratetelor de clasificare cu cele ale diferitelor scenarii IRT si 3) numarul de elemente necesare face o clasificare.

 

 

Fundal

 

Obiectivul este de a forma cea mai buna estimare a stadiului de stapanire (clasificare sau stare latenta) a unui examinat individual bazat pe raspunsurile elementului examinat, informatii a priori despre obiect si proportii a priori de clasificare a populatiei. Astfel, modelul are patru componente: 1) posibile stari de stapanire pentru un examinat, 2) elemente calibrate, 3) un model de raspuns al unui individ si 4) deciziile care pot fi formate cu privire la examinat.

Prima componenta este setul de stari posibile de stapanire K, care iau valorile mk. In cazul testelor pass / fail, exista doua stari posibile si K = 2. A doua componenta este un set de elemente N precalibrate pentru care probabilitatea fiecarei observatii posibile, de regula corecta sau gresita, dat fiind fiecare stare de stapanire, este cunoscuta a priori. Raspunsurile individuale la setul de elemente formeaza a treia componenta. Fiecare element este considerat a fi o variabila aleatorie discreta stochastic legata de starile de stapanire si realizata prin valorile observate zN ,. Fiecare examinat are un vector de raspuns, z, compus din z1, z2, ... zN.

Ultima componenta este spatiul de decizie. Se poate forma orice numar de decizii D bazate pe date. De obicei, cineva doreste sa determine starea de stapanire si deciziile D = K. Cu testarea adaptiva sau secventiala, se va adauga o decizie de continuare a testelor si deci deciziile D = K + 1. Fiecare decizie va fi desemnata dk.

Calibrarea incepe cu proportia examinatilor din populatie care apartin fiecareia dintre categoriile K si cu proportia examinatilor din fiecare categorie care raspund corect. Proportiile populatiei pot fi determinate in mai multe moduri, inclusiv din testarea prealabila, transformarile scorurilor existente, clasificarile existente si judecata. In lipsa informatiilor, pot fi asumate egalitatea de priori. Proportiile care raspund corect la fiecare element pot fi derivate dintr-un test pilot care implica examinate care au fost deja clasificate sau transformari ale datelor existente. Odata ce aceste seturi de priori sunt disponibile, elementele sunt administrate noilor examinati, raspunsurile (z1, z2, ... zN) sunt observate si apoi se ia decizia de clasificare, dk, pe baza raspunsurilor la aceste elemente.

In aceasta lucrare, proportiile de testare pilot sunt tratate ca probabilitati anterioare si se utilizeaza urmatoarea notatie:

 

Antecedente

 

P(mk) - Probabilitatea unui examen selectat la întâmplare având o stare de stăpânire mk

 

P(zi|mk ) - probabilitatea de răspunsul dat zi statului stăpânirii k

 

Observatii

 

z- an individual’s response vector z1, z2, ..., zNwhere zi(0,1)

 

O estimare a starii de stapanire a unui examen este formata utilizand primele si observatiile. Prin teorema Bayes:

P(m |z ) = c P(z|m ) P(m ) (1)

Probabilitatea posterioara P (mk | z) ca examenul este de stapanire mk dat fiind vectorul sau de raspuns, z, este egal cu produsul unei constante de normalizare (c), probabilitatea vectorului de raspuns data mk si clasificarea prealabila probabilitate. Pentru fiecare examinat, exista probabilitati K, una pentru fiecare stare de stapanire. Constanta de normalizare din formula (1)

 

c=

1

K

 

P(z|mk) P(mk)

 

k=1

 

Asigura ca suma probabilitatilor posterioare este egala cu 1.0.

Presupunand independenta locala,

 

N

(2)

P(z|mk ) =P(zi |mk )

i=1

 

Probabilitatea vectorului de raspuns este egala cu produsul probabilitatilor conditionale ale raspunsurilor elementului. In teoria deciziei, ipoteza independentei locale este numitasi presupunerea "naiva a Bayes". Vom presupune naiv ipoteza independenta locala este adevaratasi vom continua analiza noastra.

In aceasta lucrare, fiecare raspuns este fie drept (1), fie gresit (0)si P (z1 = 0 | mk) = 1- P (z1 = 1 | mk). Modelul este aplicabil in egala masurasi punctajului polomat.

 

Trei concepte cheie din teoria deciziei aplicate in aceasta lucrare sunt discutate pe scurt in continuare,

 

  1. Reguli de decizie - proceduri alternative pentru clasificarea examinate pe baza modelelor de raspuns,

 

  1. Testarea secventiala - proceduri alternative pentru selectarea adaptiva a elementelor bazate pe modelul de raspuns al unui individ;si

 

  1. Deciziile succesive - proceduri alternative pentru a determina daca trebuie continuata testarea.

 

 

Melsasi Cohn (1978) prezinta o imagine de ansamblu excelenta a teoriei deciziei. Acest manuscris a fost inspiratia pentru aceasta cercetaresi merita citit.

Modelul este ilustrat aici cu o examinare a doua posibile stari de stapanire m1si m2si doua decizii posibile d1si d2 care sunt deciziile corecte pentru m1si respectiv m2. Exemplele utilizeaza un test cu trei itemi cu statisticile elementului din tabelul 1. In plus, bazandu-sesi pe date de testare anterioare, probabilitatile de clasificare sunt P (m1) = 0,2si P (m2) = 1-P (m1) .In exemplu, vectorul de raspuns al examinatorului este [1,1,0].

 

Tabelul 1: Probabilitati conditionate de raspuns corect, P (zi = 1 | mk)

 

 

 

Item 1

Item 2

Item 3

 

 

 

 

 

 

Masters (m1)

.6

.8

.6

 

Non-masters (m2)

.3

.6

.5

 

 

 

 

 

 

REGULI DE DECIZIE

 

La administrarea unui set de elemente pre-calibrate, se poate calcula P (z | mk), probabilitatea vectorului de raspuns data fiecarei clasificari posibile Ksi P (mk | z), probabilitatile de clasificare posterioara care iau in considerare clasificarea prealabila probabilitati. Sarcina este de a clasifica examenul intr-unul din starile de stapanire K.

 

De la (2), probabilitatile vectorului z = [1,1,0], daca examenul este un maestru, este .6 * .8 * .4 = .19si .09 daca acesta este un master . Asadar, P (z | m1) = 19si P (z | m2) = .9 sau P (z | m1) normalizat = .68si P (z | m2) = 32.

 

O statistica suficienta pentru luarea deciziilor este raportul probabilitatii
 

L(z)=p(z|m2)p(z| m1)

 

care pentru exemplu este L (z) = .09 / .19 = .47. Aceasta este o statistica suficienta deoarece toate regulile de decizie pot fi privite ca un test care compara L (z) cu o valoare a criteriului λ.

 

d

2

if

L(z)>λ

(3)

 

 

if

L(z)<λ

 

d 1

 

 

Valoarea λ reflecta abordarilesi judecatile selectate cu privire la importanta relativa a diferitelor tipuri de erori de clasificare.

 

Criteriul deciziei de probabilitate maxima

Aceasta este cea mai simpla abordare a decizieisi se bazeaza exclusiv pe probabilitatile conditionale ale vectorilor de raspuns dat fiecareia dintre starile de stapanire, adica P (z | m1)si P (z | m2).

Conceptul este de a selecta starea de stapanire care este cea mai probabila cauza a vectorului de raspunssi poate fi declarata ca:

Avand in vedere un set de raspunsuri de la z, luati decizia dk daca este cel mai probabil ca mk a generat z.

 

Pe baza acestui criteriu, se va clasifica examenul ca maestru - clasificarea cea mai probabila. Folosind testarea raportului de probabilitate, regula de decizie este formula (3) cu λ = 1,0. Acest criteriu ignora informatiile prealabile despre proportiile de masteratsi non-master in populatie. In mod echivalent, se presupune ca populatia in cauza este egala. Cu exemplul, cativa examinati sunt maestri, P (mk) =. Avand in vedere ca probabilitatile conditionale ale vectorilor de raspuns sunt relativ apropiate (.19si .09), aceasta regula de clasificare poate sa nu conduca la o decizie buna.

 

 

 

Probabilitatea minima de criteriu de decizie de eroare

 

In cazul deciziei binare, sunt posibile doua tipuri de erori - decideti d1 cand m2 este adevarat sau decideti d2 cand m1 este adevarat. Daca cineva considera ca m1 este ipoteza nula, atunci in ceea ce priveste teoria statistica, probabilitatea de a decide o persoana este un maestru, d1 atunci cand intr-adevar acea persoana este un m2 muma, este nivelul familiar de semnificatie, αsi P ( D2 | m2) este puterea testului, β. Atunci cand ambele tipuri de erori sunt la fel de costisitoare, poate fi dorit sa maximizeze acuratetea sau sa minimizeze probabilitatea totala de eroare, Pe. Acest criteriu poate fi declarat:

 

Avand in vedere un set de raspunsuri de la z, selectati regiunile de decizie care minimizeaza probabilitatea totala de eroare.

 

Acest criteriu este denumit uneori criteriul ideal de observator. In cazul binar, Pe = P (d2 | m1) + P (d1 | m2)si testul raportului de probabilitate in formula (2) este utilizat cu

 

  • =P(m1)P( m2)

 

Cu exemplul, λ = .25 iar decizia este d2 - non-master.

 

Criteriul decizional maxim a posteriori (MAP)

 

Criteriul maxim al deciziei de probabilitate a utilizat doar probabilitatile vectorului de raspuns. Probabilitatea minima a criteriului de eroare adaugata in utilizarea probabilitatilor de clasificare P (m1)si P (m2). Probabilitatea maxima a criteriului de decizie a posteriori utilizeaza, de asemenea, atat probabilitatile vectorului de raspuns, P (z | mk), catsi probabilitatile de clasificare P (mk).

 

Avand in vedere un set de raspunsuri de la z, decide dk daca mk este starea cea mai probabila de stapanire.

 

Prin acest criteriu, se selecteaza categoria cu cea mai mare valoare din ecuatia (3). Cu alte cuvinte,

 

d

2

if P( m2|z) / P( m1|z)>1

 

 

if P( m2|z) / P( m1|z)<1

d 1

Deoarece din ecuatia (1), P (mk | z) = c P (z | mk) P (mk), MAP este echivalent cu probabilitatea minima de criteriu de decizie de eroare. MAP este, de asemenea, echivalenta cu criteriul de probabilitate maxima atunci cand probabilitatile anterioare sunt egale.

 

Criteriul de risc Bayes

 

Un avantaj semnificativ al cadrului teoriei decizionale este ca se pot integra costurile decizionale in analiza. Prin acest criteriu, costurile sunt atribuite fiecarei decizii corectesi incorecte, astfel incat costurile medii totale pot fi reduse la minimum. De exemplu, falsurile negative pot fi de doua ori mai proaste decat false. Daca cij este costul deciziei di atunci cand mj este adevarat, atunci costul asteptat sau mediu B este

 

B=(c11

P(d1|m1) + c21

P(d2|m1)) P(m1) +

(4)

(c12

P(d1|m2) + c22

P(d2|m2)) P(m2)

 

 

Iar criteriul poate fi declarat ca

Avand un set de raspunsuri de la zsi costurile asociate fiecarei decizii, selectati dk pentru a minimiza costul total asteptat.

Prin acest criteriu, se selecteaza categoria cu cea mai mica valoare din ecuatia (3). Acesta este, de asemenea, numit criteriul minim de pierderesi criteriul optim de decizie. Daca costurile c11 = c22 = 0si c12 = c21 = 1, atunci aceasta abordare este identica cu MAP.

 

TESTAREA SECVENTIALA

 

Mai degraba decat sa se ia o decizie de clasificare pentru un individ dupa administrarea unui numar fix de articole, este posibila selectarea secventiala a elementelor pentru a maximiza informatiile, actualizarea probabilitatilor de clasificare a starii de stapanire estimatesi apoi evaluarea daca exista suficiente informatii pentru a termina testarea. In literatura de specialitate, acest lucru se numeste frecvent teste adaptive sau adaptate. In statistici, se numeste testarea secventiala.

 

La fiecare pas, probabilitatile de clasificare posterioara p (mk|z) sunt tratate ca probabilitati anterioare p(mk) actualizatesi utilizate pentru a identifica urmatorul element care urmeaza sa fie administrat. Pentru a ilustra testarea secventiala a teoriei decizionale, luati din nou in considerare situatia pentru care exista doua stari posibile de stapanire m1si m2si folositi statisticile elementului din Tabelul 1. Sa presupunem ca examinatul a raspuns corect primului element, iar sarcina este de a selecta care dintre cele doua Ramase pentru administrare in continuare.

Dupa ce raspunde corect la primul element, probabilitatea curenta actualizata de a fi un master este .6 * .2 / (.6 * .2 + .3 * .8) = .33si probabilitatea de a fi un master nu este. 66 din formula (1).

Probabilitatea actuala de a raspunde corect

 

P( zi=1)= P( zi=1| m1) P( m1)+ P( zi=1| m2) P( m2),

(5)

este suma probabilitatii de a raspunde corect in cazul in care examenul este un maestru plus probabilitatea daca un non-master. Aplicand (5), probabilitatea curenta de a raspunde corect la punctul 2 este P (z2 = 1) = 8 * .33 + .6 * .66 = .66si, pentru elementul 3, P (z3 = 1) =. 53. Urmatoarele sunt cateva abordari pentru a identifica care dintre aceste doua elemente trebuie administrate in continuare.

 

Costul minim asteptat

 

Aceasta abordare a testarii secventiale defineste elementul optim care urmeaza sa fie administrat in continuare ca cel cu cel mai mic cost asteptat. Costul minim estimat este deseori asociat cu testarea secventialasi a fost aplicat problemelor de masurare de catre Lewissi Sheehan (1990), Macreadysi Dayton (1992), Vos (1999)si altii. Ecuatia (4) a furnizat costul deciziei in functie de probabilitatile de clasificare. Daca c11 = c22 = 0 atunci

 

B=c21 P(d2|m1) P(m1) + c12 P(d1|m2) P(m2)

(6)

 

In cazul deciziei binare, probabilitatile de a lua o decizie gresita sunt una minus probabilitatea de a lua o decizie corecta. Probabilitatile de a lua o decizie corecta sunt, prin definitie, probabilitatile posterioare prezentate in (1). Astfel, cu c12 = c21 = 1, costul Bayes dupa administrarea primei intrebari este B = 1 * (1-.33) *. 33 + 1 * (1-.66) * 66 = .44.1

Urmatorii pasi pot fi utilizati pentru a calcula costul asteptat pentru fiecare element ramas.

  1. Sa presupunem pentru moment ca examinatul va raspunde corect. Calculati probabilitatile posterioare utilizand (1)si apoi efectuati costurile utilizand (6).

 

  1. Presupun ca examinatul va raspunde incorect. Calculati probabilitatile posterioare utilizand (1)si apoi efectuati costurile utilizand (6).

 

  1. Inmultiti costul de la pasul 1 cu probabilitatea unui raspuns corect la element.

 

  1. Inmultiti costul de la pasul 2 cu probabilitatea unui raspuns incorect la element.

 

  1. Adaugati valorile din etapele 3si 4

 

 

Astfel, costul asteptat este suma costurilor fiecarui raspuns ponderat de probabilitatea raspunsului respectiv. Daca examenul raspunde corect la punctul 2, atunci probabilitatea posterioara de a fi un maestru va fi (.8 * .33) / (.8 * .33 + .6 * .66) = .40si costul asociat va fi 1 * (1 -40) * 40 + 1 * (1-.60) * 60 = .48. Daca examenul raspunde incorect, atunci probabilitatea posterioara de a fi un maestru va fi (.2 * .33) / (.2 * .33 + .4 * .66) = .20si costul asociat va fi 1 * (1 -20) * 20 + 1 * (1 -80) * 80 = .32. Deoarece probabilitatea unui raspuns corect din (5) este .66, costul asteptat pentru elementul 2 este .66 * .48 + (1-.66) * .32 = .42.

Costul pentru elementul 3 este .47 daca raspunsul este corectsi .41 daca este incorect. Astfel, costul preconizat pentru elementul 3 este .53 * .47 + (1-.53) *. 41 = .44. Deoarece elementul 2 are cel mai mic cost asteptat, acesta va fi administrat in continuare.

 

Cresterea informatiei

 

Acest intreg eseu se refera la utilizarea informatiilor de distribuire a elementelor anterioare si a examinatorilor in vectorii de raspuns decodificati. Masura comuna a informatiilor din teoria informatiilor, entropia Shannon (1948), este aplicabila aici (vezi Cover and Thomas, 1991):

 

K

 

H( S)= pklog2 pk

(7)

k=1

 

Unde pk este proportia lui S apartinand clasei k. Entropia poate fi privita ca masura a uniformitatii unei distributiisi are o valoare maxima atunci cand pk = 1 / K pentru toti k.

 

Deoarece obiectivul este de a avea o distributie de varf a lui P (mk), se doreste valoarea cea mai mica posibila a lui H (S). Trebuie sa selectam apoi elementul care are cea mai mare reducere preconizata a entropiei, adica H (S0) - H (Si), unde H (S0) este entropia curentasi H (Si) este entropia asteptata dupa administrarea elementului i. Aceasta entropie asteptata este suma entropiilor conditionate ponderate ale probabilitatilor de clasificare care corespund unui raspuns corectsi unui raspuns incorect:

H( Si)= p( zi=1) H( Si| zi=1)+

(8)

p( zi=0 ) H( Si| zi=0)

 

Acest lucru poate fi calculat utilizand urmatorii pasi

 

 

 

  1. Calculati probabilitatile de clasificare posterioara normalizate care rezulta dintr-un raspuns corectsi unul incorect la elementul i utilizand (1).

 

  1. Calculati entropiile conditionate (conditionate de un raspuns corectsi conditionate de un raspuns incorect) folosind (7).

 

  1. Ponderea entropiilor conditionate prin probabilitatea lor folosind (8).

 

Tabelul 2 prezinta calculele cu datele din esantion.

 

 

Tabelul 2: Calculul entropiilor de clasificare asteptate pentru pozitiile 2si 3.

 

 

 

Raspuns

Posterior

Conditional

 

 

 

 

 

clasificare

P(zi)

H(Si)

 

 

(zi)

entropie

 

 

probabilitati

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Obiect 2

Corect

P(m1)=.40

.97

.66

.89

 

 

 

P(m2)=.60

 

 

 

 

 

Gresit

P(m1)=.20

.72

.33

 

 

 

 

P(m2)=.80

 

 

 

 

Obiect 3

Corect

P(m1)=.38

.96

.53

.92

 

 

 

P(m2)=.62

 

 

 

 

 

Gresit

P(m1)=.29

.87

.47

 

 

 

 

P(m2)=.71

 

 

 

 

 

 

 

 

 

 

Dupa administrarea primului element, P (m1) = 33, P (m2) = 66si H (S) =. Punctul 2 are ca rezultat cel mai mare castig de entropie asteptatsi trebuie administrat in continuare.

O varianta a acestei abordari este entropia relativa, care este numitasi masura de informare Kullback-Leibler (1951)si divergenta informationala. Changsi Ying (1996), Eggen (1999), Linsi Spray (2000) au evaluat favorabil informatia K-L ca strategie de testare adaptiva.

Cititorul trebuie sa retina ca, dupa administrarea celor mai informative elemente, entropia asteptata pentru toate elementele ramase ar putea fi mai mare decat H (S)si ar duce la pierderea de informatii. Asadar, se asteapta ca probabilitatile de clasificare sa devina mai putine. Este posibil sa doriti sa opriti administrarea elementelor atunci cand nu exista elemente ramase in bazin, care ar putea avea ca rezultat castiguri de informatii, desi autorul nu cunoaste niciun studiu care a investigat aceasta regula logica de reziliere.

 

Discriminarea maxima

 

In cazul in care scopul testului este de a clasifica examenii, strategia optima de selectare a elementelor IRT este de a secventa elementelor pe baza informatiilor lor la scorul de taiere (Spraysi Reckase, 1994). Analogul aici este acela de a selecta elementul care face cea mai buna diferentiere intre cele doua clasificari ale starii de stapanire cel mai probabil. Un astfel de indice este

 

Mi=logp(zi=1|mk)p( zi=1| mk+1)

 

Unde mksi mk + 1 sunt in prezent cele doua stari majore de stapanire. In cazul binar, mksi mk + 1 sunt intotdeauna m1si m2, iar ordinea elementelor este aceeasi pentru toti cei examinati.

 

 

DECIZIILE SECVENTIALE

 

 

Aceasta lucrare a discutat procedurile pentru a face o decizie de clasificaresi proceduri pentru selectarea urmatoarelor elemente care urmeaza sa fie administrate in mod succesiv. Aceasta sectiune prezinta proceduri pentru a decide cand cineva are suficiente informatii pentru a periclita o decizie de clasificare. S-ar putea face aceasta determinare dupa fiecare raspuns.

Poate ca regula cea mai simpla este criteriul deciziei Neyman-Pearson - continua testarea pana cand probabilitatea unui negativ negativ, P (d2 | m1), este mai mica decat o valoare preselectata α. Sa presupunem ca a = .05 a fost selectat. Dupa primul element, probabilitatea de a fi non-master este P (m1 | z) = .66. Daca examinatul este declarat non-master, probabilitatea curenta de a fi un negativ fals este (1-.33). Deoarece aceasta este mai mult decat o, decizia este de a continua testarea.

O varianta a lui Neyman-Pearson este criteriul ratei de eroare fixa​​- stabiliti doua praguri α1si α2si continuati testarea pana cand P (d2 | m1) <α1si P (d1 | m2) <α2. O alta varianta este criteriul limita de cost. In cadrul acestei abordari, costurile sunt atribuite fiecarei decizii corectesi incorectesi deciziei de a lua o alta observatie. Testarea continua pana la atingerea pragului de cost. O varianta a acestei abordari consta in modificarea structurii costurilor pe masura ce creste numarul de elemente administrate.

Testarea secventiala a probabilitatii lui Wald (1947) (SPRT, spurt pronuntat) este in mod clar cea mai cunoscuta regula de decizie secventiala. SPRT pentru mai multe categorii K pot fi rezumat ca

 

k

if

 

P( mk)

 

>

 

1β

 

 

for k= K

P( mk1)

 

 

α

 

 

 

 

 

 

 

 

 

 

dk

if

 

P( mk+1)

 

<

 

 

β

 

for k=1

 

 

 

 

1α

 

 

 

 

P( mk)

 

 

 

 

 

 

 

dk

if

 

 

 

P( mk)

 

 

 

>

1βand

 

 

P( mk1)

 

 

 

 

 

 

 

α

 

 

 

 

 

 

 

P( mk+1)

<

 

 

β

 

for k=2,3, ... K1

 

 

 

 

 

 

1

α

 

 

 

 

 

P( m

1

)

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

unde P (mj) sunt probabilitatile posterioare normalizate, α este rata de eroare acceptabila, iar 1-β este puterea dorita. Daca conditia nu este indeplinita pentru orice categorie k, atunci testarea continua. Exista un corp de literatura amplusi impresionant care ilustreaza faptul ca SPRT este foarte eficient ca regula de terminare a testelor adaptive pe calculator bazate pe IRT (cf. Reckase, 1983, Spray and Reckase, 1994, 1996, Lewissi Sheehan, 1990, Sheehansi Lewis, 1992).

 

Metodologie

 

Modelul este evaluat prin abordarea urmatoarelor intrebari de cercetare:

 

  1. Teoria deciziei conduce la examenul precis clasificat?

  2. Procedurile diferite de testare secventiala utilizand teoria deciziei sunt la fel de eficiente casi selectia de elemente pe baza informatiilor maxime folosind teoria raspunsului elementului?

  3. Cate elemente trebuie sa fie administrate pentru a face clasificari exacte?

 

Aceste intrebari sunt adresate utilizand doua seturi de date simulate. In fiecare caz, starile de stapanire previzionate sunt comparate cu starile de examinare cunoscute, simulate, de stapanire adevarata

 

Generarea de date

 

Aceste intrebari sunt abordate utilizand raspunsuri simulate bazate pe parametrii IRT pentru elementele de la testul de matematica din clasa a cincea a programului Colorado State Assessment (CSAP) (Departamentul de Stat al Educatiei din Colorado, 2000)si din Evaluarea nationala a progresului educational din 1996 (NAEP) Gradul de evaluare matematica (Allen, Carlsonsi Zelenak, 2000). Modelul de trei parametri al lui Birnbaum (1968) a fost folosit. Statisticile cheie pentru aceste teste sunt prezentate in tabelul 3.

 

Tabelul 3: Statistici descriptive pentru testele simulate

 

 

Testarea simulata

 

CSAP

Stare NAEP

 

 

 

Nr de obiecte din piscina

54

139

Media a

.78

.94

Media b

-1.25

.04

Media c

.18

.12

Mastery states

2

4

Cut score(s)

-.23

-.23, .97, 1.65

Pentru N(0,1)

 

 

Proportii in fiecare

.41, .59

.41, .42, .12, .05

mastery state

 

 

Fiabilitate

.83

.95

Nivel desanse

.52

.36

 

Fiabilitatea aici a fost calculata ca radacina patrata de 1 minus eroarea standard patrata, unde eroarea standard a fost ponderata prin repartizarea unei probe N (0,1). Nivelul desansa este Σ P (mk) 2, probabilitatea unei clasificari corecte data de scorurile taiate pentru un examinator aleatoriu selectat dintr-o distributie normala.

 

Statul simulat-NAEP trage dintr-un numar mare de elementesi un test foarte fiabil. Scorurile de taiere corespund nivelurilor THT care definesc nivelele de capacitate de baza inferioara Basic, Basic, Proficientsi Advanced. Proportia relativ mica de examinati pentru nivelul avansatsi utilizarea a patru clasificari de stapanire a statului ofera un test bun pentru teoria deciziei

 

 

 

 

 

CSAP este un test mai scurt de fiabilitate mai scazuta, iar esantionul de articole prezinta dificultate medie (media b) mult sub media distributiei capacitatii examenului. Deoarece categoriile de clasificare nu sunt raportate pentru CSAP, scorul de masterat / non-master cut utilizat in studiu a fost selectat in mod arbitrar pentru a corespunde percentilei 41.

Examinatorii au fost simulati prin desenarea aleatorie a unei valori de capacitate din distributiile normale N (0,1)si uniform (-2,5, 2,5)si clasificand fiecare examinat pe baza acestui scor adevarat, in functie de intervalul de scoruri taiat corespunzator. Probabilitatile unui raspuns corect au fost calculate folosind modelul IRT cu trei parametri Birnbaum (1968)si apoi probabilist convertite in scoruri dichotom observabile.

Astfel, pentru fiecare examinat simulat, exista un scor adevarat corespunzator (θ), starea latenta corespunzatoare (mk)si un vector de raspuns (z). Proportiile examinatelor in fiecare stare latenta sunt, prin definitie, probabilitatile de clasificare prealabila, P (mk). Starile latentesi vectorii de raspuns au fost folositi pentru a calcula probabilitatile conditionale anterioare ale fiecarui raspuns zi data fiecarei stari de stapanire mk, P (zi | mk). Designul specific al fiecarei simulari este discutat impreuna cu rezultatele din sectiunea urmatoare.

 

Recuperare de date

 

Pentru abordarile teoriei decizionale, probabilitatile maximale posterioare (MAP) au fost folosite pentru a determina clasificarile examinate observate. Pentru abordarile IRT, teta-palariile au fost estimate folosind procedura de iteratie Newton-Raphson prezentata in Lord (1980). Examinatorii au fost apoi clasificati in categoria corespunzatoare intervalului theta care contine teta estimata.

Cititorul trebuie sa retina faptul ca abordarile teoriei decizionale nu includ nici o informatie referitoare la modul in care au fost generate datele sau orice informatii referitoare la distributia abilitatilor in cadrul unei categorii.

Simularea compara scenarii favorabile atat pentru teoria deciziei, catsi pentru IRT. Examinatorii din esantionul de etalonare sunt clasificati fara erori, oferind astfel priori exacte pentru aplicarea teoriei deciziei. De asemenea, datele se potrivesc perfect modelului IRT.

Dat fiind ca datele sunt generate utilizand un model IRT cu o scala teta continua, teoria deciziei cu un numar finit de categorii discrete prezinta un model specificat gresit pentru recuperarea datelor. Din perspectiva IRT, probabilitatea unui raspuns corect creste in fiecare parte a scalei theta, iar teta creste in fiecare fel. Ca urmare, tiparele de raspuns sunt mai asemanatoare in fiecare fragmentsi independenta locala este in mod clar incalcata. Acest lucru ar putea prezenta o problema daca cineva ar folosi IRT pentru a recupera direct clasele latente.

 

 

 

In timp ce datele au fost generate utilizand o scala continua a tetei, aceasta analiza ia o perspectiva teoretica de decizie. Distributiile subiacente din fiecare categorie nu prezinta interes. Examinarile din cadrul aceleiasi clase latente sunt tratate casi cum ar avea aceeasi capacitate. Probabilitatile unui raspuns corect sunt considerate a fi aceleasi pentru toti membrii aceleiasi clase. Astfel, in timp ce aceasta analiza invoca ipoteza "naiva Bayes", independenta locala nu este o problema.

 

Analiza

 

Exactitatea de clasificare utilizand un model de teorie a deciziei simple este comparata cu precizia folosind un model teoretic de raspuns mai complicat. Acuratetea a fost definita aici ca proportia de clasificari corecte de stat. Pentru a compara rezultatele cu un numar diferit de categorii, in acest caz 2 pentru CSAPsi 4 pentru NAEP, precizarile au fost convertite la Reducerea proportiei in eroare (PRE):

PRE= (% clasidicare precisa - % preciwie norocoasa)

 

(100%- % precizie)

 

 

 

 

PRE este 0.0 atunci cand regula in cauza este inutilasi 1.0 atunci cand regula este perfecta.

 

SIMULATIISI REZULTATE

Clasificare Precizie

 

O intrebare cheie este daca utilizarea modelului va duce la decizii precise de clasificare. Precizia a fost evaluata in functie de diferite lungimi de testare, seturi de datesi distributii subiacente. Lungimile de testare au variat de la 3 elemente la dimensiunea grupului de articole selectand aleatoriu elemente din seturile de date CSAPsi NAEP. Pentru fiecare lungime de testare, s-au simulat 1.000 de examinatori dintr-o distributie normala N (0,1)si 1.000 de examinatori dintr-o distributie uniforma U (-2,5,2,5) impreuna cu raspunsurile la elementele lor. Fiecare conditie a fost apoi reprodusa de 100 de ori.

Rezultatele pentru marimile de testare selectate cu CSAPsi NAEP sunt prezentate in tabelul 4. Pentru CSAP, practic nu exista nici o diferenta intre precizia teoretizarii teoriei decizionalesi scorul IRT fie cu distributiile de capacitate uniforme sau normale. Cu elementele NAEP, patru categorii de clasificaresi distributiile normale ale examenului, teoria deciziei a fost consistent mai exacta decat scorul IRT. Cu distributii uniforme, IRT are un avantaj usor pana cand lungimea de testare atinge 30 de elemente.

 

Proceduri de testare secventiala

 

 

Pentru aceasta analiza au fost generate doua seturi de date de 10.000 de examinatori N (0,1) distribuite normalsi raspunsurile lor la elementele CSAPsi NAEP. Folosind aceste seturi de date fixe comune, au fost selectate elementelesi stari de stapanire au fost prezise folosind trei abordari de testare secventiala (cost minim, castig de informatiisi discriminare maxima)si trei abordari IRT.

 

 

 

Tabelul 4: Reducerea proportiei de erori ale examinarilor simulate folosind teoria deciziei MAPsi scorul IRT pe banca elementului, marimea testuluisi distributia capacitatii subiacente.

 

 

 

 

uniform

normal

 

size

 

 

 

 

 

 

 

map

irt

map

irt

 

 

 

 

 

 

 

 

CSAP items, 2 categories

 

 

5

0.697

0.681

0.508

0.487

 

10

0.798

0.782

0.607

0.595

 

15

0.847

0.827

0.667

0.657

 

20

0.871

0.851

0.704

0.696

 

25

0.889

0.871

0.729

0.721

 

30

0.901

0.883

0.750

0.746

 

 

 

 

 

 

State-NAEP items, 4 categories

 

 

5

0.293

0.453

0.387

0.275

 

10

0.475

0.556

0.497

0.426

 

15

0.572

0.625

0.560

0.500

 

20

0.630

0.660

0.615

0.566

 

25

0.670

0.691

0.645

0.607

 

30

0.710

0.713

0.671

0.642

 

35

0.743

0.736

0.693

0.670

 

40

0.765

0.749

0.706

0.684

 

 

 

 

 

 

 

 

 

 

Abordarile teoriei deciziei sunt aplicate asa cum este descris mai devreme. Pentru abordarea teoriei deciziei cu costuri minime, costurile de luare a deciziei cand mj este adevarat au fost stabilite simetric la | i-j | Pentru toate i, j. Dupa ce numarul de articole dorit a fost administrat, toate examinarile au fost clasificate utilizand MAP.

In prima dintre cele trei abordari IRT, elementele cu informatiile maxime la scorul adevarat al examinatorului au fost selectate secvential fara inlocuire. Desi acest lucru nu este fezabil in viata reala, acesta prezinta cel mai bun scenariu atunci cand obiectivul este de a obtine estimari exacte de-a lungul intregii scale theta. In cadrul celei de-a doua abordari IRT, elementele cu informatii maxime la nivelul capacitatii examinate in prezent a fost selectate secvential fara inlocuire. Aceasta este o abordare realistasi practica atunci cand scopul este de a obtine estimari exacte de-a lungul intregii scari theta. Urmand sugestia lui Spraysi Reckase (1994), a treia abordare a prezentat secvential articolele cu informatii maxime la scorul taiat cel mai apropiat de nivelul de capacitate estimat in prezent al examinatorului. Aceasta abordare este optima atunci cand obiectivul este de a clasifica examenii intr-unul din numarul discret de grupuri de scoruri. Dupa numarul dorit de au fost administrate, toate examinarile au fost clasificate in grupul de scoruri corespunzator estimarii terminale a tetei.

Asa cum se arata in Tabelul 5, nu exista o mare varietate intre diferite abordari. Costul minimsi teoria deciziei de castig a informatiilor abordeaza in mod consecvent - au efectuat primele doua abordari IRTsi au externalizat abordarea IRT cut scor atunci cand au fost administrate 20 sau mai putine articole. Faptul ca precizarile de clasificare pentru aceste doua metode teoretice de decizie sunt aproape identice implica faptul ca acestia tind sa selecteze aceleasi elemente. Optimizata pentru a face diferente fine intre scara de competente, primele doua abordari IRT sunt mai putin eficiente daca cineva este interesat sa faca o clasificare mai riguroasa. Abordarea simpla a discriminarii maxime nu a fost la fel de eficace casi celelalte, dar a fost destul de precisa.

 

Decizii succesive

 

Dupa ce fiecare articol a fost administrat mai sus, a fost aplicat SPRT al Wald pentru a determina daca exista suficiente informatii pentru a lua o deciziesi a termina testarea. Ratele de eroare sunt setate la α = β = .05. Tabelul 6 arata proportia examinatelor pentru care s-ar putea lua o decizie de clasificare, procentul celor examinati care au fost clasificati corect, PREsi numarul mediu de articole administrate in functie de lungimea maxima a testelor, folosind elemente de la NAEP. Cu o limita superioara de numai 15 articole, de exemplu, aproximativ 75% dintre examinati au fost clasificati in una din cele 4 categorii de scor NAEP. O decizie de clasificare nu a putut fi luata pentru celelalte 25%. Optzecisi opt la suta dintre examinatorii clasificati au fost clasificati corectsi au solicitat o medie de 9,1 elemente. SPRT a fost capabil sa clasifice rapid examenii la cozile de date cu o distributie normala.

Proportiile clasificatesi precizia corespunzatoare in functie de numarul maxim de elemente administrate din tabelul 6 sunt prezentate in figura 1. Curba clasificata proportional incepe sa se inlature dupa aproximativ o limita de dimensiune de test de 30 de elemente. Precizia este destul de uniforma dupa o limita de dimensiune de test de aproximativ 10 sau 15 elemente.

 

DISCUTIE

 

 

Modelul simplu de masurare prezentat in aceasta lucrare se aplica situatiilor in care cineva este interesat de informatii categorice. Modelul are un cadru foarte simplu - unul incepe cu probabilitatile conditionate ale examinatelor in fiecare stare de masterat, care raspunde corect la fiecare element. Se pot obtine aceste probabilitati dintr-un esantion pilot foarte mic.

Modelul de raspuns al unui individ este evaluat in functie de probabilitatile conditionate. Se calculeaza probabilitatile vectorului de raspuns dat fiecarui nivel de maiestrie. Utilizand teorema lui Bayes, probabilitatile conditionale pot fi transformate in probabilitati a posteriori reprezentand probabilitatea fiecaruia stari de stapanire.

Practical Assessment, Research & Evaluation, Vol 14, No 8 Page 9

 

Rudner, Measurement Decision Theory

 

 

 

Tabelul 5: Reducerea proportiei de eroare pentru metodele de testare secventiala in functie de lungimea maxima a testului.

 

 

Max No of

IRT Approaches

Decision Theory Approaches

 

 

 

 

 

 

 

 

items

Max I(θ)

Max I(θ’)

Max I(cut)

Max Disc

Min Cost

Info Gain

 

 

 

 

 

 

 

 

 

 

 

CSAP items, 2 categories

 

 

 

5

0.607

0.564

0.661

0.564

0.661

0.661

 

10

0.702

0.679

0.706

0.690

0.715

0.717

 

15

0.729

0.733

0.748

0.727

0.752

0.750

 

20

0.756

0.760

0.775

0.779

0.770

0.764

 

25

0.772

0.783

0.787

0.779

0.787

0.789

 

 

 

 

 

 

 

 

 

State NAEP items, 4 categories

 

 

 

5

0.576

0.447

0.530

0.418

0.596

0.594

 

10

0.645

0.640

0.659

0.546

0.681

0.675

 

15

0.704

0.682

0.704

0.646

0.720

0.714

 

20

0.723

0.722

0.737

0.709

0.737

0.736

 

25

0.748

0.750

0.761

0.741

0.755

0.755

 

30

0.756

0.770

0.772

0.756

0.767

0.767

 

 

 

 

 

 

 

 

 

Tabelul 6: Proportia persoanelor examinate clasificate utilizand SPRT, castigul de informatiisi elementele de stat NAEP, precizia clasificarilor acestorasi numarul mediu de elemente administrate in functie de numarul maxim de elemente administrate.

 

Max No of

Proportion

Accuracy

Prop Reduct

Mean No

items

Classified

Error

of items

 

 

 

 

 

 

5

0.260

0.948

0.892

4.6

10

0.604

0.902

0.797

7.4

15

0.749

0.880

0.752

9.1

20

0.847

0.865

0.721

10.2

25

0.899

0.860

0.710

10.8

30

0.928

0.857

0.704

11.3

40

0.960

0.852

0.694

11.8

50

0.972

0.849

0.688

12.2

100

0.988

0.847

0.684

13.0

 

 

 

 

 

 

.

Apreciere practica, cercetare si evaluare, Vol 14, No 8 Page 10

 

Rudner,Teoria deciziei de masurare

 

 

Figura 1: Proportia examenelor clasificatesi acuratetea acestor clasificari ca functie a numarului maxim de elemente administrate (elementele de stat NAEP, patru stari latente, testarea secventiala utilizand castigul de informatie, deciziile secventiale utilizand SPRT).

 

 

 

Folosind regula maxima a posteriori, MAP, decizia, aceasta cercetare a constatat ca modelul a fost la fel de bun sau mai bun decat teoria raspunsului la trei elemente de parametru in clasificarea cu exactitate a examenelor. Precizia a fost, de asemenea, identica in luarea deciziilor binare. Modelul a fost considerabil mai precis decat IRT atunci cand clasifica examenele intr-una din cele patru categorii. In mod constient, modelul teoriei deciziei va fi deosebit de atractiv atunci cand ipotezele IRT sunt incalcate sau IRT nu poate fi aplicat.

 

Aceasta cercetare a examinat trei moduri de adaptare sau de administrare secventiala a elementelor utilizand modelul. Metoda traditionala de testare secventiala a teoriei decizionale, costul minim, a fost semnificativ mai buna decat cea mai buna posibilitate pentru teoria raspunsului elementului. Au fost introduse doua noi abordari. Castigul de informatii, care se bazeaza pe entropiesi vine din teoria informatiilor, a fost aproape identic cu cel minim. O a doua abordare mai simpla, care foloseste elementul care face cea mai buna diferentiere intre cele doua clasificari cele mai probabile, a fost de asemenea mai buna decat IRT, dar nusi castigul de informatie sau costul minim. De cercetare, de asemenea, a aratat ca, cu Walds SPRT, procente mari de examinate pot fi clasificate cu precizie cu foarte putine elemente. Cu doar 25 de articole selectate secvential, de exemplu, aproximativ 90% dintre examinatorii simulat de stat-NAEP au fost clasificati cu o precizie de 86%.

 

O intrebare cheie care nu este abordata aici este ipoteza de independenta locala. Ne-am presupus naiv ca raspunsurile la un anumit element nu sunt afectate de raspunsurile la alte articole. In timp ce independenta locala este deseori ignorata in masuraresi se poate astepta doar incalcari minore, rolul ei in teoria deciziei nu este pe deplin inteles. Subiectul a fost investigat in literatura de clasificare a textului. In ciuda incalcarilor foarte vizibilesi foarte grave, clasicii naivi Bayes functioneaza destul de bine. Domingossi Pazzani (1997) arata ca dependentele puternice ale atributelor pot umfla probabilitatile de clasificare in timp ce au un efect redus asupra clasificarilor rezultate. Ei sustin ca Bayes naiv

 

 

Clasificatorii au aplicabilitate larga, in plus fata de avantajele in ceea ce priveste simplitatea, viteza de invatare, viteza de clasificare, spatiul de stocaresi incrementalitatea. Acest lucru nu pare a fi o problema pentru aceasta aplicatie de masurare a teoriei deciziei.

 

Teoria deciziei de masurare este in mod clar un model simplu, dar puternicsi foarte aplicabil. Avantajele acestui model sunt multe - ofera clasificari de stapanire exacte, poate include o piscina mica de articole, este usor de implementat, necesita putin pretestare, este aplicabila testelor bazate pe criterii, poate fi utilizata in testarea diagnosticului, poate Sa fie adaptate pentru a obtine clasificari pe multiple abilitati, pot folosi testarea secventialasi o regula de decizie secventialasi ar trebui sa fie usor de explicat non-statisticilor.

 

Speranta autorului este ca aceasta cercetare va capta imaginatia comunitatilor de cercetaresi aplicatii aplicate. Modelul este deja baza pentru un instrument comercial foarte vizibil pentru a ajuta pregatitorii sa se pregateasca pentru GMAT®. Autorul poate imagina o utilizare mult mai larga a modelului. Este un mecanism natural de rutare pentru sisteme inteligente de indrumare. In cadrul acestui model, elementele ar putea fi pilotate cu un numar limitat de examinatori pentru a imbunatati considerabil examinarile la sfarsitul unitatii. Examinarile de certificare ar putea fi create pentru ocupatii specializate, cu un numar limitat de practicanti disponibili pentru calibrarea articolelor. S-ar putea pregati teste scurte pentru ca profesorii sa ajute la luarea deciziilor de plasaresi de avansare. O mica colectie de articole dintr-un test, de exemplu statul NAEP, ar putea fi incorporata intr-un alt test, sa zicem o evaluare de stat, pentru a furniza informatii transregionale semnificative.

 

Intrebarile de cercetare sunt numeroase. Cum se poate extinde modelul la mai multe categorii de raspuns decat elemente dichotomice? Cum poate fi detectata biasul? Cat de eficiente sunt testarea adaptiva alternativasi regulile de decizie secventiala? Ce efect are locarea scorurilor taiate asupra capacitatii teoriei decizionale de a clasifica examenii? Modelul poate fi extins in mod efectiv la 30 sau mai multe categorii pentru a oferi o ordonare de rang a examinatelor? Cum se poate folosi bine faptul ca datele sunt ordonate? Cum poate fi folosit conceptul entropiei la examinarea testelor? Exista proceduri noi de analiza a elementelor care pot imbunatati testele de teorie a deciziilor? Cum se poate aplica modelul cel mai bine la testele pe criterii care evalueaza abilitatile multiple, fiecare cu cateva elemente? De ce costul minimsi castigul de informatie sunt atat de asemanatoare? Cum pot fi utilizate efectiv diferite structuri de costuri? Cum se pot utiliza elementele dintr-un test in altul? Cum se echivaleaza astfel de teste?

 

Referinte

 

Allen, N. L., Carlson, J. E. si Zelenak, C.A. (2000).NAEP 1996 raportul tehnic.Washington, DC: Centrul National pentru Statistica Educationala. Disponibil online:http://nces.ed.gov/nationsreportcard/pubs/main1996/1999 452.asp

Practical Assessment, Research & Evaluation, Vol 14, No 8

 

Rudner, Measurement Decision Theory

 

Birnbaum, A. (1968). Unele modele cu trasaturi latente. In F.M. Lord & M.R. Novick, (Eds.),Teoriile statistice ale scorurilor mentale ale testelor. Citind, MA: Addison-Wesley.

 

Chang, H.-H., and Ying, Z. (1996). abordare globala de informare a testelor adaptive computerizate. Masurarea psihologica aplicata, 20, 213-229.

 

Departamentul Educatie de Stat din Colorado (2000). Colorado Programul de evaluare a studentilor (CSAP), Raport tehnic, matematica de gradul 5. Disponibil online:http://www.cde.state.co.us/cdeassess/download/pdf/as_csa ptech5math99.pdf

 

Cover, T.M. and J.A. Thomas,Elemente de teorie a informatiilor. New York: Wiley, 1991.

 

Cronbach, L.J. and Gleser, G.C. (1957).Teste psihologicesi decizii de personal.Urbana: Universitatea Presei din Illinois.

 

Domingos P.si M. Pazzani (1997). Cu privire la optimitatea clasicului Bayesian simplu sub zero-o pierdere. Invatare mecanica, 29, 103--130. Disponibil online:http://citeseer.nj.nec.com/48.html .

 

Eggen, T. J. H. M. (1999). Selectia de articole in teste adaptive cu testul de probabilitate succesiva. Masurarea psihologica aplicata, 23(3), 249-61.

 

Ferguson, R. L. (1969). Dezvoltarea, implementareasi evaluarea unui test cu ramificatie asistat de calculator pentru instruirea individuala. Disertatie doctorala. Universitatea din Pittsburgh, Pittsburgh, PA.

Hambleton, R.si Novick, M (1973). Catre o integrare a teorieisi a metodei pentru testele bazate pe criterii. Jurnalul de masurare educationala, 10, 159-170.

Huyhn, H. (1976). Consideratii statistice pentru scorurile de masterat. Psychometrika, 41, 65-79.

Kingsbury, G.G., & Weiss, D.J. (1983). O comparatie a testelor de masterat adaptive bazate pe IRTsi o procedura de testare secventiala de masterat. In D. J. Weiss (Ed.), Noi orizonturi in testare: teoria testului de trasabilitate latentasi testarea adaptiva computerizata (pp. 257-283). New York: Academic Press.

 

Kullback, S. & Leibler, R.A. (1951). Cu privire la informatiisi suficienta. Analele statisticii matematice, 22, 79-86.

Lewis, C.si Sheehan, K. (1990). Folosind teoria deciziei Bayesian pentru a proiecta un test computerizat de masterat. Applied Psychological Measurement, 14 (2), 367-86.

Lin, C.-J.Si Spray, J. (2000). Efectele criteriilor de selectie a elementelor asupra testelor de clasificare cu testul de probabilitate succesiva. ACT Raport de cercetare Series.

Domnul, Frederick M. (1980). Aplicatii ale teoriei raspunsului elementului la problemele practice de testare. Hillsdale, NJ: Erlbaum.

Macready, G.si Dayton C. M. (1977). Utilizarea modelelor probabilitice in evaluarea maiestriei. Jurnal al statisticilor educationale. 2 (2), 99-120.

Macready, G.si Dayton C. M. (1992). Aplicarea modelelor latente de clasa in testarea adaptiva. Psychometrika, 57 (1), 71-88.

Melsa, J.Lsi Cohn, D.L. (1978). Teoria decizieisi a estimarii. New York: Compania de carte McGraw-Hill.

Mislevy, R.J. & Gitomer, D.H. (1996). Rolul inferentei bazate pe probabilitati intr-un sistem inteligent de indrumare.

User-mediated and User-Adapted Interaction, 5, 253-282.

Parshall, C.G., Spray, J.A., Kalohn, J.C., & Davey, T. (2006).

Consideratii practice in testarea computerizata. New York: Springer.

Reckase, M. D. (1983). O procedura de luare a deciziilor utilizand teste adaptate. In D. J. Weiss (Ed.), Noi orizonturi in testare: teoria testului de trasabilitate latentasi testarea adaptiva computerizata (pp. 237-255). New York: Academic Press.

Shannon, C.E. (1948). O teorie matematica a comunicarii, Bell System Technical Journal, 27, 379-423si 623-656, iuliesi octombrie. Disponibil online: http://cm.bell-labs.com/cm/ms/what/shannonday/paper.ht ml

Sheehan, K.si Lewis, C. (1992). Testarea computerizata de masterat cu testleturi neechivalente. Applied Psychological Measurement, 16 (1), 65-76.

Spray, J.A.Si Reckase, M. D. (1996). Compararea procedurilor SPRTsi secventiale Bayes pentru clasificarea examenelor in doua categorii utilizand un test computerizat. Jurnalul statisticilor educationalesi comportamentale, 21 (4), 405-14.

Spray, J.A.Si Reckase, M. D. (1994). Selectia elementelor de testare pentru luarea deciziilor cu ajutorul unui test adaptiv la calculator. Lucrare prezentata la reuniunea anuala a Consiliului National privind masurarea in educatie (New Orleans, LA, 5-7 aprilie 1994).

Thompson, Nathan A. (2007). Ghidul unui practician pentru testarea computerizata a clasificarilor cu lungime variabila. Evaluarea practica de cercetaresi evaluare, 12 (1). Disponibil online: http://pareonline.net/getvn.asp?v=12&n=1

Van der Linden, W.J.si Mellenbergh, G.J. (1978). Coeficienti pentru testele de la un punct de vedere decizional-teoretic. Applied Psychological Measurement, 2, 119-134.

Van der Linden, W. J.si Vos, H. J. (1966) O abordare compensatorie a selectiei optime cu scoruri de maiestrie. Psychometrika, 61 (1), 155-72.

Vos, H.J. (1999). Aplicatiile teoriei deciziei Bayesian la testarea secventiala de masterat. Jurnalul statisticilor educationalesi comportamentale, 24 (3), 271-92.

Wald, A. (1939). O formula noua pentru indicele costului vietii. Econometrica 7 (4), 319-331.

Wald, A. (1947). Analiza secventiala. New York: Wiley.

Wald, A. (1950). Functiile decizionale statistice. New York: Wiley.

Welch, R.E. & Frick, T. (1993). Testarea adaptiva computerizata in setarile de instruire. Tehnologii educationale de cercetaresi dezvoltare, 41 (3), 47-62.

Wood, R. (1976). Testarea adaptiva: o procedura bayesiana pentru masurarea eficienta a capacitatii. Programul de invataresi tehnologie educationala, 13, 2, 36-48.

 

 

 

 

Nota

 

K

K

1.Formula generalizata a costurilor in acest context esteB=∑∑cijP(mj|z)P(mi|z) .

i=1

j=1

 

Note

 

  1. Un tutorial interactiv este disponibil online la http://pareonline.net/sup/mdt/. Tutorialul va permite sa modificati rezultatele parametrilor a priori, modelul de raspuns al examinatoruluisi structura costurilor. De asemenea, sunt prezentate diferite reguli pentru clasificarea unui examensi a elementelor de secventiere impreuna cu calculele care stau la baza acestuia.

 

  1. Software-ul pentru generarea, calibrareasi evaluarea datelor teoriei deciziei de masurare este disponibil la http://pareonline.net/sup/mdt/MDTToolsSetup.exe. Actualizat in aprilie 2010, aceasta este versiunea .895. Nu este oferit niciun sprijin. Daca sunteti interesat de codul sursa, va rugam sa contactati autorul.

 

Recunoasteri

 

Autorul este recunoscator pentru comentariile extrem de utile facute pe un proiect anterior al lui Chan Dayton, al lui George Macreadysi al doi recenzori anonimi.

 

Aceasta cercetare a fost sponsorizata cu fonduri de la Institutul National pentru Realizarea Studentilor, Curriculumsi Evaluare, Departamentul pentru Educatie din S.U.A., acordarea premiului R305T010130. Opiniilesi opiniile exprimate in aceasta lucrare sunt cele ale autoruluisi nu reflecta neaparat cele ale agentiei de finantare.

 

Citare

 

Rudner, Lawrence M. (2009). Punctareasi clasificarea examenelor folosind teoria deciziei de masurare. Evaluare practica, cercetaresi evaluare, 14 (8). Disponibil online: http://pareonline.net/getvn.asp?v=14&n=8.

 

Corespondenta autor

 

Lawrence M. Rudner

 

Absolvent al Consiliul de admitere la conducere

1600 Tysons Blvd, #1400

 

McLean, VA 22102 USA

 

Email: LRudner [at] gmac.com sau LMRudner [at] gmail.com

Translated by: Irina Vasilescu

Link to the original page: Click Here

We love giving back to the community

We believe in helping people and that matter to us more than anything else. Since the very beginning of our company, our team have been willing and wishing to help.