М. изследвания

Индекс на съдържанието

Въведение

Във всяко изследователско проучване ключов въпрос е надеждността на използваните измервателни процедури. Както Fleiss посочва в контекста на клиничните проучвания, дори и най-елегантният дизайн не би могъл да смекчи щетите, причинени от ненадеждна система за измерване.

съгласие

Традиционно се признава важен източник на грешка в измерването в променливостта между наблюдателите. Следователно една от целите на проучванията за надеждност трябва да бъде да се оцени степента на такава променливост.

В този смисъл два различни аспекта обикновено формират част от проучването за надеждност: от една страна, пристрастност между наблюдателите –Съобразена по-малко строго, тенденцията на един наблюдател последователно да дава по-високи стойности от друг– и на друг, споразумение между наблюдатели - Тоест, до каква степен наблюдателите са съгласни при измерването си -.

Придържайки се към този втори аспект, специфичният начин за подход към проблема зависи в голяма степен от естеството на данните: ако те са непрекъснати, използването на оценки на коефициента на корелация в рамките на класа е често срещано, докато при работа с категорични данни най-използваната статистика е индексът kappa, на който посвещаваме останалата част от тази статия.

Индексът на Капа

Да предположим, че двама различни наблюдатели независимо класифицират извадка от n елементи в един и същ набор от номинални категории C. Резултатът от тази класификация може да бъде обобщен в таблица като таблица 1, в която всяка стойност xij представлява броя на елементите, класифицирани от наблюдател 1 в категория i и от наблюдател 2 в категория j.

Например можем да мислим за двама рентгенолози, изправени пред задачата да категоризират проба от рентгенографии, използвайки скалата: „ненормално, съмнително, нормално.“ Таблица 2 показва хипотетичен набор от данни за този пример, подредени според схемата маса 1.

От типично статистическа гледна точка е по-подходящо да се освободим от конкретната извадка (n елементите, класифицирани от двамата наблюдатели) и да мислим по отношение на популацията, от която се предполага, че е взета извадката. Практическата последица от тази промяна на рамката е, че трябва да модифицираме схемата от таблица 1, за да заместим стойностите xij на всяка клетка за съвместните вероятности, които ще обозначим с Π ij (таблица 3).

С вида на схематизацията, който предложихме в таблици 1 или 3, е очевидно, че отговорите, които показват съгласие, са тези, които са разположени на главния диагонал. Всъщност, ако част от данните се намира на споменатия диагонал, това означава, че и двамата наблюдатели са класифицирали елемента в една и съща категория на системата за класификация. От това наблюдение естествено произтича най-простата от мерките за съгласие, която ще разгледаме: сумата от вероятностите по главния диагонал. В символите, ако обозначим тази мярка с Π 0, тя ще бъде

където индексите на сумирането преминават от i = 1 до i = C.
Очевидно е, че е вярно
стойността 0, съответстваща на минимално възможното споразумение и 1 на максимума.

Въпреки че този прост индекс е предлаган понякога като мярка за съгласие по избор, неговото тълкуване не е без проблеми. Таблица 4 илюстрира вида на трудностите, които могат да възникнат. В случай A, Π 0 = 0,2, следователно съгласието е много по-малко, отколкото в случай B, където Π 0 = 0,8. Въпреки това, обуславяйки се от пределните разпределения, се забелязва, че в случай А споразумението е максимално възможното, докато в случай В това е минималното.

Следователно изглежда ясно, че търсенето трябва да бъде насочено към нови мерки за съгласие, които вземат предвид пределните разпределения, за да се направи разлика между два различни аспекта на споразумението, които бихме могли неофициално да посочим като абсолютно или относително споразумение. Капа индексът представлява принос в тази посока, основно чрез включване във формулата на корекция, която изключва съгласието, дължащо се изключително на случайността - корекция, която, както ще видим, е свързана с пределни разпределения.

С обозначението, което вече се използва в Таблица 3, капа индексът, pa, се определя като

[1]
където индексите на сумирането преминават от i = 1 до i = C.

Поучително е да се анализира предишният израз. Нека първо забележим, че ако приемем независимостта на случайните променливи, които представляват класификацията на един и същ елемент от двамата наблюдатели, тогава вероятността даден обект е класифициран и от двамата в една и съща категория i е Π i.Π .i. Следователно, ако разширим сумирането към всички категории, ∑ Π i.Π .i е именно вероятността двамата наблюдатели да се съгласят по причини, които се дължат изключително на случайността. Следователно стойността на Κ е просто съотношението между наблюдаваното съгласие за превишение извън това, което се дължи на случайността (∑ Π ii - ∑ Π i.Π .i) и максимално възможното превишение (1 - ∑ Π i.Π. i) .

Максимално възможното съгласие съответства на Κ = 1. Стойността Κ = 0 се получава, когато наблюдаваното споразумение е точно това, което се очаква изключително благодарение на случайността. Ако споразумението е по-голямо от очакваното просто поради случайност, Κ> 0, докато ако е по-малко, вижте по-горе). За да разберем парадоксални резултати като тези, си струва да си припомним коментарите, които направихме по-горе относно ограниченията на индекса Π 0.

Когато тълкуваме стойността на Κ, е полезно да имаме скала като следната, въпреки нейния произвол:

Тестване на хипотези и интервали на доверие

Получаването на проста точкова оценка на стойността на Κ не ни дава никакви индикации за точността на тази оценка. От гледна точка на инференционната статистика е от съществено значение да се знае променливостта на оценителите и да се използват тези знания при формулирането на тестове за хипотези и при изграждането на доверителни интервали.

Fleiss, Cohen и Everitt дават израза на асимптотичната дисперсия - т.е. за безкрайно големи проби - на оценителя k, когато истинската стойност на Κ е нула:

[3]

Заменяйки теоретичните вероятности, които не знаем, с пропорциите на извадката, получаваме оценка на ∑ 0 2 (k), която ще обозначим с s0 2 (k):

[4]

Можем да използваме този резултат, за да проверим нулевата хипотеза, че Κ е нула спрямо алтернативата, която не е, като използваме коефициента като тестова статистика

[5]

(| k | означава абсолютната стойност на k) и сравняването на неговата стойност с квантилите на стандартното нормално разпределение. С данните в таблица 2, k = 0,6600 и s0 2 (k) = 0,0738, тогава | k |/s0 (k) = 8,9441 и тъй като z 0,975 = 1,96, заключаваме, че при нивото на значимост Δ = 0,05, стойността на k е значителна и ни кара да отхвърлим, че Κ е нула.

Полезността на предишния тест за хипотеза е дискусионна, тъй като като цяло е разумно да се очаква определена степен на съгласие извън случая, тривиално ще намерим значителен резултат. За да се извършат по-интересни тестове на хипотези, е необходимо да се знае изразът на асимптотичната дисперсия, когато Κ не се приема за нула. Изразът е значително по-сложен от [3]:

[6]
където: T1 = ∑ π ii,
T2 = ∑ π i.π .i,
T3 = ∑ π ii (π i. + Π .i),
T4 = ∑ ∑ π ij (π j. + Π .i) 2 .

Може да се покаже, че когато Κ е нула, изразът [6] намалява до [3]. За да проверим нулевата хипотеза, че Κ е равно на дадена стойност Κ0 спрямо двустранна алтернатива, ние продължаваме както в случая Κ = 0, като използваме като тестова статистика:

[7]

където s (k) сега е квадратен корен от s 2 (k), оценката на ∑ 2 (k), получена чрез заместване в [6] на вероятностите за пропорции на пробата. Очевидно е, че случаят Κ = 0, който обяснихме по-рано, не е нищо повече от частен случай на този тест, с по-добра оценка на стандартната грешка.