Размер на извадката и статистическа мощност Максимално обучение

iwbg.waykun.com - Как да отслабнете и да останете стройни

Когато резултатите ми не са значими, наистина ли няма ефект или изследването не е успяло да го открие?

Или, напротив, когато имам значителни резултати, те наистина ли са толкова положителни или експериментът надценява ефектите от лечението?

И накрая, как трябва да планираме нашето проучване, за да получим по-голям шанс за откриване на значителни ефекти?.

Със сигурност по някое време сте попаднали на тези въпроси. Който не! Всички те са свързани със статистическата мощ, която днес ще се опитам да ви обясня в този пост.

Описва вероятността тестът правилно да идентифицира истински, реален ефект. Казано по-просто, това е способността да се различава сигналът от шума. Сигналът, който търсим, е въздействието на лечението върху някакъв резултат, който ни интересува.
Представете си, че искате да проучите ефективността на ново лекарство за грип. Ние се стремим да тестваме неговата ефективност (сигнал). Шумът, който ни засяга, идва от сложността на данните (колко променливи са те). Например ще има шум в резултатите, ако ефикасността на лекарството зависи силно от възрастта на индивида или неговия пол.

Наистина ли няма ефект или проучването не е могло да го открие? Резултатите наистина ли са толкова положителни или експериментът надценява ефектите от лечението? ако вашият анализ има ниска статистическа мощност, резултатите често са трудни за интерпретация.

Трябва да планираме експериментите си по такъв начин, че да постигнем голяма сила на контраста и по този начин да сме сигурни, че ще можем да демонстрираме изследвания ефект.

Обикновено стойност на 0,80 мощност е приемлива и може да се използва като еталон. Обикновено изследователите проектирайте експериментите си по такъв начин, че вашите резултати да са значими 80% от времето.

Лечението (експериментални или инструментални проблеми) и фоновите (силно променливи реакции) шумове не могат да бъдат контролирани, но ние можем правилно проектирайте нашия експеримент по такъв начин, че да получим висока мощност.

Силата на статистическия тест е свързана със:

Размер на извадката «n»: броят на случаите или субектите, участващи в проучването.
Нивото на значимост „алфа“: вероятността за отхвърляне на нулевата хипотеза, когато тя е вярна (грешка от тип I или фалшиво положителна). Обикновено се приема 5% или, което е същото, ниво на доверие от 95% (1-алфа).
Размерът на ефекта "d" или "r": е мярка за промяната в отговора. Опростявайки малко, можем да изчислим мерки, които отразяват разликите в средните стойности между групите (разликата в средните стойности, разделена на стандартното отклонение) или мерки, които показват връзката между променливите (коефициент на корелация), в съответствие с нашата цел.

Ниската мощност може да означава малък размер на извадката, по-малък алфа или малък размер на ефекта и обратното за висока мощност.

Можем да подходим към проблема със статистическата мощ по два алтернативни начина:

Априорен подход. Приемаме ниво на значимост (напр. 5%), стойност за желаната мощност (напр. 80%) и знаем оценки на размера на ефекта, който трябва да бъде открит от предишни проучвания. Следователно, целта е да се определи колко теми трябва да разгледаме в изследването, за да отговорим на тези критерии.
Последващ подход. Приемаме ниво на значимост (напр. 5%), имаме извадка с определен размер (това, което сме успели да направим) и изчисляваме размера на ефекта, наблюдаван в нашето проучване. Искаме да знаем колко мощен е бил нашият анализ за откриване на този размер на ефекта в изследването, което сме провели.

ПРИМЕРИ: ПРИОРИ И ПОСТЕРИОРИ ИЗЧИСЛЕНИЯ

Следващият пример е адаптиран от книгата „R in Action“ на Робърт Кабаков (2011).

Представете си, че измерваме времето за реакция на хората към промени, които се случват в симулатор. Имаме две групи субекти, едната, в която субектите говорят по телефона, а другата - не.

Априори. Искаме да сравним средното време за реакция на участниците в двете групи.
От литературата знаем, че времето за реакция има стандартно отклонение (SD) от 1,25 секунди и че разлика в 1 секунда във времето за реакция се счита за важна разлика (размерът на ефекта ще бъде d = 1/1,25 = 0,8 - средна разлика, разделена на SD-). За 90% мощност и 95% ниво на доверие, Колко участници са ни необходими в нашето проучване?

Ако извършим изчисленията, например с пакета "pwr" от R, получаваме:

34 субекта във всяка група (общо 68 субекта) за откриване на размер на ефекта от 0,8, с мощност 90% и ниво на доверие 95%.

A posteriori. Сега да предположим, че смятаме, че откриването на ефект от 0,5 в разликата между средствата за популация е достатъчно, че можем да включим само 40 участници в изследването и че ще използваме ниво на доверие от 99%. Каква е вероятността за откриване на разлики между популацията?

Ако приемем еднакъв брой участници във всяко условие:

Имаме по-малко от 14% вероятност да открием разлики от 0,625 секунди или по-малко (d = 0,5 = 0,625/1,25) с 20 участника във всяка група и ниво на значимост от 0,01. Тоест имаме 86% вероятност да не открием ефекта, който търсим. Това ни кара да преосмислим времето и усилията на нашето проучване, както е предложено.

Статистическата мощ ни позволява да преосмислим времето и усилията на нашите учебни проекти.

Как да изберем подходящия размер на ефекта?

Определянето на размера на ефекта е най-трудната стъпка в анализа на мощността и размера на пробата.

Идеалното е да се използва опитът в изследваната тема.

В някои ситуации обаче изследването е съвсем ново и нямаме данни от предишни изследвания.

В тези случаи Коен (1988) предлага определени правила за установяване на това, което ще наречем ефекти от малки, средни и дълги размери за статистически тестове.

Внимавайте обаче, тъй като това е гама, създадена за социални изследвания и може да не е приложима за вашата област на изследване.

Алтернатива е да се променят параметрите и да се наблюдава въздействието на тези полета върху размера на извадката и статистическата мощност.

ПРИМЕРИ: НОВИ СИТУАЦИИ

Искаме да сравним 5 групи, с 25 субекта на група, за ниво на значимост от 5%.

Изчисляваме мощността на теста за различни стойности на ефекта (f):

Мощността ще бъде 11,8% за откриване на малък ефект, 57,4% за откриване на умерен ефект и 95,7% за откриване на голям ефект.

Предвид ограничените размери на извадката, можем само да се опитаме да намерим голям ефект.

Нека сега видим чувствителността на нашите параметри.

Нека изчислим размерите на извадката, необходими за откриване на обхвата на размера на ефекта.

Тази графика ни позволява да оценим въздействието на промяната на условията на нашия експериментален дизайн.

Можем да видим, че в този случай за 5 експериментални групи инвестирането на пари в увеличаване на размера на извадката над 200 наблюдения на група не е полезно.

Статистическата мощност ни позволява да оценим ефектите от промяната на условията на нашия експериментален дизайн.

Представляват статистическа мощ

ПРИМЕР: Размер на пробата

Ще използваме пример за начертайте графиката на размера на извадката, който ще трябва да използваме при разследване според стойностите на размера на ефекта (в този случай се измерва с коефициента на корелация) и приетата статистическа мощност.

Тоест, ние искаме да определим размера на извадката, необходим, за да решим дали коефициентът на корелация е статистически значим, в зависимост от обхвата на ефекта и статистическите стойности на мощността:

Забелязваме, че се нуждаем от размер на извадката приблизително 75, за да открием корелация от 0,20 с 40% увереност.

Необходими са ни още 185 наблюдения (n = 260), за да открием същата корелация с 90% увереност.

Тази графика може да се използва и за други видове статистически тестове, просто променете няколко стъпки.

Статистическата мощност ни позволява да решим размера на пробите, от който се нуждаем за нашия експеримент.

Смятахте ли публикацията за полезна? Знаете ли значението на статистическата мощ? Как изчислявате размера на извадката от вашето изследване? Оставете вашия коментар!

Препоръки от интерес

* Коен, Джейкъб (1988). "Статистически анализ на мощността за поведенческите науки" (2-ро издание). Хилсдейл, Ню Джърси: Lawrence Earlbaum Associates.

Популярен

Те четат сега