М. изследвания

Индекс на съдържанието

Въведение

Обикновено при този тип анализ можем да установим изходна хипотеза (нулева хипотеза), която обикновено приема, че интересният ефект е нулев, например, че кръвното налягане е еднакво при мъжете и жените или че две лечения за хиперхолестеролемия са еднакво ефективни. По-късно вероятността за получаване на наблюдаваните данни може да бъде оценена, ако тази хипотеза е вярна. Стойността на тази вероятност съвпада с р-стойността, предоставена от всеки статистически тест, така че колкото по-ниска е тя, толкова по-малко вероятно е първоначалната хипотеза да бъде проверена.

методи

В първия раздел ще бъде представен t-тестът на Student за две независими извадки, въвеждайки необходимите модификации в случай, че променливостта на двете групи е различна. След това ще бъде въведен t тест на Student за случая на две зависими проби.

T на Student за две независими проби

Един от най-често срещаните статистически анализи на практика е може би този, използван за сравняване на две независими групи от наблюдения по отношение на числена променлива. Като пример, нека разгледаме данните, показани в таблица 1, съответстващи на 75 индивида с наднормено тегло, подложени на две различни диети, така че да искаме да сравним теглото на индивидите, започнали всяка от диетите.

Както вече беше усъвършенствано, прилагането на параметричен тест изисква нормалността на наблюденията за всяка от групите. Проверката на тази хипотеза може да се извърши както чрез графични методи (посредством хистограми, графики или графики за нормалност), така и чрез статистически тестове (тест на Колмогоров-Смирнов, тест на Шапиро-Уилкс). Достатъчен брой наблюдения (да кажем повече от 30) обаче, както се случва в дадения пример, оправдава използването на същия www. По същия начин този тип методология ще изисква дисперсията в двете групи наблюдения да бъде еднаква. На първо място, ще бъде разработен t тест на Student за случая, в който се проверяват и двете условия, като по-късно се обсъжда как да се разгледа официално случаят, в който отклоненията не са сходни.

При хипотезите за нормалност и еднаква дисперсия сравнението на двете групи може да се извърши по отношение на един параметър, като средната стойност (Фигура 1а), така че в представения пример следователно началната хипотеза ще бъде:

H0: Средното първоначално тегло е еднакво и в двете групи

Той ще бъде означен с < X 1, X 2. X n> и < Y 1, Y 2. Y m> спрямо теглото, наблюдавано при всеки от субектите, подложени на диета А и диета Б съответно. По принцип броят на наблюденията във всяка от групите, които се сравняват, няма да е необходимо да съвпада, така че в примера n = 40 и m = 35.

Тестът t за две независими проби се основава на статистиката:

(1)

където e означава средното тегло във всяка от групите:

и съответните примерни квазивариани:

С което в този конкретен случай стойността, използвана за контраста, ще бъде:

Ако изходната хипотеза е вярна, статистиката (1) ще следва разпределението на Student на t с n + m-2 степени на свобода. Ако е така, получената стойност трябва да бъде в диапазона на най-голяма вероятност според това разпределение (Фигура 2). Обикновено обхватът на данните, в който е съсредоточена 95% от вероятността, се приема за референция. Стойността p, която повечето статистически пакети обикновено отчитат, не е нищо повече от вероятността да се получат, според това разпределение, по-екстремни данни от предоставените от www. Както вече споменахме, той също отразява вероятността за получаване на наблюдаваните данни, ако първоначалната хипотеза беше вярна. Ако р-стойността е много малка (обикновено се разглежда р 0,05. В представения пример, съответната р-стойност е 0,425, така че няма статистически доказателства, че средното тегло и в двете групи е различно. В таблица 2, градусите свобода (в първата колона) и стойността на α (в първия ред). Числото, което определя тяхното пресичане, е съответната критична стойност. По този начин, ако получената статистика вземе стойност, толкова по-голяма ще се каже, че разликата е значителна.

Друг начин за получаване на същата тази информация е чрез изчисляване на доверителни интервали за разликата в средния отговор в двете групи. При по-високи нива, доверителният интервал представлява мярка за несигурността, с която тази разлика се оценява от пробата, което дава възможност да се оцени както статистическата значимост, така и клиничната величина на тази разлика. В настоящия случай доверителният интервал ще бъде даден като:

където означава стойността, която според t разпределението на Student с n + m-2 степени на свобода оставя 2,5% от данните вдясно. В примера 95% доверителният интервал за разликата в теглото се дава от:

което в крайна сметка изразява диапазон от стойности, между които може да се намери реалната стойност на разликата между теглата и на двете групи. Той също така предоставя същата информация, която получихме от статистическия контраст. Фактът, че нулевата стойност принадлежи на интервала, показва, че няма доказателства за заключението, че теглото е различно и в двете групи.

С увеличаването на размера на извадката разпределението на статистическите данни (1) се доближава до това на стандартната нормална променлива. По този начин в някои текстове е избрано това разпределение да се използва за сравняване на средствата. Въпреки че това сближаване е правилно за достатъчно големи извадки, и двата метода осигуряват практически идентични резултати в този случай, което улеснява използването, независимо от размера на извадката, същата методология от t разпределението. Същият подход може да се използва в случай на различни отклонения или сдвоени проби.

Две независими проби с различна дисперсия

В случая, когато са налични две групи независими наблюдения с различни отклонения, разпределението на данните във всяка група не може да се сравнява единствено по отношение на средната им стойност (Фигура 1b). Статистическият контраст, повдигнат в предишния раздел, изисква известна модификация, която отчита променливостта на данните във всяка популация. Очевидно първият проблем, който трябва да бъде решен, е да се намери статистически метод, който да ни позволи да решим дали дисперсията в двете групи е еднаква или не. Тестът F или тестът на съотношението на дисперсиите идва да реши този проблем. При предположението, че двете популации следват нормално разпределение и имат еднаква дисперсия, съотношението на дисперсиите се очаква:

следвайте разпределение на Snedecor F с параметри (n-1) и (m-1).

Да предположим, че в предишния пример искаме да сравним загубата на тегло при субектите, подложени на всяка от двете диети. Прилагането на статистиката (1) няма да бъде осъществимо, тъй като разликите в двете групи са съществено различни. В този случай съотношението на дисперсиите е 3,97/0,80 = 4,96, стойност, която трябва да се сравни с разпределение F 39,34. Свързаната р-стойност ще бъде p f от степени на свобода, които ще зависят от пробите на пробата според израза:

Две зависими проби

Вече беше коментирано, че когато става въпрос за сравняване на две групи наблюдения, е важно да се разграничи случаят, в който те са независими от случая, в който данните се сдвояват. Зависими серии обикновено възникват, когато едни и същи данни се оценяват повече от веднъж за всеки обект в извадката. Такива наблюдения могат да бъдат намерени и в проучвания за контрол на случаите, където всеки случай е индивидуално сдвоен с контрол.

Нека предположим, че искаме да проверим, в данните в таблица 1, дали наистина има значителна загуба на тегло при тези индивиди, за която теглото им се събира при всеки субект преди и след диетата. При този тип анализ интересът не е съсредоточен върху променливостта, която може да съществува между индивидите, а върху разликите, които се наблюдават при един и същ обект от един момент до друг. Поради тази причина е интуитивно да се работи с разликата и в двете наблюдения (в примера това ще бъде загуба на тегло), затова искаме да проверим хипотезата:

H0: Загубата на тегло е нула

срещу алтернативата, че загубата на тегло е значителна (т.е. ненулева).

Достоверността на тази хипотеза също може да бъде противопоставена с помощта на t-теста на Student. Както беше казано, този тип метод има нормалността на данните като основна хипотеза. В този случай обаче няма да е необходимо наблюденията и в двете групи да идват от нормални популации, а само да се провери нормалността на тяхната разлика. Като се обозначава със средната загуба на тегло хипотезата е, че:

спрямо алтернативата

От примерните наблюдения < Y 1, Y 2. Y n> и < Y 1, Y 2. Y n> във всяка от групите разликата в теглото се изчислява за всеки субект < d 1, d 2. d n> с dj = Xj-Yj j = 1,2. н. Имайте предвид, че в този случай основно изискване е да има еднакъв брой наблюдения и в двете групи. От тези данни контрастът се основава на статистиката:

или при изчисляване на 95% доверителен интервал:

където означава средната загуба на тегло, изчислена от пробата:

и обозначава квазивариантността на пробата на разликата, дадена от:

В нашия пример стойността на статистиката ще бъде дадена от: