класификацията

Субекти

  • Публикация
  • Данни от изследванията
  • статистически методи
  • Поправка на грешка в тази статия е публикувана на 29 септември 2016 г.

Тази статия е актуализирана

Важно е да се разбере и какво изразява показател за класиране, и какво крие.

Миналият месец разгледахме използването на логистична регресия за класификация, при която се предвижда класът на дадена точка с данни от обучението 1. Този месец обсъдихме как да оценим ефективността на класификатора на набор от тестове - данни, които не са били използвани за обучение и за които е известна истинската класификация. Класификаторите обикновено се оценяват с помощта на числова метрика, като прецизност или графично представяне на производителността, като крива на работната характеристика на приемника (ROC). Ще разгледаме някои често срещани показатели на класификатора и ще обсъдим капаните на разчитането на един-единствен показател.

Показателите ни помагат да разберем как работи класификаторът; много са налични, някои с многобройни регулируеми параметри. Разбирането на метриките също е от решаващо значение за оценката на докладите на другите: ако изследването представя само една метрика, може да се постави под въпрос ефективността на класификатора, когато той се оценява с помощта на други метрики. За да илюстрираме процеса на избор на метрика, ще симулираме хипотетичен диагностичен тест. Този тест класифицира пациент със или без фатално заболяване въз основа на множество клинични фактори. Когато оценяваме класификатора, ние вземаме предвид само резултатите от теста; нито основният механизъм за класификация, нито основните клинични фактори са от значение.

Показателите за класиране се изчисляват от истинските положителни резултати (TP), фалшивите положителни резултати (FP), фалшивите отрицателни точки (FN) и истинските отрицателни точки (TN), като всички те са представени в т. Нар. Матрица на объркването (фиг. 1) Уместността на всяка от тези четири величини ще зависи от целта на класификатора и ще мотивира избора на метриката. За медицински тест, който определя дали пациентите получават лечение, което е евтино, безопасно и ефективно, ФП не биха били толкова важни, колкото ФН, представляващи пациенти, които могат да страдат без подходящо лечение. За разлика от това, ако лечението е експериментално лекарство, ще бъде необходим много консервативен тест с малко ФП, за да се избегне тестването на лекарството при незасегнати лица.

Сините и сивите кръгове показват случаи, известни като положителни (TP + FN) и отрицателни (FP + TN), съответно, а синият и сив фон/квадрати представляват случаи, предвидени като положителни (TP + FP) и отрицателни (FN + TN)., съответно. Уравненията за изчисляване на всяка метрика се кодират графично по отношение на величините в матрицата на объркването. FDR, процент на фалшиви открития.

Изображение в пълен размер

( а - г ) Всеки панел показва три различни сценария на класификация с таблица на съответстващите стойности за точност (ac), чувствителност (sn), прецизност (pr), F 1 резултат (F 1) и коефициент на корелация на Матюс (MCC). Сценариите в група имат една и съща стойност (0,8) за показателя с удебелен шрифт във всяка таблица: ( да се ) прецизност, ( б ) чувствителност (възстановяване), ( ° С ) прецизност и ( д ) F резултат 1. Във всеки панел наблюденията, които не допринасят за съответната метрика, са зачеркнати с червена линия. Цветовото кодиране е същото като на фигура 1; например сините кръгове (случаи, за които е известно, че са положителни) на сив фон (за които се предвижда, че са отрицателни) са FN.

Изображение в пълен размер

В идеалния случай медицинският тест трябва да съдържа много нисък брой FN и FP. Хората, които нямат болестта, не трябва да бъдат подлагани на ненужно лечение или обременени със стреса от положителен резултат от теста, а на тези, които имат болестта, не трябва да се дава фалшив оптимизъм за това, че са свободни от заболяване. За оценка на класирането са предложени няколко агрегирани показателя, които обобщават по-пълно матрицата на объркването. Най-популярен е F β резултатът, който използва параметъра β за контрол на баланса между изземване и прецизност и се определя като F β = (1 + β 2) (Precision × Recovery)/(β 2 × Precision + Recovery). С намаляването на β точността получава по-голямо тегло. При β = 1 имаме често използваната оценка F 1, която балансира еднакво изземване и прецизност и свежда до по-простото уравнение 2TP/(2TP + FP + FN).

Резултатът Fβ не обхваща пълната матрица на объркване, тъй като се основава на изземване и прецизност, нито една от които не използва TN, което може да бъде важно за тестване за много разпространени заболявания. Един подход, който може да улови всички данни в матрицата на объркването, е коефициентът на корелация на Матюс (MCC), който варира от -1 (когато класирането винаги е грешно) до 0 (когато не е по-добро от случайно) до 1 (когато винаги е правилно) Трябва да се отбележи, че при сравнение на резултатите от два класификатора, единият може да има по-висок резултат F 1, докато другият има по-висок MCC. Нито един показател не може да различи всички силни и слаби страни на класификатора.

Важен фактор при тълкуването на резултатите от класификацията е балансът на класа, който е разпространението на дадено заболяване сред общата популация. Дисбалансът прави разбирането на FP и FN по-важно. За рядко заболяване, което засяга само 2 от 1000 души, всеки FP има много по-голям ефект върху дела на погрешните диагнози, отколкото при по-разпространено заболяване, което засяга 200 от 1000 души. Ще приемем, че разпространението на болестта сред общата популация е отразено в данните за обучение и тестване. Ако случаят не е такъв, се изискват допълнителни грижи за интерпретиране на резултатите.

Представете си диагностичен тест за заболяване, който предоставя числена оценка за човек, който има заболяването. Вместо обикновен положителен или отрицателен резултат, резултатът дава ниво на сигурност: хората с по-висок резултат са по-склонни да имат заболяването. Всъщност почти всички класификатори генерират положителни или отрицателни прогнози, когато прилагат праг към оценка. Както обсъждахме миналия месец, по-високият праг ще намали процента на FP (в нашия пример това представлява здрави индивиди, получаващи ненужно лечение), а по-ниският праг ще намали процента на FN (болни лица, които не получават лечение).

Може да искате да оцените класификатора, без да се налага да избирате конкретен праг. За това, помислете за списък на лица с известно състояние на заболяването, подредени по намаляване на диагностичния резултат. Този списък може да бъде визуализиран с помощта на ROC кривата (фиг. 3а). Когато създаваме ROC крива, започваме в долния ляв ъгъл и в горната част на нашия списък с резултати от прогнози. Докато слизаме по списъка, ако се знае, че данните са положителни (индивид с болест), линията се движи нагоре; в противен случай се движи надясно. Добрият класификатор трябва да се опита да се доближи възможно най-близо до горния ляв ъгъл. Алтернативна визуализация е кривата за прецизно възстановяване (PR) (фиг. 3б). Тълкуването му е малко по-различно, тъй като най-добрият класификатор ще бъде възможно най-близо до горния десен ъгъл, получавайки най-добрата компенсация за възстановяване и прецизност. За разлика от ROC кривата, PR кривата не е монотонна.

( а, б ) Констатации, получени с ( да се ) ROC, който изобразява истинския положителен процент (TPR) спрямо фалшиво положителния процент (FPR), и ( б ) PR криви. И в двата панела кривите представляват класификатори, които са (A) добри, (B) подобни на случайната класификация и (C) по-лоши от случайните. Очакваната производителност на случаен класификатор е показана с пунктирана линия в да се . Еквивалентът за кривата на PR зависи от баланса на класа и не се показва.

Изображение в пълен размер

Дисбалансът на класа може да причини ROC криви да са лоши показатели за ефективността на класификатора. Например, ако само 5 от 100 индивида имат заболяването, тогава бихме очаквали петте положителни случая да имат резултати в горната част на нашия списък. Ако нашият класификатор генерира резултати, които класифицират тези 5 случая като равномерно разпределени през първите 15, ROC парцелът ще изглежда добре (Фиг. 4а). Ако обаче бяхме използвали такъв праг, че най-добрите 15 се очаква да са верни, 10 от тях биха били FP, което не е отразено в ROC кривата. Тази ниска производителност обаче се отразява в кривата на PR. Сравнете това със ситуация с 50 болни индивида от 100. Класификатор, който осигурява еквивалентна ROC крива (Фиг. 4b), сега ще има благоприятна PR крива. Поради тези причини се препоръчват PR криви за масиви от данни с голям дисбаланс в класа. Използват се и обобщени показатели от тези две графики: площта под кривата (AUC) за ROC кривата и площта под кривата PR (AUPRC). И двата показателя имат същите ограничения като всеки друг индивидуален показател.

( а, б ) ROC и PR криви за два набора от данни с много различни баланси на класа: ( да се ) 5% положителни наблюдения и ( б ) 50% положителна обратна връзка. За всеки панел наблюденията са показани като вертикални линии (отгоре), от които 5% или 50% са положителни (синьо).

Изображение в пълен размер

Разбирането на предназначението на класификатора е ключът към избора на подходящите показатели за оценка. Използването на метрика, дори обща като F1, е опасно без правилна проверка на основните резултати. Освен това винаги трябва да се внимава за дисбаланс на класа, което е конфузор, който може да изкриви различни показатели.