Изследователи от университета в Чили и Джон Хопкинс (САЩ) демонстрират, че е възможно да се предскаже разпространението на затлъстяването чрез прилагане на техники за машинно обучение към данните за закупуване на храна от всяка страна

Мога ли да предскажа разпространението на затлъстяването въз основа единствено на продажбата на храна? "Това е въпросът, който си зададоха екип от изследователи от Университета в Чили и Джон Хопкинс (САЩ), преди да започнат последното си проучване." Отговорът е да ", казва той. И не само е възможно: освен това методът, разработен от Дънстан и неговия екип, също е адаптивен към дълъг списък от държави.

глобалното

Тези пророчества не са малък подвиг. От една страна, те помагат да се установи пряка връзка между храните, които причиняват най-голямо поражение, когато попаднат в кошницата за пазаруване. От друга страна, те дават възможност да се определи разпространението на затлъстяването в периодите от време, които отделят едно здравно проучване от следващото и позволяват да се правят прогнози, без да се чака приключването на същите тези проучвания. И всичко това на планета, която е преминала от 857 милиона жители с наднормено тегло през 1980 г. до 2,1 милиарда само три десетилетия по-късно.

Как се задейства тази кристална топка? С данни за покупки за 48 категории храни и напитки за 79 държави и малко машинно обучение. "Това, което направихме, беше да тестваме различни алгоритми в това упражнение, опитвайки се да предскажем дела на затлъстялата популация. И това, което открихме, беше, че в 47 от тези страни е възможно да се направи с грешка под 10%.".

В покупките на храни, които Дунстан е проучил, взети от Euromonitor, всичко се побира: шоколад, кисело мляко, яйца, месо, сок, кафе, зърнени храни. Но ние не говорим за морето от данни, с които времената са свикнали. "Това не е толкова голяма база данни. Това изобщо не са големи данни. Тя е малка. Но все пак можете да я изцедите", казва изследователят.

  • Минималистични алгоритми

Всъщност, един от алгоритмите, обучени за това предвиждане, също предлага списък с най-решителните променливи за разпространението на затлъстяването. Според тази малка класация, сладкишите, брашното, сиренето и газираните напитки са най-важните карти в тарото с наднормено тегло. Когато алгоритъмът се приложи към данните за покупката на тези три, дори е възможно леко да се намали допустимата грешка.

Оказва се, че при машинното обучение по-малко е и повече. "Това се нарича намаляване на размерността или намаляване на променливите. Идеята е" като се има предвид всичко това, кои са променливите, които най-добре обясняват променливостта на моите данни ". Става въпрос за намаляване", обяснява Дънстан. Полезността на това синтезирано упражнение надхвърля спасяването ни от това да убием мухи с изстрели с оръдия: ако знаем кои въпроси в едно проучване са най-решителни, можем да съкратим въпросниците и да облекчим поразителния отблъскващ ефект от сто въпроса, взети заедно.

Освен това в този списък на основните променливи са представени хранителните режими на страните. "Там виждате, че Германия и Холандия споделят много. Всички страни от Източна Европа са като голям облак, Испания е много близо до Португалия. Човек забелязва историческото и географското влияние на страните", казва Дунстан.

  • Добри практики

Усилията за осигуряване на възпроизводими и лесно използваеми резултати са постоянни в изследователската методология на Дънстан и неговите колеги. От една страна, трите използвани алгоритма гарантират, че получените резултати не са мираж. От друга страна се публикува целият код, разработен за извършване на обучението и прогнозите. „Имаше желание да се внесе повече машинно обучение в общественото здраве, където то не е толкова широко разпространено, и също така да се предоставят тези инструменти на всички изследователи, които искаха да започнат да го използват“, обяснява Дънстан.

Случаят с това изследване илюстрира промените, които научното производство преживява в публикации с пълен бум, свързани с машинно обучение и изкуствен интелект, и произтичащите от това опасения относно трудността да се проверят резултатите от тези разследвания. "Става все по-регулиран. Когато напуснах Съединените щати, помня, че групата беше публикувала статия, в която използваха метод, алгоритъм. Работата беше по-малко строга".

Сега задачата за публикуване в утвърдени заглавия изисква да се покаже, че се прави възможно най-доброто проучване. „Когато изпратихме този документ в списанието, те започнаха да ни искат още неща“, обяснява Дънстан. „Вече е все по-трудно да публикувате, ако не спазвате определени правила за добри практики в машинното обучение“.

В опита на своята дейност като изследовател, която сега тя разпространява между Факултета по инженерство и медицина на Университета в Чили, Дънстан открива известно неравенство по въпроса. "В области като инженерството, математиката, физиката те работят по този начин отдавна. Но в други, като социалните науки или медицината, това е малко по-ново. Мисля, че сме на този път. Всеки път, когато трябва да се справя по-добре. ".