Да видим дали ви звучи познато: „Не знам как да анализирам данни ... и се страхувам, че защото не познавам статистически данни и още по-малко как да ги прилагам“

Чували ли сте някога за статистика? Или дори сте изучавали предмет в университета. Сега е моментът да го приложите ... и дори не знаете откъде да започнете.

Със сигурност в момента имате въпрос, който ви тревожи:

¿Какъв статистически метод прилагам? да анализирам данни от моя проект?

С други думи

¿Как мога да анализирам данните си ефективно?

Съвсем нормално е да се притеснявате. Приложната статистика е жив инструмент това отнема практика и фокус.

Днес искам да ви покажа глобална и практическа визия за процеса на анализ на данни и как да намерим фокуса, необходим за анализ на данни като професионалист.

Съдържание

# Кой метод е най-подходящ за анализ на данните от моя проект?

Както ти казвах. Непознаването на коя техника да се приложи или как да се използва приложената статистика е много повтарящо се безпокойство.

Приложна статистика е дисциплина с много техники и концепции. И мога да си представя бъркотията, която имате в момента в главата си.

В този пост ще атакувам директно тази грижа, която ви тревожи.

За да се реши, е необходимо да се разгледат 4 много важни аспекта.

¿Какви са етапите на цялостен процес на анализ на данни?

¿Какво представлява таблицата с данни и как се подрежда? (The Променливи)

¿Как мога да тълкувам данните? (The Проучване)

¿Каква статистическа техника прилагам във всеки отделен случай? (The Анализ)

¿Какъв софтуер използвам и как да се науча да го използвам??

Сега ще ви покажа следните важни аспекти:

Какви са етапите на процеса на анализ на данните?

От съществено значение е да имате глобална снимка на процеса на анализ на данни. Можете да се изгубите в количеството статистически техники и стратегии, с които разполагате.

Да бъдете съсредоточени е от ключово значение за вашия успех. След това ви представям 6-те етапа, които съставляват цялостен процес на анализ на данните:

  1. Проблемът . Всичко се ражда от проблем, от реална нужда. На този етап ще определите фокуса и целта на проекта. „Как да анализираме данните“ зависи от тази отправна точка. Най-важните.
  2. Споменът . Това е проектирането на метод за получаване на ДАННИ. По-технически това е процес на експериментиране. Това може да бъде проучване, тестове в лаборатории, с пациенти, подхранване с маркетингови данни в социалните мрежи и т.н. ... За добри изходни данни е важно да дефинирате таблицата с данни по-рано.
  3. Почистване Хомогенизирайте данните по отношение на формата, отменете наблюденията, които не ви интересуват и съхранявайте най-полезните. Изградете нови променливи от съществуващите. Влизам в други действия.
  4. Проучване . Използвайки описателна статистика, ще можете да преобразувате ДАННИТЕ в графики и характеристики, които можете да интерпретирате. Този етап на изследване е синоним на откритие. За да "говорите" с данните.
  5. Анализът . С помощта на инференциална статистика ще намерите заключения на голям набор (популация) с информацията на малка част от този набор (извадка). Понякога може да имате данни за цялото население. Тестването на хипотези е най-известният инструмент за извод. Но има и други невероятни и мощни техники: корелация, статистически модели с причинно-следствена връзка, алгоритми за регресия и класификация. И техники като групиране, намаляване на размерите или правила за асоцииране. Сред други.
  6. Заключението Ще интерпретирате резултатите от анализа и ще изброите заключенията. Ще бъдете много по-близо до целта, която сте си поставили в началото. И разрешаването на първоначалния проблем.

В края на тази публикация ще разкрия тайната, която исках да ви кажа. И това е свързано с последните три етапа, които сега видяхте 🙂

Ще ви кажа как да анализирате данните, след като сте готови за работа с таблицата с данни.

Какво представлява таблицата с данни и как се подрежда?

Сега спирам. В етап 4 на проучване. В него започвате да работите с данни, които вече са чисти и организирани. Ще започнете да моделирате таблицата си с данни.

За да ме разберете, таблицата с данни е масив със своите клетки. Нещо такова:

вашите

  • The редове са наблюдения. Наблюденията са времето, което измервате. Наблюденията могат да бъдат: пациенти, растения, животни, индивиди, събития, дни и т.н.
  • The колони са променливи. Променливите са характеристиките, които ще измервате. И има два страхотни типа. Ще ви кажа по-долу.
  • The заглавна част са имена на променливи. Обикновено името е представено на първия ред.

Това изглежда глупаво е много важно. Разбирането, че вашата таблица с данни са колони с цифри или букви е изключително важно.

И класификацията на променливите също. The променливите са характеристиките, които ще измервате. И на практика ще срещнете 2 страхотни момчета.

  • Количествено . Има числа и те имат единици. Те имат усещане за мащаб. Те могат да бъдат дискретни (без десетични знаци) и непрекъснати (с десетични знаци). Например теглото в кг.
  • Качествен Има етикети или Имена от нещата. Страната на произход, семейното положение, пола и т.н. ... Те могат да бъдат номинални или редови.
  • Пореден (качествен) . Те са специален вид качествени с a имат a усещане за мащаб. Например: качеството на услугата може да бъде справедливо, нормално, добро, много добро.

Давам ви най-важните основи, за да знаете как да анализирате данни. А сега ще ви покажа проучване. Или също се нарича, описанието. Това е основна част. 🙂

Как мога да тълкувам данните?

След като имате таблицата с данни, почистете. Разберете какви видове променливи имате и какво означават те. Жизнено важно е, че можете вижте информацията, скрита в тази таблица.

Какво означава? Да знам интерпретира тази таблица с данни и да можете да комуникирате с вашите данни. Открийте много интересна информация с помощта на графика.

Описателна статистика Това ще ви помогне да видите информация, която не можете да видите с просто око. Ще използвате графика и също числени характеристики просто.

В тази публикация ще видите списък с най-типичните графики, обяснени една по една 🙂

Каква статистическа техника прилагам във всеки отделен случай?

Или казано по друг начин, какъв статистически тест прилагам?. Усещането да не се контролират всички статистически техники е малко поразително. Но не се притеснявай! Ще се опитам да отменя това чувство.

Най-важното е да разберете типичните проблеми. И днес ще ви покажа 6 най-често срещани проблема:

  1. Сравнение на средствата. Разграничете дали една група се различава от друга . Например „вижте дали кръвното налягане е по-високо при група пациенти със затлъстяване и тези, които не са.“ От една страна имате числовата променлива (кръвно налягане), а от другите групи пациенти (със или без затлъстяване)
  2. Сравнение на пропорциите. Разграничете дали пропорциите са различни в различните групи . Например: „Различен ли е процентът на катастрофите с мотоциклети за възрастовите граници 15-20, 20-25, 25-30 и 30-35?“ Имаме 4 пропорции, които искаме да сравним.
  3. Асоциация. Вижте дали групите са свързани в таблицата за извънредни ситуации . Например "Има ли връзка по отношение на прецизността (добра, справедлива, лоша) на аналогов и оптичен измервателен уред?" По принцип това е свързано с качествени променливи.
  4. Корелация. Анализирайте дали има връзка между числовите променливи . Връзката между количествените променливи. Например „Имате данни от 200 семейства за доходите и разходите. Вярно ли е, че колкото повече имате, толкова повече харчите? "
  5. Причинно-статистически модели. Изчислете математически модел, който позволява прогнозиране на променлива въз основа на други . Например "Модел, който ви позволява да изчислите максималната сърдечна честота въз основа на данни като възраст, ниско и високо кръвно налягане, пол, височина и тегло"
  6. Разширени техники за разпознаване на образци или машинно обучение. Предсказуеми модели и алгоритми, за да можете да предоставите отговори на вашите данни и да решите реални проблеми с персонализирани приложения за вашия случай. Например: "Оценете вероятността пациентът да страда от диабет само с характеристики като възраст, тегло, височина и кръвен тест"

Тези проблеми са част от Картата за пълна яснота, която ще споделя с вас в безплатното обучение. Ще разберете тези случаи много по-добре с примери да знаете коя техника да приложите в различни случаи. Освен това ще ви покажа как да анализирате данни успешно с примери:

Безплатна статистика за обучение

„Как да анализирате успешно данните от проекта си, без да губите хиляди часове, четейки статистически книги.“ 👇

Какъв софтуер използвам и как да се науча да го използвам?

Един от най-важните моменти е знаят как да прилагат статистически концепции и техники с реални данни. Това е магията на приложената статистика. Има много софтуери. Някои реклами други не. И решението може да изглежда трудно, но не е така.

За мен софтуерът, който ми донесе най-големи ползи в средносрочен план, беше R с RStudio. Защо? Заради тези причини:

  1. Първо, защото е свободен.
  2. Второ, защото е a консолидиран софтуер с огромна общност. С голямо тегло както в рамките на изследователски центрове както в Бизнес.
  3. И трето, защото след като преминете през първоначалната крива на обучение,можете да продължите да растете в режим „направи си сам“. И няма кой да те спре!

И може би си мислите, че е само за програмисти, защото използва код. Но това не е напълно вярно. Ако имате стандартни кодови шаблони, можете да извършите много бърз и ефективен статистически анализ, без да изучавате подробно програмната структура.

Но няма да ви заблуждавам, ако искате да използвате тази програма на напреднало ниво, ще трябва да използвате програмиране, за да се възползвате от пълния потенциал на софтуера.

Ето една статия това ще ви помогне да започнете с R и да разберете потенциала на този инструмент.

# Как да анализирам данни като професионалист? Доказаната методология стъпка по стъпка

И това е тайната, която исках да ви разкрия днес! И за да разбера тази тайна, исках да се уверя, че включва основните аспекти в работата на проект за анализ на данни. Поради тази причина ви обясних точките от началото 😉

изток secret е метод стъпка по стъпка. Методология за кандидатстване.

Има четирите стъпки които от моя опит се повтарят в всеки процес на анализ на данни. И днес ще ви ги разкрия:

# ЕТАП 1. Определете ЕДНА цел за вашия проект (и само една)

В тази стъпка ще определите цел на вашия проект и САМО една. Човекът има тенденция да се усложнява (аз съм първият) е много важно да се съсредоточат усилията върху една-единствена цел. Определете го, като следвате тези точки:

  1. Какъв проблем искам да реша с тези данни?
  2. Какво означават променливите?
  3. Какви променливи имате?
  4. Определете 1 цел и само 1, която помага за решаването на проблема, който сте определили в точка 1

# СТЪПКА 2. Разгледайте данните а ла Шерлок Холмс

Харесвам Холмс. Защото е способен на сортирайте цялата информация на различни сцени и заподозрени, за да изчистете първоначалната бъркотия.

Преди Шерлок Холмс да разбере кой е убиецът, Холмс изследва различни сцени: търсене на предмети, разпит на заподозрени и присъстващи и др. "Изследвайте" с вашата лупа невероятни места. Вземете списък на обекти и релевантни факти. След това ги анализирайте за да свържете точките и да намерите виновника.

И ние ще направим същото. Първо ще изследваме и след това ще анализираме.

Етапът на описание (или проучване) Състои се от следните точки:

  1. Създайте диаграмите по-подходящо
  2. Тълкувайте диаграмите
  3. Намерете първите си улики. Вашите първи предварителни заключения
  4. Избройте знаците по важност че графиките са ви разкрили

Тази стъпка е фундаментална и много много важна.

Ще можете да събирате много полезна информация от вашата таблица с данни и ще я изброявате по важност.

Познаването на графичните инструменти на описателната статистика е много важно. Ако имате достъп до безплатното обучение, можете да изтеглите PDF, който включва, наред с други неща, списък с графики, които можете да приложите днес:

Безплатна статистика за обучение

„Как да анализирате успешно данните от проекта си, без да губите хиляди часове, четейки статистически книги.“ 👇