The машинно обучение или машинното обучение основно се състои от автоматизиране, използване на различни алгоритми, идентифициране на модели или тенденции, които са „скрити“ в данните. Поради тази причина е много важно не само да изберете най-подходящия алгоритъм (и последващата му параметризация за всеки конкретен проблем), но и да имате голям обем данни с достатъчно качество.

машинното

През последните години машинно обучение стана много важно в света на бизнеса, тъй като интелигентното използване на анализа на данни е от ключово значение за успеха на бизнеса. Прогнозите на Gartner за 2020 г. разкриват, че в допълнение към предимствата в области като интелигентно вземане на решения, роботика, автономни превозни средства и хипер-автоматизация, областта на сигурността се появява с голяма сила. По-специално приложения за изкуствен интелект за защита на свързани с IoT системи.

В този пост ще обясним от какво се състои машинното обучение, какви видове обучение има, как работят и за какво се използват.

Наистина, какво е машинно обучение?

Това е клон на изкуствения интелект, който започва да придобива значение от 80-те години. Това е вид AI, който вече не зависи от правила и програмист, но компютърът може да установи свои собствени правила и да научи сам по себе си същото.

Машинното обучение се осъществява чрез алгоритми. Алгоритъмът не е нищо повече от поредица от подредени стъпки, предприети за изпълнение на задача.

Целта на машинно обучение е да се създаде модел което ни позволява да решим дадена задача. Тогава знам влак моделът, използващ големи количества данни. Моделът научете се от тези данни и е в състояние да направи прогнози. В зависимост от задачата, която искате да изпълните, ще бъде по-подходящо да работите с един или друг алгоритъм.

Изборът на алгоритъма не е лесен. Ако търсим информация в интернет, можем да намерим истинска лавина от много подробни статии, които понякога, вместо да ни помагат, ни объркват. Затова ще се опитаме да дадем някои основни насоки, за да започнем да работим.

Има два основни въпроса, които трябва да си зададем. Първият е:

Какво искаме да направим?

Фактът е в това ясно дефинирайте целта. За да решим проблема си, тогава ще се запитаме какъв вид задача ще трябва да предприемем. Може да бъде, например, на:

  • Проблеми с класификацията като откриване на нежелана поща или нежелана поща.
  • Проблеми с клъстериране като препоръчване на книга на потребител въз основа на предишните им покупки (система за препоръки) f
  • Проблеми с регресията, като да разберем колко определен клиент ще използва услуга (определяне на стойност)

Ако разгледаме класическия проблем на задържане на клиент, Виждаме, че можем да го подходим от различни подходи. Искаме да направим сегментиране на клиенти, да, но коя стратегия е най-подходяща? По-добре ли е да се третира като проблем с класификация, групиране или дори регресия? Ключовата улика ще бъде дадена, като си зададем втория въпрос.

Каква информация имам, за да постигна целта си?

Ако се запитам: „Моите клиенти, те групирани ли са по някакъв начин, естествено?“, Не съм определил никаква цел (цел) за групиране.

Ако обаче задам въпроса по този начин: Можем ли да идентифицираме групи клиенти с голяма вероятност да поискат прекратяване на услугата веднага след приключване на договора им? цел перфектно дефиниран: ще се откаже ли клиентът? и ние искаме да предприемем действия в зависимост от отговора, който получаваме.

В първия случай се сблъскваме с пример за учене без надзор, докато вторият е от контролирано обучение.

В началните фази на процеса на Data Science е много важно да се реши дали „стратегията за атака“ ще бъде контролирана или без надзор, а в последния случай да се определи точно каква ще бъде стратегията за атака. целева променлива. Както решим, ще работим с едно семейство алгоритми или с друго.

След като горното бъде идентифицирано, ще бъдат използвани предварително зададени алгоритми, за да можете да изберете с кой да работите. Сред най-известните са: scikit-learning, машинно обучение алгоритъм измама вижте, наред с други.

Видове машинно обучение

Видовете изпълнение на машинно обучение Те могат да бъдат класифицирани в три различни категории:

  • Учене под наблюдение
  • Учене без надзор
  • Укрепващо обучение според естеството на данните, които получавате.

Учене под наблюдение

В контролирано обучение, алгоритмите работят с „етикетирани“ данни (етикетирани данни), опитвайки се да намерят функция, която, предвид входните променливи (входни данни), им присвоява подходящия изходен етикет. Алгоритъмът е обучен с „история“ на данните и по този начин „се научава“ да присвоява подходящия изходен етикет на нова стойност, т.е., прогнозира изходната стойност. (Simeone, 2018)

Например, детектор за нежелана поща анализира историята на съобщенията, като види каква функция може да представлява, в съответствие с дефинираните входни параметри (подателят, ако получателят е физическо лице или част от списък, ако темата съдържа определени термини и т.н. .), присвоявайки етикет „спам“ или „не спам“. След като тази функция бъде дефинирана, при въвеждане на ново немаркирано съобщение, алгоритъмът е в състояние да му присвои правилния етикет.

The контролирано обучение Обикновено се използва в:

  • Проблеми с класификацията (идентификация на цифри, диагностика или откриване на измами с идентичност).
  • Проблеми с регресията (прогнози за времето, продължителност на живота, растеж и др.).

Тези два основни типа контролирано обучение, класификация и регресия, се различават по типа целева променлива. В случаите на класификация това е категорично, докато в случаите на регресия целевата променлива е числова.

Най-често срещаните алгоритми, които се прилагат за контролирано обучение, са:

  1. Дървета за вземане на решения.
  2. Класификация на наивния Байес.
  3. Регресия с най-малки квадрати.
  4. Логистична регресия.
  5. Поддържайте векторни машини (SVM).
  6. Ансамблови методи (набори от класификатори).

Учене без надзор

Ненаблюдаваното обучение се случва, когато „маркирани“ данни не са налични за обучение. Ние знаем само входните данни, но няма изходни данни, които да съответстват на определен вход. Следователно можем само опишете структурата на данните, да се опита да намери някаква организация, която опростява анализа. Следователно те имат характер изследователски.

Например групиращите задачи търсят групирания въз основа на сходства, но нищо не гарантира, че те имат някакво значение или полезност. Понякога, когато изследвате данните без определена цел, можете да намерите любопитни, но непрактични фалшиви корелации.

Ученето без надзор често се използва в:

  • Проблеми с клъстериране
  • Групови съвместни събития
  • Профилиране или профилиране.

Проблемите, които включват намиране на сходство, предсказване на връзки или намаляване на данни, могат или не могат да бъдат наблюдавани.

Най-често срещаните типове алгоритми при учене без надзор са:
1. Клъстерни алгоритми
2. Анализ на основните компоненти
3. Разлагане на единична стойност
4. Анализ на основни компоненти (независим анализ на компоненти)

И така, какво е укрепващо обучение?

Не всички алгоритми за ML могат да бъдат класифицирани като контролирани или ненаблюдавани алгоритми за обучение. Има "ничия земя", където са техниките на укрепване обучение.

Този тип обучение се основава на подобряване на реакцията на модела, като се използва процес на обратна връзка. Алгоритъмът се учи, като наблюдава света около себе си. Вашата входна информация е обратната връзка, която получавате от външния свят в отговор на вашите действия. Следователно системата се учи въз основа на пробна грешка.

Това не е тип контролирано обучение, тъй като не се базира строго на набор от етикетирани данни, а на мониторинг на реакцията на предприетите действия. Не е и учене без надзор, тъй като когато моделираме своя „чирак“, ние предварително знаем каква е очакваната награда.

Ако искате да научите повече за видовете учене, не пропускайте тази друга публикация, където ще обясним какво трансферно обучение.

Практически приложения на машинното обучение

За финал нека разгледаме някои от най-често срещаните практически приложения на машинното обучение.

  • Компютърна сигурност, диагностика на атаки, онлайн предотвратяване на измами, откриване на аномалии и др.
  • Разпознаване на изображения или шарки (лице, пръстов отпечатък, обекти, глас и др.)
  • Автономно шофиране, използвайки алгоритми за дълбоко обучение: идентификация на изображения в реално време, откриване на препятствия и пътни знаци, предотвратяване на произшествия ...
  • Здраве: автоматична оценка на диагностични тестове, медицинска роботика и др.
  • Анализ на фондовия пазар (финансови прогнози, развитие на пазара и др.)
  • Двигатели за препоръки

Важно е да сте ясни по всяко време целите, търсени от компанията, когато използвате тези техники, за да можете да задавате подходящите въпроси към данните. И, разбира се, винаги работете с качествени данни.

За да сте в крак с LUCA, посетете нашия уебсайт, абонирайте се за LUCA Data Speaks или ни следвайте в Twitter, LinkedIn и YouTube.