извличане

"Извличане на данни е част от процес на най-висок ранг: откриването на знанието. въпреки това, Извличането на данни е процес сам по себе си, който от своя страна се състои от няколко фази."

Предишна препоръка, прочетете:

Фази за извличане на данни

Както беше коментирано по-рано, Извличане на данни е част от процес с по-висок ранг: откриването на знанието. Извличането на данни обаче е процес сам по себе си, който от своя страна се състои от няколко фази.

Ще вземем за ориентир моделът CRISP (така нареченият междуиндустриален стандартен процес) Процес на извличане на данни.

Този модел предоставя описание на жизнения цикъл на проекта за копаене на данни, фазите на този проект, съответните задачи за всяка фаза и различните взаимовръзки между тях.

The жизнен цикъл на проект за извличане на данни се състои от шест фази: бизнес разбиране, разбиране на данни, подготовка на данни, моделиране, оценка и внедряване.

На това ниво на описание не е възможно да се идентифицират всички взаимоотношения, но е важно да се отбележи, че повтарящото се движение между различните фази е важно, за да се осигури общ преглед, тоест тъй като има зависимост между фазите и резултатите, получени в тях, след изпълнение на задачите на всяка фаза е необходимо да се провери тяхното въздействие върху останалите, за да се поддържа съгласуваността на процеса.

Могат да съществуват връзки между всяка фаза или задача от процеса на извличане на данни, вариращи в зависимост от целите на процеса, неговия контекст или интереса на потребителя към данните.

По подобен начин на коментираното по-горе, извличането на данни не приключва, след като решението бъде внедрено. Скритата информация, която е била открита по време на процеса, и самото решение може да предизвика нови въпроси, които водят до рестартиране на всички фази в процеса на подобрение, така че последващите процеси на добив да се възползват от предишния опит.

След това ще видим малка подробност за всяка фаза на процеса:

Бизнес разбиране

Това е фазата, с която се отваря процесът. Той е фокусиран върху разбирането на целите и изискванията на проекта, започвайки от бизнес перспективата.

След това е необходимо да придобиете тези знания за данните (повтаряме, винаги от бизнес гледна точка) и да ги превърнем в дефиниция на проблем за извличане на данни, като изготвим предварителен план според планираните цели.

Разбиране на данните

Фазата на разбиране на данните започва с първоначалното събиране на данни, за да продължите с дейности, които ви позволяват да се запознаете с тях, което ви позволява да идентифицирате проблеми с качеството на данните.

The качество на данните има няколко измерения: точност (което отразява случващото се), цяло (че пълните данни са в системата), шанс (достъпен при необходимост), уместност, ниво на детайлност и последователност (еднакви данни във всички области или системи), така че ще е необходимо да се провери как са данните във всяко от тези измерения.

По този начин можете да започнете да откривате първите прозрения в данните, открийте онези интересни информационни набори или подмножества, за да формирате хипотези, които позволяват напредък в откриването на скрита информация.

Подготовка на данните

В тази фаза на подготовка на данни Искате да обхванете всички дейности, необходими за адаптиране на суровите източници и да ги сближите с крайния набор от данни (данните, които ще бъдат източникът на инструментите за моделиране).

Задачите за подготовка или почистване на данни ще се извършват многократно и не в никакъв ред. Сред тези задачи имаме изборът на таблици, записи и атрибути, както и трансформацията и почистването на данните в подготовка за инструменти за моделиране.

Моделиране

Както ще видим в следващия раздел, Съществуват множество техники за моделиране на данни, които са в тази фаза на процеса, когато след придобитите знания се избират подходящите (винаги според бизнес целите и целите на проекта) и се прилагат.

В тази фаза се търсят следното четири типа взаимоотношения:

  • Уроци- Наблюденията се присвояват на групи по подразбиране.
  • Клъстери: групи от подобни наблюдения се изграждат съгласно предварително зададен критерий.
  • Асоциации: наблюденията се използват за идентифициране на асоциации между променливи.
  • Последователни модели: става въпрос за идентифициране на модели на поведение и тенденции.

Сред тези техники можем да намерим: характеризиране или обобщение, дискриминация или контраст, анализ на асоциацията, класификация, прогнозиране, клъстериране или откриване на клъстери, откриване на аномалии, анализ на еволюцията и отклоненията... Съществуват и различни техники за решаване на един и същи тип проблем за извличане на данни. Някои техники имат специфични изисквания за формата на данните. Затова се върнете към фазата на подготовка на данните, за да ги адаптирате към техниката, както е необходимо.

Оценка

В резултат на предходната фаза, на този етап от проекта вече е изграден модел. За да се гарантира, че стандартите за качество, предложени за проекта, са изпълнени, е необходимо да се оцени от гледна точка на анализа на данните. Тоест, преди да се пристъпи към окончателното внедряване и пускането му в производство, е важно да се извърши съвкупност от тестове, заедно с прегледа на всяка стъпка, изпълнена при създаването на модела, което помага за сравняване на получения модел с бизнеса цели.

Основна цел е да се определи дали всички бизнес очаквания са изпълнени, като се гарантира, че няма пропуски или пропуски, които не са били покрити.

Разгръщане или експлоатация

В тази фаза се извършва експлоатацията и използването на резултатите от процеса на извличане на данни, което в зависимост от изискванията може да бъде толкова просто, колкото генерирането на отчет, или толкова сложно, колкото многократното изпълнение на кръстосан анализ процес чрез компанията. Следователно, В много случаи експлоатацията извършва самият клиент, а не анализаторът на данни.

Извличането на данни е итеративен процес, следователно създаването на модела не означава края на проекта. Знанията, придобити в резултат на процеса, са напълно използваеми отново като входна информация за повторно повторение на друг цикъл от пълния KKD процес.

Тоест, след като откритото знание се представи на потребителя, мерките за оценка могат да бъдат подобрени, добивът може да бъде усъвършенстван, нови данни могат да бъдат избрани или трансформирани отново или могат да бъдат добавени нови източници на данни..., Всичко това, за да се получат различни или по-подходящи резултати.