Класификација података у рударству

Класификација је техника руковања подацима која додјељује категорије збирци података како би помогла у прецизнијим предвиђањима и анализама. Такође се назива и понекад названо Трее Трее одлуком , класификација је једна од неколико метода намијењених за учинак анализе веома великих скупова података.

Зашто класификација?

Веома велике базе података постају норма у данашњем свету "великих података". Замислите базу података са више терабајта података - терабите је један билион бајтова података.

Фацебоок сакрива 600 терабајта нових података сваког дана (од 2014. године, последњи пут када је пријавио ове спецификације). Главни изазов великих података је како то осмислити.

И обим волумена није једини проблем: велики подаци такође имају тенденцију да буду разноврсни, неструктурирани и брзи. Размотрите аудио и видео податке, постове друштвених медија, 3Д податке или геопросторне податке. Ова врста података није лако категоризирана или организована.

Да би се задовољио овај изазов, развијен је низ аутоматских метода за изношење корисних информација, међу којима је класификација .

Како функционише класификација

Због опасности од превеликог преласка у технолошки говор, рецимо, како функционира класификација. Циљ је креирање скупа правила класификације која ће одговорити на питање, донијети одлуку или предвидјети понашање. Да започне, развија се скуп података о обуци који садржи одређени скуп атрибута, као и вероватни исход.

Посао алгоритма класификације је да открије како тај скуп атрибута достиже свој закључак.

Сценарио : Можда компанија за кредитне картице покушава да одреди које перспективе треба да добију понуду за кредитне картице.

Ово може бити његов сет података о обуци:

Подаци о обуци
Име Старост Пол Годишњи приход Понуда кредитне картице
Н.Н. лице 25 М $ 39,500 Не
Јане Дое 56 Ф 125.000 долара да

Стубови "предиктор" Старост , рођени и годишњи приход одређују вриједност "предиктор атрибута" Понуду кредитне картице . У скупу тренинга, атрибут предиктора је познат. Алгоритам класификације потом покушава да одреди како је достигнута вредност атрибута предиктора: какве везе постоје између предиктора и одлуке? Он ће развити скуп правила предвиђања, обично ИФ / ТХЕН изјаве, на пример:

ИФ (старост> 18 година старости <75) И годишњи приход> 40,000 ТХЕН Понудба кредитне картице = да

Очигледно је да је ово једноставан пример, и алгоритму би било потребно далеко веће узорковање података од ова два записа приказана овде. Даље, правила предвиђања ће вероватно бити много сложенија, укључујући и под-правила за хватање детаља атрибута.

Затим, алгоритам даје "сет предвиђања" података за анализу, али овом сету недостаје атрибут предикције (или одлука):

Предикторни подаци
Име Старост Пол Годишњи приход Понуда кредитне картице
Деда Мраз 42 М 88.000 долара
Мари Мурраи 16 Ф $ 0

Подаци о предикаторима помажу у процени тачности правила предвиђања, а правила се твеакују док програмер не сматра да су предвиђања ефикасна и корисна.

Данашњи примјери класификације

Класификација и друге технике руковања подацима стоје иза великог дела нашег свакодневног искуства као потрошачи.

Временске прогнозе могу користити класификацију како би пријавиле да ли ће дан бити кишовито, сунчано или облачно. Медицинска професија може анализирати здравствене услове да предвиде медицинске исходе. Тип методе класификације, Наиве Баиесиан, користи условну вероватноћу да категоризира спам е-пошту. Од откривања превара до понуда производа, класификација се стално иза сваке сцене анализира податке и производи предвиђања.