Шта је к-средство кластера?

Дата мининг са алгоритмом к-средстава

К-средство алгоритма за груписање је алат за мерење података и алат за учење машинерије који се користи за груписање посматрања у групе сродних посматрања без претходног познавања тих односа. Узимајући узорак, алгоритам покушава да покаже у којој категорији или групи припадају подаци, при чему је број кластера дефинисан вриједношћу к.

Алгоритам к- средстава је једна од најједноставнијих техника кластерирања и најчешће се користи у медицинским сликама, биометрији и сродним пољима. Предност кластирања к- средстава је то што говори о вашим подацима (користећи свој безнапредни облик) умјесто да морате да инструктирате алгоритам о подацима на почетку (користећи надгледани облик алгоритма).

Понекад се назива Ллоидов алгоритам, посебно у круговима рачунарских наука, јер је стандардни алгоритам први пут предложио Стуарт Ллоид 1957. године. Термин "к-средства" је сковао 1967. године Јамес МцКуеен.

Како функције к-значи алгоритам

Алгоритам к- средстава је еволуциони алгоритам који добива своје име из свог начина рада. Алгоритам кластерише опсервације у к групе, где је к дат као улазни параметар. Затим се свако посматрање додељује кластерима на основу близине посматрања са средином кластера. Средина кластера се поново процењује и процес почиње поново. Ево како функционише алгоритам:

  1. Алгоритам произвољно бира к-ове као почетни кластер центри (средства).
  2. Свака тачка у скупу података додељује се затвореној групи, на основу евклидског растојања између сваке тачке и сваког центра кластера.
  3. Сваки центри кластера се поново израчунавају као просек поена у том кластеру.
  4. Кораци 2 и 3 понављају све док кластери не конвергирају. Конвергенција се може дефинисати различито у зависности од имплементације, али уобичајено значи да или без опсервација не мењају кластере када се понову кораци 2 и 3 или да промене не дају значајну разлику у дефиницији кластера.

Избор броја кластера

Један од главних недостатака за к- значи груписање је чињеница да морате навести број кластера као улаз у алгоритам. Као што је дизајнирано, алгоритам није способан да одреди одговарајући број кластера и зависи од тога да ли корисник то унапред идентификује.

На пример, ако сте имали групу људи који треба да буду груписани на основу бинарног родног идентитета као мушки или женски, позивање алгоритма к- средстава помоћу уноса к = 3 би приморало људе у три кластера када би били само два, или унос к = 2, би обезбедио природније уклапање.

Слично томе, ако је група људи лако груписана на основу матичне државе и ви сте назвали алгоритам к- средстава са улазом к = 20, резултати су можда превише генерализовани да би били ефикасни.

Из тог разлога, често је добра идеја да експериментишете са различитим вредностима к да бисте идентификовали вриједност која највише одговара вашим подацима. Такође можете желети да истражите употребу других алгоритама за анализу података у потрази за наученим знањем.