Шта требате знати о Баиесиан спам филтрирању

Сазнајте како статистика помаже при чишћењу пријемног сандучета

Баиесови филтри за спам израчунавају вероватноћу да је порука спам заснована на његовом садржају. За разлику од једноставних филтара заснованих на садржају, Баиесиан филтрирање спама сазнаје од нежељене поште и добре поште, што резултира веома робусним, прилагодљивим и ефикасним приступом против нежељене поште што, пре свега, враћа готово све лажне позитиве.

Како препознате нежељену е-пошту?

Размислите о томе како откривате нежељену пошту . Брзи поглед је често довољан. Знате како спам изгледа, а знате како изгледа добра пошта.

Вероватноћа спама која изгледа као добра пошта је око ... нула.

Процена филтера заснованих на садржају се не прилагођава

Зар не би било сјајно ако су и аутоматски спам филтери радили тако?

Испробавање филтера за нежељене садржине засноване на садржају покушава управо то. Траже речи и друге карактеристике типичне за нежељену пошту. Сваком карактеристичном елементу додељује се оцена, а нежељени резултат за целу поруку израчунава се из појединачних резултата. Неки филтери за оцењивање такође траже карактеристике легитимне поште, снижавајући коначни резултат поруке.

Приступ филтрирању бодова функционише, али има и неколико недостатака:

Баиесиан Спам Филтерс Твеак Саме, Боље и боље

Баиесови филтри за нежељене поште су такође врста филтера заснованих на садржају. Њихов приступ решава проблем једноставних бодовања спам филтера, и то радикално. С обзиром да је слабост филтера за оцењивање у листи карактеристика и њихова резултата ручно изграђена, ова листа је елиминисана.

Умјесто тога, Баиесиан спам филтрирају саму листу. Идеално је да почињете са (великом) групом е-поште коју сте класификовали као нежељену пошту и још једну гомилу добре поште. Филтри гледају оба и анализирају легитимну пошту као и нежељену пошту како би израчунали вероватноћу различитих карактеристика које се појављују у нежељеној пошти, а у доброј пошти.

Како Баиесиан Спам Филтер испитује е-пошту

Карактеристике које Баиесиан филтер нежељене поште може погледати може бити:

Ако се реч "Картезијанац", на пример, никада не појављује у нежељеној пошти, али често у легитимном е-маилу коју добијете, вероватноћа да "Картезијанац" означава спам је близу нуле. "Тонер", с друге стране, појављује се искључиво, а често иу спаму. "Тонер" има врло велику вјероватноћу да се пронађе у нежељеној пошти, не пуно испод 1 (100%).

Када стигне нова порука, она се анализира помоћу Баиесовог спам филтера, а вероватноћа да је комплетна порука спам израчуната користећи појединачне карактеристике.

Претпоставимо да порука садржи и "Картезијски" и "тонер". Само из ових речи још није јасно да ли имамо нежељену пошту или пошту. Друге карактеристике ће (надамо се и највероватније) указати на вероватноћу која дозвољава филтеру да класификује поруку као нежељену пошту или добру пошту.

Баиесиан Спам филтери се могу аутоматски научити

Сада када имамо класификацију, порука се може користити за даље обучавање филтера. У овом случају, вероватноћа "Картезијева" која показује добру пошту је снижена (ако се открије да порука која садржи и "Картезијски" и "тонер" спам), или вероватноћа да ће "тонер" означити спам, мора се поново размотрити.

Користећи ову ауто-адаптивну технику, Баиесови филтери могу да уче како из сопствених, тако и са корисничким одлукама (ако ручно исправља погрешне процене од стране филтера). Прилагодљивост Баиесовог филтрирања такође осигурава да су најефикаснији за појединачне кориснике е-поште. Док већина нежељених порука може имати сличне карактеристике, легитимна пошта је карактеристично различита за све.

Како могу спамери добити прошлих Баиесиан филтера?

Карактеристике легитимне поште су исто толико важне за Баиесиан процес филтрирања нежељеног поште као спам. Ако су филтери обучени посебно за сваког корисника, спамери ће имати још теже време да раде око свих (или чак већина људи) нежељених филтера, а филтри се могу прилагодити скоро свим покушајима спамера.

Спамери ће само проћи поред добро обучених Баиесових филтера ако они направе своје спам поруке савршено изгледају као обични емаил који сви могу добити.

Спамере обично не шаљу такве обичне е-поруке. Претпоставимо да је ово зато што ови е-маилови не функционишу као нежељена е-пошта. Дакле, шансе су да неће то радити када су обични, досадни е-маилови једини начин да се превазиђу спам филтери.

Међутим, ако спамери пређу на углавном обичне емаилове, међутим, поново ћемо видети нежељену пошту у нашим Инбок-и, а емаил може постати толико фрустрирајући као што је то било у пре-Баиесовим данима (или још горе). Ипак, он ће такође уништити тржиште за већину врста нежељене поште и на тај начин неће дуго трајати.

Јаки индикатори могу бити Баиесиан филтер спам филтера Ацхиллес & # 39; Хеел

Један изузетак може се примијетити за спамере да се боре путем Баиесових филтера чак и уз уобичајени садржај. У природи Баиесових статистика, једна реч или карактеристика која се веома често појављује у добром пошти може бити толико значајна да претвори било коју поруку из нежељеног нежељеног садржаја да би се филтрирао као шунка.

Ако спамери нађу начин да одреде ваше сигурне речи добре поште - користећи ХТМЛ повратне рачуне да бисте видели које поруке сте отворили, на примјер, они могу укључити један од њих у нежељену пошту и достићи вас чак и кроз добро изврсну пошту обучени Баиесов филтер.

Јохн Грахам-Цумминг је покушао тако што је допустио да две Баиесових филтера функционишу једни против других, "лош" који се прилагођава на које поруке се проналази да прођу кроз "добар" филтер. Каже да ради, иако је процес дуготрајан и сложен. Не мислимо да ћемо се у великој мјери уочити, барем не у великој мјери, а не прилагођене карактеристикама е-поште појединаца. Спамери могу (покушати) одредити неке кључне речи за организације (можда нешто попут "Алмадена" за неке људе у ИБМ-у можда)?

Обично, нежељена пошта ће се увек (значајно) разликовати од регуларне поште или неће бити спама.

Боттом Лине: јачина бајесовог филтрирања може бити његова слабост

Баиесови филтери за нежељене поште су филтри засновани на садржају који: