Дефинисање статистичког модела регресије

Регресија анализира односе између варијабли

Регресија је техника руковања података која се користи за предвиђање низа нумеричких вредности (такође назване континуиране вриједности ), с обзиром на одређени скуп података. На пример, регресија се може користити за предвиђање трошкова производа или услуге, с обзиром на друге варијабле.

Регресија се користи у више индустрија за пословно и маркетиншко планирање, финансијско прогнозирање, еколошко моделирање и анализу трендова.

Регрессион Вс. Класификација

Регресија и класификација су технике руковања подацима који се користе за решавање сличних проблема, али су често збуњени. Оба се користе у анализи предвиђања, али се регресија користи за предвиђање нумеричке или континуалне вриједности док класификација додјељује податке у дискретне категорије.

На примјер, регресија би се користила за предвиђање вриједности куће на основу његове локације, квадратних метара, цене када је последњи продат, цијене сличних кућа и других фактора. Класификација би била у реду ако желите да уместо тога организујете куће у категорије, као што су спремност, величина серије или стопе криминала.

Врсте техника регресије

Најједноставнији и најстарији облик регресије је линеарна регресија која се користи да процени однос између две варијабле. Ова техника користи математичку формулу праве линије (и = мк + б). У обичном смислу, то једноставно значи да, с обзиром на графикон са И и Кс-осом, однос између Кс и И је равна линија са неколико издугова. На пример, можемо претпоставити да би, с обзиром на пораст популације, производња хране повећала исту брзину - то захтијева јак, линеарни однос између двије цифре. Да бисте ово визуализирали, узмите у обзир графикон у којем И-оса прати пораст броја становника, а Кс-оса прати производњу хране. Како се И вриједност повећава, Кс вриједност би се повећала истом брзином, чинећи однос између њих равном линијом.

Напредне технике, као што је вишеструка регресија, предвиђају везу између вишеструких варијабли - на примјер, постоји ли корелација између прихода, образовања и гдје се неко залаже за живот? Додавање више варијабли знатно повећава комплексност предвиђања. Постоји неколико типова техника вишеструке регресије, укључујући стандардне, хијерархијске, сетвисе и степвисе, свака са сопственом апликацијом.

У овом тренутку је важно схватити шта покушавамо да предвидимо (зависна или предвиђена варијабла) и податке које користимо да направимо предвиђање (независне или предиктивне варијабле). У нашем примеру желимо да предвидимо локацију на којој се одлучује да живи ( предвиђена варијабла) са приходима и образовањем (обе варијабле предиктора ).