Оптичко препознавање знакова (ОЦР) односи се на софтвер који прави дигиталну верзију штампаног, откуцаја или руком писаног документа који рачунари могу читати без потребе ручног уноса или уноса текста. ОЦР се углавном користи у скенираним документима у ПДФ формату, али такође може креирати верзију текста у оквиру датотеке са сликама која може читати рачунар.
Шта је ОЦР?
ОЦР, познат и као препознавање текста, је софтверска технологија која претвара карактере као што су бројеви, слова и интерпункције (такође названи глифови) од штампаних или писаних докумената у електронски облик који се лакше препознаје и читају рачунари и други софтверски програми. Неки ОЦР програми то раде пошто је документ скениран или фотографисан дигиталном камером, а други могу применити овај процес на документе који су претходно скенирани или фотографисани без ОЦР-а. ОЦР омогућава корисницима да претражују у ПДФ документима, уређују текст и прерадбордују документе.
За шта се користи ОЦР?
За брзе и свакодневне потребе за скенирање, ОЦР можда није велика ствар. Ако вршите велику количину скенирања, можете претраживати унутар ПДФ-а да бисте пронашли тачно оно што вам је потребно, можете уштедити доста времена и учинити ОЦР функционалност у програму скенера важнијим. Ево неких других ствари које ОЦР помаже с:
- Аутоматска обрада података и унос података (Примјер: системи за праћење захтјева за запошљавање за наставке)
- Израда скенираних књига за претрагу
- Претварање скенираних руком у рачунарски читљив текст
- Прављење докумената кориснијим од стране програма читача који помажу особама са оштећеним видом
- Чување историјских докумената и новина, а истовремено их чини и могућностима претраживања
- Извлачење података и пренос на рачуноводствене програме (Примјер: Примања и фактуре)
- Индексирање докумената које користе претраживачи
- Препознавање возачких регистарских таблица помоћу камере за брзину и софтвера за камеру црвеног светла
- Синтисајзери говора за људе који не могу да говоре - теоретски физичар, Степхен Хавкинг, можда је најпознатији корисник говорног програма синтисајзера
Зашто користити ОЦР?
Зашто не само снимити слику, зар не? Зато што не бисте могли ништа да уређујете или претражујете текст јер би то био само слика. Скенирање документа и покретање ОЦР софтвера може претворити ту датотеку у нешто што можете уредити и бити у могућности претраживати.
Историја ОЦР-а
Док је најстарија употреба препознавања текста датира до 1914. године, широко распрострањени развој и употреба технологија везаних за ОЦР започео је у 1950-тим, посебно са стварањем веома поједностављених фонтова који су се лакше претворили у дигитално читљив текст. Први од ових поједностављених фонтова креирао је Давид Схепард и познат као ОЦР-7Б. ОЦР-7Б се данас користи у финансијској индустрији за стандардни фонт који се користи на кредитним картицама и дебитним картицама. Шездесетих година, поштанске услуге у неколико земаља почеле су да користе ОЦР технологију како би убрзале разврставање поште, укључујући САД, Велику Британију, Канаду и Немачку. ОЦР је и даље основна технологија која се користи за сортирање поште за поштанске услуге широм света. Током 2000. године кључно знање о границама и могућностима ОЦР технологије коришћено је за развој ЦАПТЦХА програма који се користе за заустављање бота и спамера.
Током неколико деценија, ОЦР је постао прецизнији и софистициранији захваљујући унапређењу сродних технолошких области као што су вештачка интелигенција , машинско учење и рачунарска визија. Данас ОЦР софтвер користи препознавање узорака, откривање функција и руковање тековинама да брже и прецизније претвара документе него икада раније.