Држава Линук препознавања гласа

Увод

Ја проводим доста времена истраживања за чланке и прилично често размишљам о предмету за чланак док ходам до жељезничке станице или када се уопће и около.

Једне вечери, док сам ходао 2,5 километара до станице из мог рада, помислио сам: "Зар не би било добро ако бих могао да снимим оно што желим да кажем, а онда да се аутоматски транспонира у текстуалну датотеку коју могу да уредим и форматам касније" .

Провела сам много дугих сати гледајући различите опције доступне за препознавање гласа и диктацију укључујући снимање директно кроз микрофон користећи софтвер за диктирање у Линуку, снимање датотеке у МП3 или ВАВ формат и претварање преко командне линије, као и помоћу Цхроме-а и Андроид апликација.

Овај чланак истиче моје откриће након неколико дана тежак рад.

Линук опције

Покушај проналаска софтвера за диктирање и препознавање гласа у Линуку није тако једноставан као што је могуће и доступне опције нису тако паметне.

Ова страница на Википедији садржи листу потенцијалних опција укључујући ЦМУ Спхинк, Јулиус и Симон.

Ја користим СпаркиЛинук који се заснива на Дебиан Тестингу у овом тренутку и могу вам рећи да је једини пакет за препознавање гласа доступан у спремиштима Спхинк.

Рођени Линук програми којима сам завршио покушали су ПоцкетСпхинк, за који сам претворио ВАВ датотеке у текст и Фрееспеецх-ВР који је питхон апликација која вам омогућава снимање директно из микрофона.

Пробао сам и неколико Цхроме апликација укључујући ВоицеНоте ИИ и Дицтаноте.

На крају сам покушао да користим Андроид апликације за "Диктирање и е-пошту" и "Диктирање разговора и разговора".

Фрееспеецх-ВР

Фрееспеецх-ВР није доступан у стандардним спремиштима. Преузео сам датотеке одавде.

Након преузимања и извлачења садржаја зип датотеке отворио сам терминал и кретао се у фасциклу у којој су датотеке биле извучене.

Откуцао сам следећу команду да отворим фрееспеецх-вр.

судо питхон фрееспеецх-вр

Имам пар слушалица са прилично пристојним микрофоном и прилично јасним јужним енглеским нагласком.

Следећи текст појавио се у фрееспеецх-вр прозору:

Добродошли у јединице пса исхода Данас су осигурали како се управљани тестови морају тестирати Када у текст Користи системски начин Говор И У сваком од њих било је Само у Да се ​​надају да остану и да пчелице златне као систем Еа када ми се зове следећа станица позови телефон Ова датотека Доступно ускоро случајеви телефон у Хандс- Спаце сфинга Гоинг То нису телефони ће се делити Обучени и и алати Користите говоре Када завршите Изговорите Користену датотеку Последњи прича А Коришћењем од стране Када је и како је успех Овај Линук је био као што се избјегавате

Само бих желео да кажем да ово није веб страница јединице паса и ни у једном тренутку нисам споменуо било шта са Златним пилићима. Заправо сам покушавао да опишем процес коришћења софтвера за препознавање гласа.

Пробао сам софтвер неколико пута, укључујући различиту тачку и брзину, али тачност је била лоша.

ПоцкетСпхинк

ПоцкетСпхинк може преузети ВАВ датотеку и претворити га у текст користећи командну линију.

ПоцкетСпхинк је доступан преко Дебиан репозиторија и требало би да буде доступан за већину дистрибуција.

Главно питање које сам нашао код ПоцкетСпхинк-а јесте да ви практично требате диплому у концептима препознавања гласа, језичких датотека, речника и како да обучите систем.

После инсталирања ПоцкетСпхинк-а требало би да одете на ЦМУ Спхинк веб локацију и прочитате што више информација. Такође морате да преузмете следећу датотеку модела.

(Ако нисте анонимни енглески говорник изаберите језик који вам одговара).

Документација за ПоцкетСпхинк и Спхинк уопште је тешко разумјети за личну особу, али од онога што сам могао да изнесем датотеке речника користе се за пружање списка могућих речи и језичких модела имају листу потенцијалних изговора.

За тестирање ПоцкетСпхинка користио сам снимак сопственог гласа, одломак из Ал Пацина у "Тхе Девилс Адвоцате" и одломак из "Морган Фрееман". Поента је била покушати различите гласове и за мене нема никога ко може причати причу јасно као Морган Фрееман и нико не испоручује линију као Ал Пацино.

Да би ПоцкетСпхинк радио, потребан је ВАВ фајл и мора бити у одређеном формату. Ако је датотека у МП3 формату користите команду ффмпег да бисте је претворили у ВАВ формат:

ффмпег -и инпутфиленаме.мп3 -ацодец пцм_с16ле -ар 16000 оутпутфиленаме.вав

Да бисте покренули ПоцкетСпхинк користите следећу команду:

поцкетспхинк_цонтинуоус -дицт /уср/схаре/поцкетспхинк/модел/лм/ен_УС/цму07а.диц -инфиле воице2.вав -лм цмуспхинк-5.0-ср-ус.лм 2> воице2.лог

поцкетспхинк_цонтинуоус снима ВАВ датотеку и претвара у текст.

У наредној наредби поцкетспхинку се каже да користи речник фајл под називом "/уср/схаре/поцкетспхинк/модел/лм/ен_УС/цму07а.диц" са језичким моделом "цмуспхинк-5.0-ен-ус.лм". Датотека која се претвара у текст се зове воице2.вав (што је снимак који сам направио са мојим гласом). Коначно, 2> ставља све глаголске излазе који вам нужно не треба у датотеку названом воице2.лог. Стварни резултати теста приказани су унутар прозора терминала.

Резултати који користе мој глас су следећи:

Добро дошли у следећу недељу дана о овој недељи, нећемо сазнати за који софтвер за препознавање за минут

Резултати нису тако страшни као код фрееспеецх-вра, али ипак нису заиста корисни. Затим сам покушао да користим ПоцкетСпхинк са Ал Пацино, али ово није учинило никакве резултате.

Коначно сам покушао да употребим глас Морган Фрееман из филма "Бруце Алмигхти" и овде су резултати:

000000000: ми ћемо на њу
000000001: да ли је све тешко да је то дан сада, да, ово је највише што смо живи, а дио ми је вруће
000000002: у лифту који је кључ из мало бејзбола или зна шта треба да уради у животу
000000003: који су они који ће се опоравити
000000004: нису је написали
000000005: они имају право на мене
000000006: морате бити правила
000000007: Очекивао сам те
000000008: и он је овде сазнао да је илустрација била убица Божићна забава
000000009: испада један од начина писања о. Дупе сам помислио да их мало увек носи
000000010: као проблем који је уједињен неће дати оном добром колико сам процијенио у том тренутку када ми нисмо све што мислите да сам на свијету, то ће бити домови и видио сам то
000000011: отац који га има
000000012: шта пуно о овоме
000000013: Да ли то даје
000000014: све што ви не падете пуно
000000015: право на јесен
000000016: Држи се само за мене
000000017: то је незадовољно ако и ја мислим да ће имати да ће се све то оженити на не би било да ми се свиђам за разлику од начина

Мој тест се тешко може сматрати научним и програмери ПоцкетСпхинк-а могу изјавити да не користим софтвер исправно. Ту је и техника која се зове гласовни тренинг који се може користити за креирање бољих речника и језичких датотека.

Међутим, моје преовлађујуће мишљење је да је то превише тешко за стандардну свакодневну употребу.

ВоицеНоте ИИ

ВоицеНоте ИИ је Цхроме апликација која користи АПИ за препознавање Гоогле Воице.

Ако користите Цхроме или Цхромиум претраживаче, можете инсталирати ВоицеНоте ИИ преко Веб Сторе-а .

Иконе на ВоицеНоте ИИ су постављене на чудан начин, јер морате подесити језик на дну прозора, а тастер за уређивање је такође на дну, али дугме за снимање је у горњем десном положају.

Прва ствар коју треба да урадите је да изаберете језик и то можете постићи кликом на икону света.

Да започнете снимање, кликните на икону микрофона и почните да говорите у свом микрофону. За најбоље резултате сам сматрао да је лагано било кључно да би софтвер имао шансу да настави.

Резултати нису били сјајни као што се може видети у наставку:

Поздрав и добродошли за повезивање. Абоут.цом данашњи чланци о гласовној конверзији текста дунелм фаррелл рецесија 2008 као конверзије и рекли су да је добро подржао најбољи начин на који сам пронашао додатак за гласовни текст који ће приказати 2014дебиан или рпм пакет отворити је глас тип за говор у текст отворити ако желите против изабрати у единбургх француски њемачки добити времена у јединственом Кингдомстарт на мору мицропхоневхат сте завршили писање свог текста као текстуални фајл до итсуспешно добро то је врло стандардни енглески нагласак са југа од енгланд најбоље за то, али идем на тектвиа тхис торренталонг са стварним документом и можете видети грешке које вам омогућавају да слушате пријатеље

Дицтаноте

Дицтаноте је још једна Цхроме апликација која се може користити у диктационе сврхе и налазила се као интуитивнија, али резултати нису ништа бољи од ВоицеНоте ИИ.

Користио сам само демо верзију Дицтаноте-а који вам спречава креирање нових докумената, али вам омогућава да пређете преко текста који је већ у уређивачу. Могао сам да тестирам препознавање гласа, али резултати нису били бољи од ВоицеНоте ИИ, па сам се нисам пријавио за про верзију.

Диктирање и пошта

"Диктирање и пошта" је Андроид апликација која користи изворни Гоогле АПИ за препознавање гласа.

Резултати "Диктације и поште" били су много бољи од било којег другог покушаја до ове тачке.

здраво добродошли на Линук о., данас говоримо о претварању звука у текст

Трик са "Диктацијом и поштом" је говорити полако и изговарати, као и са једнаким акцентом.

Након завршетка разговора можете сами послати е-пошту.

Диктатор разговора и разговора

Друга апликација за Андроид коју сам покушао је била "Диктација разговора и говора".

Интерфејс за ову апликацију је био најбољи од гомиле и препознавање гласа је добро функционисало. После снимања диктата успио сам дијелити резултате на различите начине, укључујући путем е-поште.

добродошли у линук абоут.цом данас говоримо о претварању говора у текст

Као што видите, текст изнад је толико јасан колико можете очекивати. Споро је лагано говорити.

Резиме

Нативе Линук има неки начин да оде у погледу препознавања гласа и посебно диктата. Постоје неке апликације које користе Гоогле Воице АПИ, али још увек нису наведене у спремиштима.

ЦхромеОС апликације су мало боље, али далеко најбољи резултати су постигнути помоћу мог Андроид телефона. Можда телефон има бољи микрофон и због тога софтвер за препознавање гласа има веће шансе за конверзију.

Да би препознавање гласа постало заиста корисно, потребно је да буде интуитивније са мањим подешавањем. Не би требало да се зајебавате са језичким моделима и речницима како би то било разумљиво.

Цијеним, међутим, да је читава уметност препознавања гласа веома изазовна, јер сви имају другачији глас и има толико дијалеката из региона до регије у једној земљи која никад не брине о стотинама језика кориштених широм свијета.

Моја анализа је, дакле, да софтвер за препознавање гласа и даље ради у току.