Питхон за препознавање говора: како превести говор у текст?



Овај блог покрива концепт препознавања говора у питхону са узорком програма који преводи говор у текст помоћу препознавања говора.

Говор је најчешће средство комуникације широм света. Већина становништва у свету ослања се на говор да би комуницирао једни с другима. Претпоставимо да градимо модел и да уместо писменог приступа желимо да наш систем реагује на говор, то постаје прилично тешко и захтева много података за обраду. Систем препознавања говора превазилази ову препреку превођењем говора у текст. На овом блогу ћемо проћи кроз препознавање говора модул у питхон-у . Ево листе истих:

Како функционише препознавање говора?

Систем препознавања говора у основи преводи изговорене изговоре у текст. Постоје разни примери стварног живота система за препознавање говора. На пример, сири, који говор узима као улазни податак и преводи га у текст.





Предност употребе система за препознавање говора је у томе што превазилази баријеру писмености. Модел препознавања говора може служити и писменој и неписменој публици, јер је усредсређен на говорне изговоре.

Такође можемо направити попис свих угрожених језика широм света користећи систем за препознавање говора. Иако делује прилично интригантно и нимало сложено, систем за препознавање говора суочава се са многим изазовима у настајању.



Изазови са којима се суочава препознавање говора Систем

Систем препознавања говора постаје тешко направити јер имамо толико извора варијабилности када је говор у питању.

Стил говора

Свака поједина особа има различит стил говора, укључујући и нагласке. Као што сви знамо, имамо различите акценте и за говорење енглеског језика. Постоје амерички енглески, британски енглески и толико других акцената када је у питању говорење најчешћим језиком на свету. Изговор такође отежава систему за препознавање говора да уопште преведе говор.



животни циклус активности андроида

Животна средина

Окружење такође додаје пуно позадинске буке систему. Изолована соба у поређењу са гледалиштем имаће много варијабилности у позадинским звуковима. Чак и ехо може додати пуно буке у систем.

Карактеристике звучника

Глас старе особе можда није исти као глас дојенчета. Карактеристике говора особе зависе од многих фактора, укључујући грубост и јасноћу.

Језичка ограничења

Неки изговорени изговори можда немају одрживо значење када је реч о преводу.

Након превазилажења ових изазова, било који систем за препознавање говора може да преведе говор у текст. Сад кад знамо како функционише препознавање говора, погледајмо другачије који су доступни за препознавање говора у питхону.

Пакети доступни за препознавање говора у питхону

  • апиаи

  • Препознавање говора

  • Гоогле_спеецх_цлоуд

  • Ассемблиаи

  • Поцкетспхинк

  • Ватсон_девелопер_цлоуд

  • бео

Проћи ћемо кроз детаље пакета СпеецхРецогнитион на овом блогу, такође ћемо погледати низ меморијску траку да бисмо разумели како су се системи за препознавање говора развијали током година.

Први прототип препознавања говора заправо је била играчка, названа радио рек које је дошло око 1920-их. Имао је пса који је седео у псећој кућици и који би искочио чим неко изговори реч рек.

Једини проблем модела био је тај што је опруга била причвршћена на електромагнет који је био осетљив на енергију у распону од око 500Хз. Будући да је чисто детектор фреквенције, могао би се на даљину назвати моделом препознавања говора.

1962. године ИБМ је смислио а кутија за ципеле модел који је био у стању да препозна изоловане речи и такође изведе неколико рачунских операција.

Онда је дошао ХАРПИ са ЦМУ-а, који је могао да препозна повезани говор из речника од 1000 речи. Отприлике 1980-их људи су почели да користе статистичке моделе, а једна од најчешће коришћених парадигми машинског учења био је модел скривеног маркова.

Након увођења дубоких неуронских мрежа, већина модела препознавања говора ради на неуронским мрежама. Могућности су незамисливе са неуронским мрежама, речник може да се креће до 10.000 речи и више.

Како инсталирати препознавање говора у Питхон?

Да бисте инсталирали пакет СпеецхРецогнитион питхон, покрените следећу наредбу у терминалу и он ће бити инсталиран на вашем систему.

инсталација-препознавање говора питхон-едурека

Други приступ овоме може бити додавање пакета из пројектног тумача ако га користите

кувар је алат за оркестрацију

Пакет има класу Рецогнизер која се у основи дешава магијом. То је у основи час који се користи за препознавање говора. Следи седам метода које могу читати различите аудио изворе користећи различите АПИ-је.

  • препознати_бед ()
  • препознати_гоогле ()
  • препознати_гоогле_цлоуд ()
  • препознати_хоундифи ()
  • препознати_ибм ()
  • идентифи_вит ()
  • препознати_спхинк ()

Сада се препозна_спхинк може користити и за покретање система за препознавање говора ван мреже. Потребна је инсталација Поцкетспхинк-а.

увези препознавање говора као ср # инстанца класе препознавача р = ср.Рецогнизер ()

Унос из микрофона

Да бисмо користили микрофоне, мораћемо да инсталирамо и пиаудио модул. Ми користимо класу микрофона да бисмо добили улазни говор из микрофона уместо било ког другог начина уноса попут аудио датотеке.

За већину пројеката можемо користити подразумеване микрофоне. Али ако не желите да користите подразумевани микрофон,листу имена микрофона можете добити методом лист_мицропхоне_намес.

За хватање улаза из микрофона користимо методу преслушавања.

увези препознавање говора као ср р = ср.Рецогнизер () са ср.Мицропхоне () као извор: аудио = ср.листен (извор)

Како инсталирати Пиаудио у Питхон?

Да бисте инсталирали Пиаудио у питхон, покрените следећу команду у терминалу или ако користите пицхарм, додајте пакет из интерпретатора пројекта у подешавања.

Случај употребе

Направићемо програм помоћу модула за препознавање говора у питхону за препознавање говора и извршавање следећег:

  1. претворити говор у текст
  2. отворите УРЛ помоћу модула веббровсер
  3. проследите упит помоћу препознавања говора да бисте извршили претрагу по урл-у

Следи програм за горњу изјаву проблема:

увези препознавање говора као ср увоз веб прегледача као вб р1 = ср.Рецогнизер () р2 = ср.Рецогнизер () р3 = ср.Рецогнизер () са ср.Мицропхоне () као извор: принт ('[сеарцх едурека: сеарцх иоутубе]') принт ('говори сада') аудио = р3.листен (извор) ако је 'едурека' у р2.рецогнизе_гоогле (аудио): р2 = ср.Рецогнизер () урл = 'хттпс://ввв.едурека.цо/' са ср .Микрофон () као извор: принт ('претрага вашег упита') аудио = р2.листен (извор) три: гет = р2.рецогнизе_гоогле (аудио) принт (гет) вб.гет (). Опен_нев (урл + гет) осим ср.УнкновнВалуеЕррор: принт ('еррор') осим ср.РекуестЕррор ас е: принт ('фаилед'.формат (е)) иф' видео 'ин р1.рецогнизе_гоогле (аудио): р1 = ср.Рецогнизер () урл =' хттпс://ввв.иоутубе.цом/ресултс?сеарцх_куери= 'са ср.Мицропхоне () као извором: принт (' потрага за видео записом ') аудио = р2.листен (извор) три: гет = р1.рецогнизе_гоогле (аудио ) принт (гет) вб.гет (). опен_нев (урл + гет) осим ср.УнкновнВалуеЕррор: принт ('не могу да разумем') осим ср.РекуестЕррор као е: принт (није успело добити резултате'.формат (е) )

Добићете излаз као што је приказано на слици. Ако изговорите едурека, тражиће се да изговорите упит који желите да претражите у урину едурека који смо написали у променљивој урл. Ако кажете питхон, у прегледачу ће се отворити следећа веб страница.

На овом блогу смо разговарали о томе како можемо да користимо препознавање говора у питхону за превођење говора у текст помоћу пакета за препознавање говора. је постала потреба сата за појмовима попут препознавања говора или умањења предмета, са који пружају незамисливе могућности системима за препознавање говора где можемо да обучимо и тестирамо огромне говорне податке за изградњу система. Можете се уписати у за дубоке неуронске мреже да савладају ваше вештине и покрену ваше учење.

имате питања? спомените их у коментарима, јавићемо вам се.