Forståelse af stemmegenkendelse

Prøv Vores Instrument Til At Fjerne Problemer





Forestil dig, at du sidder afslappet i sofaen og bare bestiller din computer eller laptop eller mobiltelefon til at udføre enkle opgaver som at skrive et brev eller udføre få kommandoer. Er det muligt?

Selvfølgelig er det, det er her, stemmegenkendelse kommer ind i billedet.




Ved at gå efter definitionen er det processen med anerkendelse af menneskelig tale og afkodet den til tekstform.

Princip

Det grundlæggende princip i stemmegenkendelse indebærer det faktum, at tale eller ord, der tales af ethvert menneske, forårsager vibrationer i luften, kendt som lydbølger. Disse kontinuerlige eller analoge bølger digitaliseres og behandles og afkodes derefter til passende ord og derefter passende sætninger.



stemmegenkendelse

Komponenter i et talegenkendelsessystem

Så hvad består et grundlæggende talegenkendelsessystem af?

Komponenter i et talegenkendelsessystem

  • En taleoptagelsesenhed : Den består af en mikrofon, der konverterer lydbølgesignalerne til elektriske signaler og en Analog til Digital konverter, som prøver og digitaliserer de analoge signaler for at opnå de diskrete data, som computeren kan forstå.
  • Et digitalt signalmodul eller en processor : Det udfører behandling på det rå talesignal som frekvensdomænekonvertering og gendanner kun de krævede oplysninger osv.
  • Forbehandlet signallagring : Den forbehandlede tale er lagret i hukommelsen for at udføre yderligere talegenkendelsesopgaver.
  • Reference Talemønstre : Computeren eller systemet består af foruddefinerede talemønstre eller skabeloner, der allerede er gemt i hukommelsen, der skal bruges som reference til matchning.
  • Mønster matching algoritme : Det ukendte talesignal sammenlignes med referencetalemønsteret for at bestemme de faktiske ord eller ordmønsteret.
Systemets arbejde

Lad os nu se, hvordan hele systemet rent faktisk fungerer.


Systemets arbejde

  • En tale kan ses som en akustisk bølgeform, dvs. signalbærende meddelelsesinformation. Et normalt menneske med den begrænsede bevægelseshastighed for hans / hendes artikulatorer (taleorganer) kan producere tale med en gennemsnitlig hastighed på 10 lyde pr. Sekund. Den gennemsnitlige informationshastighed er ca. 50-60 bits / sekund. Det betyder, at der faktisk kun kræves 50 bit / sekund information i talesignalet. Denne akustiske bølgeform konverteres til analoge elektriske signaler af mikrofonen. Analog til digital konverter konverterer dette analoge signal til digitale prøver ved at tage nøjagtige målinger af bølgen med diskrete intervaller.
  • Det digitaliserede signal består af en strøm af periodiske signaler, der samples med 16000 gange pr. Sekund og er ikke egnet til at udføre faktisk tale genkendelse proces, da mønsteret ikke let kan findes. For at udtrække den aktuelle information konverteres signalet i tidsdomæne til signalet i frekvensdomænet. Dette gøres af den digitale signalprocessor ved hjælp af FFT-teknik. I det digitale signal, komponenten efter hver 1/100thsekund analyseres, og frekvensspektret for hver sådan komponent beregnes. Med andre ord er det digitaliserede signal segmenteret i små dele af frekvensamplituder.
  • Hvert segment eller frekvensgrafen repræsenterer de forskellige lyde fra mennesker. Computeren udfører matching af de ukendte segmenter med den gemte fonetik på det bestemte sprog. Denne mønstermatchning udføres på 3 måder:

Ved hjælp af en akustisk fonetisk tilgang : I den akustiske fonetiske tilgang anvendes generelt den skjulte Markov-model. Denne model udvikler en ikke-deterministisk sandsynlighedsmodel for talegenkendelse. Denne model består af to variabler - de skjulte tilstande for fonemerne, der er gemt i computerhukommelsen, og det synlige frekvenssegment af det digitale signal. Hvert fonem har sin egen sandsynlighed, og segmentet matches med fonemet i henhold til sandsynligheden, og de matchede fonemer samles derefter sammen for at danne de korrekte ord i henhold til de gemte grammatikregler på sproget.

Ved hjælp af en mønstergenkendelsesmetode : I mønstergenkendelsesmetoden trænes systemet med et bestemt talemønster til ethvert sprog, og det ukendte talemønster sammenlignes med referencetalemønsteret ved at bestemme afstanden mellem signalerne ved hjælp af tidsforvrængningsteknik.

Brug af kunstig intelligens : Artificiel intelligens tilgang er baseret på udnyttelse af grundlæggende videnkilder såsom kendskab til lyde, der er talt på basis af spektrale målinger, viden om korrekte meningsfulde og syntaktiske ord.

Faktorer, som talegenkendelsessystemet afhænger af

Talegenkendelsessystemet afhænger af følgende faktorer:

  • Isolerede ord : Der skal være en pause mellem de fortløbende ord, der tales, fordi kontinuerlige ord kan overlappe hinanden, hvilket gør det vanskeligt for systemet at forstå, når et ord starter eller slutter. Således skal der være en stilhed mellem på hinanden følgende ord.
  • Enkelt højttaler : Mange højttalere, der prøver at give taleinput på samme tid, kan forårsage overlapning af signalerne og afbrydelser. De fleste af de talegenkendelsessystemer, der anvendes, er højttalerafhængige systemer.
  • Ordforrådets størrelse : Sprog med stort ordforråd er vanskelige at overveje for mønstermatchning end dem med lille ordforråd, da chancerne for at have tvetydige ord er mindre i sidstnævnte.
System til talegenkendelse på Windows 7

Jeg vil anbefale følgende trin for enhver person, der bruger Windows 7 til talegenkendelsessystemet

  • Åbn Kontrolpanel fra startmenuen eller ved at klikke på ikonet.
  • Vælg Nem adgang, og klik derefter på Talegenkendelse.
  • Klik derefter på opsæt mikrofon, og vælg stationær mikrofon blandt de tilgængelige indstillinger.
  • Derefter tager du talevejledningen og følger de givne instruktioner.
  • Derefter træner du din computer til bedre muligheder, så computeren gemmer et bestemt mønster af dit talesignal. Dette gøres ved at klikke på 'træne din computer til bedre at forstå dig' og derefter følge instruktionerne.
  • Start nu ikonet for talegenkendelse og start med at diktere din tale til computeren. Du kan også tilføje dine egne ord til computerordbogen.
Praktiske talegenkendelsessystemer: Brug af HM2007

Et praktisk talegenkendelsessystem kan konstrueres ved hjælp af IC til talegenkendelse HM2007 . HM2007 er en 48 pin IC, der giver funktion til talegenkendelse. Det fungerer i to tilstande: Manuel tilstand eller CPU-tilstand. I begge tilstande trænes IC først til at genkende ord af brugeren, der siger hvert ord for det tilsvarende nummer, der trykkes på tasten. IC'en lagrer hvert ordsignal på den hukommelsesplacering, der svarer til ordet. Dataudgangen fra IC'en er grænseflade til Microcontroller, hvorfra den vises på LCD'et.

Praktiske talegenkendelsessystemer

Normalt bruger vi manuel tilstand til HM2007-drift.

  • HM2007 består af en RDY-pin, som er en aktiv lav pin, der indikerer, at IC'en er klar til træningsformål.
  • Stemmeindgangen gives via en mikrofon, der er tilsluttet IC'ens MICIN-pin.
  • IC'en er grænseflade med et tastatur, der bruges til at levere nummerinput svarende til hvert ord. IC fungerer i to funktioner - Clear og Train. Når der trykkes på Train-tasten på tastaturet, begynder IC'ens træningsproces.
  • Brugeren trykker på en numerisk tast, inden han trykker på 'Train' -funktionstasten og siger det ønskede ord til mikrofonen.
  • IC'en sender et højt signal til ME-pin (Memory Enable), der er forbundet til den tilsvarende ME-pin fra SRAM. 8-bit datasignalet, der svarer til det trykte nummer, lagres i SRAM (eksternt RAM) gennem den eksterne bus.
  • Efter at stemmeindgangen er detekteret, er RDY-stiften logisk høj, og IC'en kommer til genkendelsestilstanden, hvor den starter genkendelsesprocessen.
  • Resultatet af processen gives gennem databussen med DEN-stiften (Data Enable) høj.
  • 8-bit-dataene kan derefter gives til mikrocontrolleren via en serieinterfaceprocessor eller først låses ved hjælp af lås IC 74HC573.
  • Microcontroller er grænseflade med en LCD og er programmeret således, at det tilsvarende ord vises på displayet.

Den eneste forholdsregel, der skal tages, er at ikke bruge homonymer (ord med lignende lyd) og også at tage sig af excitationen i stemmen.

Så dette er alt, hvordan en grundlæggende talegenkendelsessystem arbejder. Eventuelle yderligere input er velkomne til at blive tilføjet.

Billedkredit

  • Talegenkendelsessystem af Gstatisk
  • Talebølgeformmanipulation af Dadisp

Komponenter af talegenkendelsessystemet ved en introduktion til tale- og højttalegenkendelse - Richard D. Peacocke og Daryl H. Graf