Imagine-se sentado relaxado no sofá e apenas encomendando seu computador ou laptop ou celular para realizar tarefas simples como digitar uma carta ou executar alguns comandos. É possível?

Claro que é, é aí que o reconhecimento de voz entra em cena.

Indo pela definição, é o processo de reconhecimento da fala humana e decodificá-la em forma de texto.

Princípio

O princípio básico de reconhecimento de voz envolve o fato de que a fala ou palavras faladas por qualquer ser humano causam vibrações no ar, conhecidas como ondas sonoras. Essas ondas contínuas ou analógicas são digitalizadas e processadas e, em seguida, decodificadas para palavras apropriadas e, em seguida, frases apropriadas.

reconhecimento de voz

Componentes de um sistema de reconhecimento de voz

Então, em que consiste um sistema básico de reconhecimento de fala?

Componentes de um sistema de reconhecimento de voz

Um dispositivo de captura de fala : Consiste em um microfone, que converte os sinais das ondas sonoras em sinais elétricos e um Conversor Analógico para Digital que faz a amostragem e digitaliza os sinais analógicos para obter os dados discretos que o computador pode entender.
Um Módulo de Sinal Digital ou Processador : Ele executa o processamento do sinal de fala bruto, como conversão de domínio de frequência, restaurando apenas as informações necessárias, etc.
Armazenamento de sinal pré-processado : A fala pré-processada é armazenada na memória para realizar outras tarefas de reconhecimento de fala.
Padrões de fala de referência : O computador ou sistema consiste em padrões de fala predefinidos ou modelos já armazenados na memória, para serem usados como referência para correspondência.
Algoritmo de correspondência de padrões : O sinal de fala desconhecido é comparado com o padrão de fala de referência para determinar as palavras reais ou o padrão de palavras.

Funcionamento do Sistema

Agora vamos ver como todo o sistema realmente funciona.

Funcionamento do Sistema

Um discurso pode ser visto como uma forma de onda acústica, ou seja, um sinal transportando informações de mensagem. Um ser humano normal, com a taxa de movimento limitada de seus articuladores (órgãos da fala), pode produzir a fala a uma taxa média de 10 sons por segundo. A taxa média de informação é de cerca de 50-60 bits / segundo. Isso significa que, na verdade, apenas 50 bits / segundo de informação são necessários no sinal de voz. Esta forma de onda acústica é convertida em sinais elétricos analógicos pelo microfone. O conversor Analógico para Digital converte este sinal analógico em amostras digitais fazendo medições precisas da onda em intervalos discretos.
O sinal digitalizado consiste em um fluxo de sinais periódicos amostrados a 16.000 vezes por segundo e não é adequado para realizar reconhecimento de fala processo, pois o padrão não pode ser facilmente localizado. Para extrair as informações reais, o sinal no domínio do tempo é convertido em sinal no domínio da frequência. Isso é feito pelo processador de sinal digital usando a técnica FFT. No sinal digital, o componente a cada 1/100^ºde um segundo é analisado e o espectro de frequência para cada um desses componentes é calculado. Em outras palavras, o sinal digitalizado é segmentado em pequenas partes de amplitudes de frequência.
Cada segmento ou gráfico de frequência representa os diferentes sons produzidos pelo ser humano. O computador faz a correspondência dos segmentos desconhecidos com a fonética armazenada do idioma específico. Essa correspondência de padrão é feita de 3 maneiras:

Usando uma abordagem fonética acústica : Na abordagem fonética acústica, geralmente o modelo de Markov oculto é usado. Este modelo desenvolve um modelo de probabilidade não determinística para o reconhecimento de fala. Este modelo consiste em duas variáveis - os estados ocultos dos fonemas armazenados na memória do computador e o segmento de frequência visível do sinal digital. Cada fonema tem sua própria probabilidade e o segmento é combinado com o fonema de acordo com a probabilidade e os fonemas combinados são então reunidos para formar as palavras corretas de acordo com as regras gramaticais armazenadas do idioma.

Usando uma abordagem de reconhecimento de padrões : Na abordagem de reconhecimento de padrões, o sistema é treinado com um padrão de fala específico para qualquer idioma e o padrão de fala desconhecido é comparado com o padrão de fala de referência determinando a distância entre os sinais usando a técnica de sincronização temporal.

Usando inteligência artificial : A abordagem da Inteligência Artificial baseia-se na utilização de fontes de conhecimento básico, como o conhecimento dos sons falados com base em medições espectrais, o conhecimento de palavras com significado e sintáticas adequadas.

Fatores dos quais o Sistema de Reconhecimento de Fala depende

O sistema de reconhecimento de voz depende dos seguintes fatores:

Palavras Isoladas : Deve haver uma pausa entre as palavras consecutivas faladas, pois palavras contínuas podem se sobrepor, tornando difícil para o sistema entender quando uma palavra começa ou termina. Portanto, deve haver um silêncio entre palavras consecutivas.
Alto-falante : Muitos alto-falantes tentando dar entrada de voz ao mesmo tempo podem causar sobreposição de sinais e interrupções. A maioria dos sistemas de reconhecimento de voz usados são sistemas dependentes de alto-falante.
Tamanho do vocabulário : Idiomas com vocabulário grande são difíceis de serem considerados para correspondência de padrões do que aqueles com vocabulário pequeno, pois as chances de ter palavras ambíguas são menores no último.

Sistema de reconhecimento de fala no Windows 7

Eu gostaria de recomendar as seguintes etapas para qualquer pessoa que use o Windows 7 para o sistema de reconhecimento de voz

Abra o Painel de Controle no menu Iniciar ou clicando no ícone.
Selecione Facilidade de acesso e clique em Reconhecimento de fala.
Em seguida, clique em configurar microfone e selecione o microfone de mesa entre as opções disponíveis.
Em seguida, faça o tutorial de fala e siga as instruções fornecidas.
Depois disso, treine seu computador para as melhores opções para que ele armazene um padrão definido de seu sinal de fala. Isso é feito clicando na opção ‘treinar seu computador para entendê-lo melhor’ e, em seguida, siga as instruções.
Agora inicie o ícone de reconhecimento de fala e comece a ditar sua fala para o computador. Você também pode adicionar suas próprias palavras ao dicionário do computador.

Sistemas práticos de reconhecimento de fala: usando HM2007

Um prático sistema de reconhecimento de fala pode ser construído usando Speech Recognition IC HM2007 . O HM2007 é um IC de 48 pinos que oferece função de reconhecimento de voz. Funciona em dois modos: modo manual ou modo CPU. Em ambos os modos, o IC é primeiro treinado para reconhecer palavras pelo usuário dizendo cada palavra para o número correspondente pressionado na tecla. O IC armazena cada sinal de palavra no local de memória correspondente à palavra. A saída de dados do IC faz a interface com o microcontrolador de onde é exibida no LCD.

Sistemas práticos de reconhecimento de fala

Normalmente usamos o modo manual para operação HM2007.

O HM2007 consiste em um pino RDY, que é um pino baixo ativo, indicando que o IC está pronto para fins de treinamento.
A entrada de voz será dada por meio de um microfone conectado ao pino MICIN do IC.
O IC tem interface com um teclado que é usado para fornecer a entrada de número correspondente a cada palavra. O IC funciona em duas funções - Limpar e Treinar. Quando a tecla Train é pressionada no teclado, o IC inicia seu processo de treinamento.
O usuário pressiona uma tecla numérica antes de pressionar a tecla de função ‘Treinar’ e diz a palavra necessária ao microfone.
O IC envia um sinal alto para o pino ME (habilitação de memória), que é conectado ao pino ME correspondente da SRAM. O sinal de dados de 8 bits correspondente ao número pressionado é armazenado na SRAM (RAM externa) através do barramento externo.
Depois que a entrada de voz é detectada, o pino RDY está com o nível lógico alto e o IC chega ao estado de reconhecimento, onde inicia o processo de reconhecimento.
O resultado do processo é dado através do barramento de dados com o pino DEN (Data Enable) alto.
Os dados de 8 bits podem ser fornecidos ao microcontrolador por meio de um processador de interface em série ou primeiro travados usando a trava IC 74HC573.
O microcontrolador tem interface com um LCD e é programado de forma que a palavra correspondente seja exibida no display.

O único cuidado que se deve ter é não usar homônimos (palavras com som semelhante) e também cuidar da excitação na voz.

Então, tudo isso é como um sistema básico de reconhecimento de fala funciona. Quaisquer outras entradas podem ser adicionadas.