Meta Labs decodifica a fala com base na atividade das ondas cerebrais

Engenheiros do Facebook AI Research Labs desenvolveram um algoritmo que entende o que uma pessoa ouve da atividade cerebral. O sistema escaneia as ondas cerebrais usando uma máquina de EEG e, em seguida, determina quais palavras e frases uma pessoa ouviu antes ou ouve agora. Até agora, a tecnologia se aplica apenas aos dados recebidos, mas o objetivo dos desenvolvedores é usar o algoritmo treinado na direção oposta para que ele forme a fala com base na atividade cerebral.

Quando uma pessoa fala, ela inconscientemente pensa em como suas palavras serão pronunciadas pelo aparelho articular. Isso significa que o cérebro forma todas as atividades relacionadas à fala com antecedência. Ao mesmo tempo, os cientistas sugeriram que a atividade do cérebro no momento em que ele "ouve" a fala e quando a "pronuncia" é idêntica. Ou seja, tendo aprendido a entender o que uma pessoa ouve, tendo em mãos textos e horas de gravações de atividade cerebral, você pode tentar ativar o algoritmo para trabalhar na direção oposta.

Cientistas da Meta decidiram "pegar" e decodificar a fala no estágio de sua formação. Para fazer isso, eles aplicaram um algoritmo de aprendizado de máquina que analisa os dados de EEG em tempo real e os interpreta.

“Desenvolvemos um modelo de inteligência artificial que pode decodificar a fala a partir de gravações não invasivas da atividade cerebral. A transcrição da fala a partir da atividade cerebral tem sido um objetivo de longa data de neurocientistas e clínicos, mas grande parte do progresso foi feito por meio de procedimentos invasivos”, disse Jean Remy King, principal autor do estudo, à Silicon Angle.

Como King explicou, no passado, a melhor maneira de se familiarizar com a atividade cerebral era o processo em que os cirurgiões abriam o crânio, conectavam eletrodos ao cérebro e depois estudavam as informações no computador. Este procedimento tinha apenas duas alternativas - eletroencefalograma (EEG) e magnetoencefalografia (MEG). Ambos os sistemas eram capazes de capturar imagens do cérebro ao nível de milissegundos, mas eram inferiores à opção cirúrgica em acurácia.

“As gravações não invasivas são notoriamente barulhentas e podem variar muito entre as sessões de gravação e os indivíduos por vários motivos, incluindo diferenças no cérebro de cada indivíduo e onde os sensores estão localizados”, acrescentou um porta-voz da Meta.

Para resolver esse problema, os cientistas recorreram a um algoritmo que foi ajustado para eliminar o ruído de EEG e MEG. Eles escolheram o wave2vec 2.0, um modelo de código aberto desenvolvido na Meta há dois anos, como sua principal ferramenta. Inicialmente, essa IA foi projetada para reconhecer a fala em um ambiente ruidoso.

Os desenvolvedores encarregaram o algoritmo de analisar gravações de EEG e MEG, consistindo em 150 horas de procedimentos, durante as quais os médicos trabalharam com 169 voluntários ouvindo livros de áudio e frases individuais em inglês. As gravações tornaram-se o conjunto de treinamento para wave2vec 2.0. Com o tempo, o algoritmo aprendeu a limpar os registros e começou a encontrar padrões nas mudanças na atividade cerebral.

“Dados diferentes fragmentos de atividade cerebral, a IA pode determinar a partir de um grande número de novos clipes de áudio quais uma pessoa realmente ouviu. A partir daqui, o algoritmo infere palavras específicas que uma pessoa provavelmente já ouviu”, disse o Meta Labs.

Durante o estudo, os engenheiros confirmaram que a IA pode ser treinada para decodificar gravações ruidosas e variáveis da atividade cerebral a partir da fala percebida. O próximo passo do Meta Labs será estudar o comportamento das ondas cerebrais sem um conjunto pré-preparado de clipes de áudio. E o objetivo final do estudo é dar aos pacientes paralisados a capacidade de se comunicar por meio de transmissão de fala sem pronunciá-la.

2022-09-12 12:44:35

Autor: Vitalii Babkin

Anterior | Próximo