Meta Labs décode la parole en fonction de l'activité des ondes cérébrales

Les ingénieurs de Facebook AI Research Labs ont développé un algorithme qui comprend ce qu'une personne entend de l'activité cérébrale. Le système analyse les ondes cérébrales à l'aide d'un appareil EEG, puis détermine les mots et les phrases qu'une personne a déjà entendus ou entend maintenant. Jusqu'à présent, la technologie ne s'applique qu'aux données entrantes, mais l'objectif des développeurs est d'utiliser l'algorithme formé dans la direction opposée afin qu'il forme la parole en fonction de l'activité cérébrale.

Lorsqu'une personne parle, elle réfléchit inconsciemment à la manière dont ses mots seront prononcés par l'appareil articulaire. Cela signifie que le cerveau forme à l'avance toutes les activités liées à la parole. Dans le même temps, les scientifiques ont suggéré que l'activité du cerveau au moment où il "écoute" la parole et lorsqu'il la "prononce" est identique. C'est-à-dire qu'après avoir appris à comprendre ce qu'une personne entend, avoir sous la main des textes et des heures d'enregistrements d'activité cérébrale, vous pouvez essayer d'activer l'algorithme pour travailler dans la direction opposée.

Les scientifiques de Meta ont décidé de "capturer" et de décoder la parole au stade de sa formation. Pour ce faire, ils ont appliqué un algorithme d'apprentissage automatique qui analyse les données EEG en temps réel puis les interprète.

« Nous avons développé un modèle d'intelligence artificielle capable de décoder la parole à partir d'enregistrements non invasifs de l'activité cérébrale. La transcription de la parole à partir de l'activité cérébrale est un objectif de longue date des neuroscientifiques et des cliniciens, mais une grande partie des progrès a été réalisée grâce à des procédures invasives », a déclaré Jean Remy King, auteur principal de l'étude, à Silicon Angle.

Comme l'a expliqué King, dans le passé, la meilleure façon de se familiariser avec l'activité cérébrale était le processus par lequel les chirurgiens ouvraient le crâne, connectaient des électrodes au cerveau, puis étudiaient les informations sur l'ordinateur. Cette procédure n'avait que deux alternatives - l'électroencéphalogramme (EEG) et la magnétoencéphalographie (MEG). Les deux systèmes étaient capables de capturer des images du cerveau au niveau de la milliseconde, mais étaient inférieurs à l'option chirurgicale en termes de précision.

"Les enregistrements non invasifs sont notoirement bruyants et peuvent varier considérablement selon les sessions d'enregistrement et les individus pour diverses raisons, y compris les différences dans le cerveau de chaque individu et l'emplacement des capteurs", a ajouté un porte-parole de Meta.

Pour résoudre ce problème, les scientifiques se sont tournés vers un algorithme qui a été réglé pour éliminer le bruit EEG et MEG. Ils ont choisi wave2vec 2.0, un modèle open source développé chez Meta il y a deux ans, comme outil principal. Initialement, cette IA était conçue pour reconnaître la parole dans un environnement bruyant.

Les développeurs ont chargé l'algorithme d'analyser les enregistrements EEG et MEG, consistant en 150 heures de procédures, au cours desquelles les médecins ont travaillé avec 169 volontaires écoutant des livres audio et des phrases individuelles en anglais. Les enregistrements sont devenus l'ensemble d'entraînement pour wave2vec 2.0. Au fil du temps, l'algorithme a appris à nettoyer les enregistrements et a commencé à trouver des modèles de changements dans l'activité cérébrale.

"Étant donné différents fragments d'activité cérébrale, l'IA peut déterminer à partir d'un grand nombre de nouveaux clips audio ceux qu'une personne a réellement entendus. À partir de là, l'algorithme déduit des mots spécifiques qu'une personne est susceptible d'avoir entendus », a déclaré Meta Labs.

Au cours de l'étude, les ingénieurs ont confirmé que l'IA peut être entraînée pour décoder les enregistrements bruyants et variables de l'activité cérébrale à partir de la parole perçue. La prochaine étape de Meta Labs sera d'étudier le comportement des ondes cérébrales sans un pool pré-préparé de clips audio. Et le but ultime de l'étude est de donner aux patients paralysés la capacité de communiquer par diffusion vocale sans le prononcer.

2022-09-12 12:44:35

Auteur: Vitalii Babkin

Précédent | Suivant