Meta Labs decodifica il parlato in base all'attività delle onde cerebrali

Gli ingegneri dei laboratori di ricerca sull'intelligenza artificiale di Facebook hanno sviluppato un algoritmo che comprende ciò che una persona sente dall'attività cerebrale. Il sistema scansiona le onde cerebrali utilizzando una macchina EEG, quindi determina quali parole e frasi una persona ha sentito prima o sente ora. Finora, la tecnologia si applica solo ai dati in entrata, ma l'obiettivo degli sviluppatori è utilizzare l'algoritmo addestrato nella direzione opposta in modo che formi un discorso basato sull'attività cerebrale.

Quando una persona parla, pensa inconsciamente a come le sue parole saranno pronunciate dall'apparato articolare. Ciò significa che il cervello forma in anticipo tutte le attività legate al linguaggio. Allo stesso tempo, gli scienziati hanno suggerito che l'attività del cervello nel momento in cui "ascolta" il discorso e quando lo "pronuncia" è identica. Cioè, avendo imparato a capire cosa sente una persona, avendo a portata di mano testi e ore di registrazioni dell'attività cerebrale, puoi provare ad attivare l'algoritmo per lavorare nella direzione opposta.

Gli scienziati di Meta hanno deciso di "catturare" e decodificare il discorso nella fase della sua formazione. Per fare ciò, hanno applicato un algoritmo di apprendimento automatico che analizza i dati EEG in tempo reale e poi li interpreta.

“Abbiamo sviluppato un modello di intelligenza artificiale in grado di decodificare il parlato da registrazioni non invasive dell'attività cerebrale. La trascrizione del discorso dall'attività cerebrale è stato un obiettivo di vecchia data di neuroscienziati e medici, ma gran parte dei progressi sono stati compiuti attraverso procedure invasive", ha detto a Silicon Angle Jean Remy King, autore principale dello studio.

Come ha spiegato King, in passato il modo migliore per familiarizzare con l'attività cerebrale era il processo in cui i chirurghi aprivano il cranio, collegavano gli elettrodi al cervello e quindi studiavano le informazioni sul computer. Questa procedura aveva solo due alternative: elettroencefalogramma (EEG) e magnetoencefalografia (MEG). Entrambi i sistemi erano in grado di acquisire immagini del cervello a livello di millisecondi, ma erano inferiori all'opzione chirurgica in termini di precisione.

"Le registrazioni non invasive sono notoriamente rumorose e possono variare notevolmente tra le sessioni di registrazione e gli individui per una serie di motivi, comprese le differenze nel cervello di ogni individuo e dove si trovano i sensori", ha aggiunto un portavoce di Meta.

Per risolvere questo problema, gli scienziati si sono rivolti a un algoritmo ottimizzato per eliminare il rumore EEG e MEG. Hanno scelto wave2vec 2.0, un modello open source sviluppato da Meta due anni fa, come strumento principale. Inizialmente, questa IA è stata progettata per riconoscere il parlato in un ambiente rumoroso.

Gli sviluppatori hanno incaricato l'algoritmo di analizzare le registrazioni EEG e MEG, costituite da 150 ore di procedure, durante le quali i medici hanno lavorato con 169 volontari ascoltando audiolibri e singole frasi in inglese. Le registrazioni sono diventate il set di allenamento per wave2vec 2.0. Nel corso del tempo, l'algoritmo ha imparato a ripulire i record e ha iniziato a trovare schemi nei cambiamenti nell'attività cerebrale.

"Dati diversi frammenti di attività cerebrale, l'IA può determinare da un gran numero di nuovi clip audio quelli che una persona ha effettivamente sentito. Da qui, l'algoritmo deduce parole specifiche che è probabile che una persona abbia sentito", ha detto Meta Labs.

Durante lo studio, gli ingegneri hanno confermato che l'IA può essere addestrata per decodificare registrazioni rumorose e variabili dell'attività cerebrale dal parlato percepito. Il prossimo passo di Meta Labs sarà studiare il comportamento delle onde cerebrali senza un pool pre-preparato di clip audio. E l'obiettivo finale dello studio è dare ai pazienti paralizzati la capacità di comunicare attraverso la trasmissione del parlato senza pronunciarlo.

2022-09-12 12:44:35

Autore: Vitalii Babkin

Precedente | Il prossimo