Meta Labs는 뇌파 활동을 기반으로 음성을 해독합니다.

Facebook AI Research Labs의 엔지니어들은 사람이 뇌 활동에서 듣는 것을 이해하는 알고리즘을 개발했습니다. 이 시스템은 EEG 기계를 사용하여 뇌파를 스캔한 다음 사람이 이전에 들었거나 지금 들은 단어와 문장을 결정합니다. 지금까지 기술은 들어오는 데이터에만 적용되지만 개발자의 목표는 훈련된 알고리즘을 반대 방향으로 사용하여 두뇌 활동을 기반으로 음성을 형성하는 것입니다.

사람이 말할 때, 그는 자신의 말이 관절 장치에 의해 어떻게 발음될 것인지에 대해 무의식적으로 생각합니다. 이것은 뇌가 모든 언어 관련 활동을 미리 형성한다는 것을 의미합니다. 동시에 과학자들은 말을 "듣고" "발음"할 때 뇌의 활동이 동일하다고 제안했습니다. 즉, 사람이 듣는 것을 이해하는 법을 배우고 뇌 활동에 대한 텍스트와 몇 시간의 녹음을 가지고 있으면 알고리즘을 켜서 반대 방향으로 작동하도록 시도할 수 있습니다.

Meta의 과학자들은 형성 단계에서 연설을 "잡고" 해독하기로 결정했습니다. 이를 위해 뇌파 데이터를 실시간으로 분석해 해석하는 머신러닝 알고리즘을 적용했다.

“우리는 뇌 활동의 비침습적 기록에서 음성을 해독할 수 있는 인공 지능 모델을 개발했습니다. 뇌 활동에서 음성을 전사하는 것은 신경과학자와 임상의의 오랜 목표였지만, 많은 진전이 침습적 절차를 통해 이루어졌습니다.”라고 이 연구의 주저자인 Jean Remy King은 말했습니다.

King이 설명했듯이 과거에는 외과의가 두개골을 열고 전극을 뇌에 연결한 다음 컴퓨터에서 정보를 연구하는 과정이 뇌 활동을 알게 되는 가장 좋은 방법이라고 설명했습니다. 이 절차에는 뇌파도(EEG)와 자기뇌파검사(MEG)라는 두 가지 대안만 있었습니다. 두 시스템 모두 밀리초 수준에서 뇌의 이미지를 캡처할 수 있었지만 정확도에서 수술 옵션보다 열등했습니다.

메타 대변인은 "비침습적 녹음은 시끄러운 것으로 악명이 높으며 각 개인의 두뇌와 센서 위치의 차이를 포함하여 다양한 이유로 녹음 세션과 개인에 따라 크게 다를 수 있습니다"라고 덧붙였습니다.

이 문제를 해결하기 위해 과학자들은 EEG 및 MEG 노이즈를 제거하도록 조정된 알고리즘으로 전환했습니다. 그들은 2년 전 Meta에서 개발한 오픈 소스 모델인 wave2vec 2.0을 주요 도구로 선택했습니다. 처음에 이 AI는 시끄러운 환경에서 음성을 인식하도록 설계되었습니다.

개발자들은 150시간의 절차로 구성된 EEG 및 MEG 기록을 분석하는 알고리즘을 지정했습니다. 이 과정에서 의사는 오디오북과 영어로 된 개별 문장을 듣는 169명의 자원 봉사자와 함께 작업했습니다. 녹음은 wave2vec 2.0의 훈련 세트가 되었습니다. 시간이 지남에 따라 알고리즘은 기록을 정리하고 뇌 활동의 변화 패턴을 찾기 시작했습니다.

“뇌 활동의 다양한 조각이 주어지면 AI는 많은 수의 새로운 오디오 클립에서 사람이 실제로 들은 것을 결정할 수 있습니다. 여기에서 알고리즘은 사람이 들었을 가능성이 높은 특정 단어를 추론합니다.”라고 Meta Labs는 말했습니다.

연구 기간 동안 엔지니어들은 AI가 인지된 언어에서 뇌 활동에 대한 시끄럽고 다양한 기록을 해독하도록 훈련될 수 있음을 확인했습니다. Meta Labs의 다음 단계는 미리 준비된 오디오 클립 풀 없이 뇌파의 동작을 연구하는 것입니다. 그리고 이 연구의 궁극적인 목표는 마비된 환자들에게 발음하지 않고도 음성 방송을 통해 의사 소통할 수 있는 능력을 부여하는 것입니다.

2022-09-12 12:44:35

작가: Vitalii Babkin

이전 | 다음