Facebook AI Research Labs のエンジニアは、人が脳の活動から聞いていることを理解するアルゴリズムを開発しました。このシステムは、EEG マシンを使用して脳波をスキャンし、人が以前に聞いた、または現在聞いている単語や文を判断します。これまでのところ、この技術は受信データにのみ適用されますが、開発者の目標は、訓練されたアルゴリズムを逆方向に使用して、脳の活動に基づいて音声を形成することです。
人は話すとき、自分の言葉が関節装置によってどのように発音されるかを無意識のうちに考えています。これは、脳が発話に関連するすべての活動を事前に形成していることを意味します。同時に、科学者たちは、スピーチを「聞く」ときと「発音する」ときの脳の活動は同一であることを示唆しました。つまり、人が聞いていることを理解することを学び、脳活動のテキストと何時間もの記録を手元に持っているので、アルゴリズムをオンにして反対方向に機能させることができます。
メタの科学者は、その形成段階でスピーチを「キャッチ」してデコードすることにしました。これを行うために、彼らは EEG データをリアルタイムで分析して解釈する機械学習アルゴリズムを適用しました。
「私たちは、脳活動の非侵襲的記録から音声を解読できる人工知能モデルを開発しました。脳活動から音声を転写することは、神経科学者や臨床医の長年の目標でしたが、その進歩の多くは侵襲的な処置によって達成されました」と、研究の筆頭著者であるジーン・レミー・キングはシリコンアングルに語った.
キングが説明したように、かつて脳の活動を理解する最善の方法は、外科医が頭蓋骨を開き、電極を脳に接続し、コンピューターで情報を調べることでした。この手順には、脳波 (EEG) と脳磁図 (MEG) の 2 つの選択肢しかありませんでした。どちらのシステムも、ミリ秒レベルで脳の画像をキャプチャすることができましたが、精度は外科的オプションよりも劣っていました。
「非侵襲的な録音はノイズが多いことで有名であり、個人の脳やセンサーの位置の違いなど、さまざまな理由で録音セッションや個人によって大きく異なる可能性があります」とメタの広報担当者は付け加えました。
この問題を解決するために、科学者は EEG と MEG のノイズを除去するように調整されたアルゴリズムに目を向けました。彼らは、2 年前に Meta で開発されたオープン ソース モデルである wave2vec 2.0 をメイン ツールとして選択しました。当初、この AI は騒がしい環境で音声を認識するように設計されていました。
開発者はアルゴリズムに EEG と MEG の記録を分析するように命じました。これは 150 時間の手順で構成され、その間、医師は 169 人のボランティアと協力してオーディオブックと英語の個々の文章を聞いていました。録音は、wave2vec 2.0 のトレーニング セットになりました。時間が経つにつれて、アルゴリズムは記録をクリーンアップすることを学び、脳活動の変化のパターンを見つけ始めました.
「脳活動のさまざまな断片が与えられると、AI は多数の新しいオーディオ クリップから、人が実際に聞いたものを判断できます。ここから、アルゴリズムは、人が聞いた可能性が高い特定の単語を推測します」と Meta Labs は述べています。
研究中、エンジニアは、認識された音声から脳活動のノイズの多い可変記録を解読するように AI をトレーニングできることを確認しました。 Meta Labs の次のステップは、事前に準備されたオーディオ クリップのプールなしで、脳波の動作を研究することです。そして、この研究の最終的な目標は、麻痺した患者に、音声放送を発音せずにコミュニケーションする能力を与えることです.
2022-09-12 12:44:35
著者: Vitalii Babkin