地球上の生物の進化の数十億年以上にわたって、ある世代から次の世代に遺伝情報を転送するための記録メカニズムが生物で開発されてきました。これは、アデニン(A)、グアニン(G)、シトシン(C)、チミン(T)の4つの核酸塩基の組み合わせの交互のペアの形でのDNA鎖の形成です。 4つのコーディングユニットは2つ(0と1)よりも優れていますが、これは制限ではない、と科学者たちは言い、さらに7つの有機化合物を合成しました。
DNAでデータをエンコードするための「アルファベット」を4文字から11文字に拡張すると、そのような情報ストレージ方法のすでに信じられないほどの容量が少なくとも2倍になります。ちなみに、このアプローチは、DNA配列へのデータ記録の速度も向上させます。これは、今日、この方向での作業に深刻なブレーキをかけると考えられています。また、現在のDNAシーケンシング方法では合成された核酸塩基を検出できないことを理解する必要があります。それらを読むには、新しいツールと反応が必要です。しかし、これらはすべて解決可能な問題であると、イリノイ大学アーバンシャンペーン校の研究者は述べています。
DNAを解読するために、DNA鎖は、天然または合成にかかわらず、個々の窒素塩基を検出できる特別に設計されたタンパク質のナノポアを通過します。次に、機械学習アルゴリズムが内部に保存されている情報をデコードします。はい、この問題ではAIなしでは実行できません。エンコードと復号化のプロセスは非常に複雑です。将来的には、技術が進歩するにつれて、物事ははるかに簡単になるでしょう。
今日、データをエンコードするために4つの基本的な核酸塩基のみを使用することを考慮すると、最大215PBのデータを1グラムのDNAに保存できます。 11塩基はこの密度を2倍にしますが、これは制限ではありません。
「私たちは11の核酸塩基の77の異なる組み合わせを試しました、そして私たちの方法はそれらのそれぞれを完全に区別することができました」と研究の共著者であるChaoPanは言いました。 「さまざまなヌクレオチドを識別するために私たちの方法で使用される深層学習メカニズムは用途が広く、他の多くのアプリケーションに私たちのアプローチを拡張することができます。」
2022-03-05 10:20:41
著者: Vitalii Babkin