Über Milliarden von Jahren der Evolution des biologischen Lebens auf der Erde wurde in lebenden Organismen ein Aufzeichnungsmechanismus entwickelt, um genetische Informationen von einer Generation zur nächsten zu übertragen. Dies ist die Bildung von DNA-Strängen in Form von abwechselnden Kombinationspaaren von vier stickstoffhaltigen Basen: Adenin (A), Guanin (G), Cytosin (C) und Thymin (T). Vier Codierungseinheiten sind besser als zwei (0 und 1), aber das ist nicht die Grenze, sagten die Wissenschaftler und synthetisierten sieben weitere organische Verbindungen.
Die Erweiterung des „Alphabets“ zur Kodierung von Daten in DNA von 4 auf 11 Zeichen wird die bereits unglaubliche Kapazität solcher Informationsspeichermethoden mindestens verdoppeln. Dieser Ansatz wird übrigens auch die Geschwindigkeit der Datenerfassung in der DNA-Sequenz erhöhen, was heute als ernsthafte Bremse für die Arbeit in dieser Richtung gilt. Es ist auch notwendig zu verstehen, dass aktuelle DNA-Sequenzierungsmethoden nicht in der Lage sein werden, synthetisierte stickstoffhaltige Basen nachzuweisen. Ihre Lektüre erfordert neue Werkzeuge und Reaktionen. Aber das sind alles lösbare Probleme, sagen Forscher der University of Illinois at Urban-Champaign.
Um DNA zu entschlüsseln, passiert der DNA-Strang eine Nanopore in einem speziell entwickelten Protein, das einzelne stickstoffhaltige Basen erkennen kann, unabhängig davon, ob sie natürlich oder synthetisch sind. Algorithmen für maschinelles Lernen entschlüsseln dann die darin gespeicherten Informationen. Ja, auf KI kann man in dieser Angelegenheit nicht verzichten, so komplex sind die Prozesse des Ver- und Entschlüsselns. In Zukunft werden die Dinge mit fortschreitender Technologie viel einfacher sein.
Unter Berücksichtigung der Verwendung von nur vier stickstoffhaltigen Grundbasen zur Codierung von Daten können heute bis zu 215 PB an Daten in einem Gramm DNA gespeichert werden. Elf Basen verdoppeln diese Dichte, und das ist nicht die Grenze.
„Wir haben 77 verschiedene Kombinationen von 11 stickstoffhaltigen Basen ausprobiert, und unsere Methode war in der Lage, jede von ihnen perfekt zu unterscheiden“, sagte Chao Pan, Co-Autor der Studie. „Der Deep-Learning-Mechanismus, der in unserer Methode zur Identifizierung verschiedener Nukleotide verwendet wird, ist vielseitig, was es uns ermöglicht, unseren Ansatz auf viele andere Anwendungen auszudehnen.“
2022-03-05 10:20:41
Autor: Vitalii Babkin