지구상의 생물학적 생명체는 수십억 년에 걸쳐 진화하면서 한 세대에서 다음 세대로 유전 정보를 전달하기 위해 살아있는 유기체에서 기록 메커니즘이 개발되었습니다. 이것은 아데닌(A), 구아닌(G), 시토신(C) 및 티민(T)의 4가지 질소 염기 조합의 교대 쌍의 형태로 DNA 가닥이 형성되는 것입니다. 4개의 코딩 단위는 2개(0과 1)보다 낫지만 이것이 한계가 아니라고 과학자들은 말했고 7개의 유기 화합물을 더 합성했다.
DNA의 데이터를 인코딩하기 위한 "알파벳"을 4자에서 11자로 확장하면 그러한 정보 저장 방법의 이미 놀라운 용량이 적어도 두 배가 될 것입니다. 그런데 이 접근 방식은 DNA 시퀀스의 데이터 기록 속도를 증가시킬 것이며, 이는 오늘날 이 방향의 작업에 심각한 제동을 일으키는 것으로 간주됩니다. 또한 현재의 DNA 시퀀싱 방법으로는 합성된 질소 염기를 검출할 수 없다는 점을 이해해야 합니다. 그것들을 읽으려면 새로운 도구와 반응이 필요합니다. 그러나 이것들은 모두 해결할 수 있는 문제라고 일리노이 대학의 Urban-Champaign에 있는 연구원들은 말합니다.
DNA를 해독하기 위해 DNA 가닥은 천연이든 합성이든 개별 질소 염기를 감지할 수 있는 특별히 설계된 단백질의 나노포어를 통과합니다. 그런 다음 기계 학습 알고리즘은 내부에 저장된 정보를 디코딩합니다. 예, 이 문제에서 AI 없이는 할 수 없습니다. 인코딩 및 암호 해독 프로세스가 너무 복잡합니다. 미래에는 기술이 발전하면 일이 훨씬 쉬워질 것입니다.
오늘날에는 데이터를 암호화하는 데 4개의 기본 질소 염기만 사용한다는 점을 고려하면 1g의 DNA에 최대 215PB의 데이터를 저장할 수 있습니다. 11개의 염기는 이 밀도를 두 배로 늘리며 이것이 한계가 아닙니다.
이 연구의 공동 저자인 Chao Pan은 "우리는 11개의 질소 염기에 대해 77가지 다른 조합을 시도했고 우리의 방법은 각각을 완벽하게 구별할 수 있었습니다."라고 말했습니다. "다양한 뉴클레오타이드를 식별하기 위해 우리 방법에 사용된 딥 러닝 메커니즘은 다재다능하므로 접근 방식을 다른 많은 응용 프로그램으로 확장할 수 있습니다."
2022-03-05 10:20:41
작가: Vitalii Babkin