Diario de León

CIENCIA

Científicos logran archivar en ADN una película y un sistema operativo

La técnica basada en la biología puede almacenar cantidades de datos sin temor a la pérdida

Llegada del tren a la estación de La Ciotat, la primera película de la historia del cine.

Llegada del tren a la estación de La Ciotat, la primera película de la historia del cine.

Publicado por
EL PERIÓDICO / NUEVA YORK
León

Creado:

Actualizado:

Científicos de la Universidad de Columbia y el Centro del Genoma de Nueva York (NYGC) han descubierto una técnica que permite almacenar información a gran escala, dado que la Humanidad podría generar pronto más datos de los que los sistemas actuales de almacenamiento podrían admitir.

En su estudio, publicado en la revista 'Science', demuestran además que esta tecnología también es extremadamente confiable. El ADN es un medio de almacenamiento ideal porque es ultracompacto y puede durar cientos de miles de años si se mantiene en un lugar fresco y seco, como lo demuestra la recuperación reciente del ADN de los huesos de un antepasado humano de 430.000 años de antigüedad en el yacimiento de Atapuerca.

"El ADN no se degradará con el tiempo como cintas de casete y CDs, y no se volverá obsoleto, si lo hace, tenemos problemas mayores", dijo el coautor del estudio, Yaniv Erlich, un profesor de ciencias de la computación en Columbia Engineering, Data Science Institute, y miembro principal del NYGC.

LA PRIMERA PELÍCULA DE LA HISTORIA DEL CINE

 

Erlich y su colega Dina Zielinski, científica asociada de la NYGC, escogieron seis archivos para codificar o escribir en el ADN: un sistema operativo de ordenador completo, la primera película de la historia del cine, "Llegada de un tren en La Ciotat", de los hermanos Lumiére; un cheque regalo de 50 dólares de Amazon, un virus informático, una placa de Pioneer y un estudio de 1948 del teórico de la información Claude Shannon. Una cápsula del tiempo de la información digital.

Se comprimieron los archivos en un archivo maestro, y luego se dividieron los datos en cadenas cortas de código binario compuesto de unos y ceros. Usando un algoritmo de corrección de borrado llamado código fuente, empaquetaron aleatoriamente las cuerdas en las llamadas gotas, y mapearon los unos y los ceros en cada gotita a las cuatro bases nucleotídicas en el ADN: A, G, C y T. El algoritmo suprimió combinaciones de letras conocidas por crear errores, y agregó un código de barras a cada gotita para ayudar a volver a montar los archivos más tarde.

En total, generaron una lista digital de 72.000 hebras de ADN, cada una con 200 bases de largo, y la enviaron en un archivo de texto a una empresa tecnológica dedicada a la síntesis de ADN de San Francisco, Twist Bioscience, que se especializa en convertir datos digitales en datos biológicos. Dos semanas más tarde, recibieron un vial conteniendo una mota de moléculas de ADN.

COPIAS ILIMITADAS

Para recuperar sus archivos, utilizaron la tecnología de secuenciación moderna para leer las cadenas de ADN, seguido de software para traducir el código genético en binario. Recuperaron sus archivos con cero errores, informa el estudio.

También demostraron que un número virtualmente ilimitado de copias de los archivos podría crearse con su técnica de codificación multiplicando su muestra de ADN a través de la reacción en cadena de la polimerasa (PCR), y que esas copias e incluso copias de sus copias, etc. se recuperan sin errores.

Finalmente, los investigadores demuestran que su estrategia de codificación contiene 215 petabytes de datos sobre un solo gramo de ADN, 100 veces más que los métodos publicados por los investigadores pioneros George Church en Harvard y Nick Goldman y Ewan Birney en el European Bioinformatics Institute. "Creemos que este es el dispositivo de almacenamiento de datos de mayor densidad jamás creado", dijo Erlich.

PROCESO AÚN CARO

La capacidad de almacenamiento de datos de ADN está teóricamente limitada a dos dígitos binarios para cada nucleótido, pero las restricciones biológicas del propio ADN y la necesidad de incluir información redundante para volver a montar y leer los fragmentos más tarde reduce su capacidad a 1,8 dígitos binarios por base de nucleótidos.

La idea del equipo era aplicar los códigos de fuentes, una técnica que Erlich recordó de la escuela de posgrado, para hacer el proceso de lectura y escritura más eficiente. Con su técnica de fuente de ADN, Erlich y Zielinski empaquetaron un promedio de 1,6 bits en cada nucleótido de base. Eso es por lo menos 60% más datos que los métodos publicados anteriormente, y cerca del límite de 1.8-bit.

El coste sigue siendo una barrera. Los investigadores gastaron 7.000 dólares para sintetizar el ADN que usaron para archivar sus 2 megabytes de datos, y otros 2.000 dólares para leerlo.

Pero el precio de la síntesis de ADN puede ser enormemente reducido si se producen moléculas de menor calidad, y las estrategias de codificación como la fuente de ADN se utilizan para corregir los errores moleculares, dice Erlich. "Podemos hacer más trabajo pesado en la computadora para eliminar la carga de la codificación molecular de uso intensivo de tiempo", dijo. 

tracking