Memórias de DNA

02/07/2019

11:01

Estima-se que cerca de 90% dos dados digitais existentes atualmente foram gerados apenas nos últimos dois anos. Este aumento verdadeiramente esmagador do volume de informação acarretou consigo problemas de armazenamento.

A produção de informação digital aumentou de forma prodigiosa nos últimos anos, transformando o seu arquivamento numa questão premente. De facto, as melhores estimativas indicam que as tecnologias à base de silício serão incapazes de proporcionar, a breve trecho, uma capacidade de armazenamento equiparada ao volume de dados produzido. O armazenamento de informação na forma de moléculas de DNA constitui uma das alternativas atuais mais promissoras para este problema. Este conceito inovador, que conjuga as ferramentas da biotecnologia moderna com as tecnologias de informação, poderá a médio/longo prazo revolucionar a indústria digital, criando novas oportunidades de emprego e áreas de atividade.

Os nossos computadores processam informação recorrendo ao chamado código binário. Palavras e números são transformados em longas séries de uns (1) e zeros (0), que são depois lidas, manipuladas pelo computador e armazenadas em dispositivos à base de silício (e.g. memórias flash). A produção mundial deste tipo de informação, chamada “digital”, aumentou exponencialmente nos últimos anos, superando largamente a informação preservada com recurso a tecnologias analógicas (e.g. livros, filmes, cassetes áudio, etc.). Estima-se que cerca de 90% dos dados digitais existentes atualmente foram gerados apenas nos últimos dois anos. Este aumento verdadeiramente esmagador do volume de informação acarretou consigo problemas de armazenamento. A partir de 2010, a capacidade anual disponível para guardar informação passou a ser insuficiente face ao volume de dados produzidos. Acresce que o problema não pode ser resolvido aumentando simplesmente o número de memórias digitais, já que os analistas estimam que a quantidade de silício produzida em 2040 será insuficiente para cobrir a procura global [1]. Torna-se por isso urgente procurar tecnologias inovadoras que permitam armazenar quantidades crescentes de informação digital por longos períodos de tempo. É neste contexto que têm vindo a ser desenvolvidos sistemas de armazenamento de informação digital em DNA.

A informação genética na natureza encontra-se codificada em longas cadeia de DNA. Estas moléculas são construídas a partir de um conjunto de quatro moléculas mais pequenas – as bases A, T, G e C – que se sucedem com uma determinada sequência. Numa célula humana, estas cadeias de DNA organizam-se em 23 supra-estruturas, que denominamos cromossomas, que contêm cerca de 6 mil milhões de bases. Um cálculo aproximado permite estimar que a informação contida numa única grama de DNA (aproximadamente 1 cm3) corresponde à capacidade de armazenamento de cerca de 800 milhões de iPhones X! Esta capacidade de armazenar informação de forma tão densa é verdadeiramente espantosa e não tem paralelo na tecnologia atual.

A ideia de armazenar informação não genética em moléculas de DNA tem vindo a atrair os cientistas desde os anos 1990. A primeira etapa do processo passa por codificar a informação que se pretende armazenar, por exemplo um texto, na linguagem do DNA, i.e. numa sequência de bases A, T, G, C. Para o efeito poderíamos, por exemplo, codificar cada letra do alfabeto como uma combinação de três bases (e.g., AAA = A, AAC = B, etc.). De seguida é necessário “escrever” esta informação numa molécula real, sintetizando quimicamente cadeias de DNA que contenham as sequências correspondentes de bases. É assim possível obter, numa fração de mililitro de líquido, milhares de cópias de cadeias de DNA contendo a informação pretendida. Se armazenado corretamente, este material é virtualmente indestrutível. O processo inverso de “leitura” da informação envolve um método laboratorial, denominado sequenciação, que permite analisar as cadeias de DNA contidas no líquido e assim reconstituir a sequência de bases. Esta informação é finalmente descodificada e transformada no texto original. Progressos recentes incluem, por exemplo, a codificação de cerca de 200 megabytes de dados (música, vídeos, texto) na forma de mais de 13 milhões de cadeias de DNA [2].

Através de um processo de codificação e síntese é hoje possível guardar megabytes de dados em milhões de cadeias de DNA. Esta informação pode ser extraída do DNA por um processo inverso de sequenciação e descodificação. Apesar dos sucessos registados, várias barreiras deverão ser ultrapassadas até que o arquivamento de informação em DNA se torne uma realidade. Por exemplo, o processo é ainda moroso, em especial na etapa de síntese das cadeias de DNA, e os erros na escrita e leitura da informação são comuns. A sucessão de etapas de codificação-síntese-sequenciação-descodificação deverá também ser automatizada na totalidade de modo a remover a intervenção humana, que hoje é imprescindível. Finalmente, os custos atuais associados à síntese e sequenciação são proibitivos no panorama atual. Apesar destas limitações, os progressos nas tecnologias de suporte têm sido imensos, deixando antever que as memórias de DNA poderão tornar-se realidade num futuro próximo.

[1] Zhirnov, V., Zadegan, R.M., Sandhu, G.S., Church, G.M., Hughes, W.L. (2016) “Nucleic acid memory”. Nature Materials. 15: 366–370.

[2] Organick, L. (2019) “Random access in large-scale DNA data storage”. Nature Biotechnology. 36: 242–248.

Instituto Superior Técnico

miguelprazeres@tecnico.ulisboa.pt