sabato 24 agosto 2013

il DNA come codice per archivi

Gentilissimi,
che il DNA sia un codice, oramai è dato per scontato. Che sia possibile utilizzarlo come modalità di archivio, ad esempio di files, libri o altro, sino ad ora, sembrava fantascienza. A tal proposito Vi lascio una citazione dal libro "L'oceano del tempo", il cui titolo originale è "The Ocean of the years", di Roger MacBride Allen.
Il volume è stato pubblicato, qualche anno fa, nella collana Urania Oro, n° 22:
"Ma il problema sarebbe stato come estrarre l'informazione di nuovo."
"[...] perché probabilmente qualche sorta di informazione non sarebbe stata nemmeno percepita come tale. In un antico volume, per esempio, la composizione della carta poteva dire qualcosa sulla storia del libro. La tecnica di rilegatura usata, lo stile tipografico adottato, la composizione dell'inchiostro tutto parlava di com'era fatto il libro, o di chi l'aveva fatto [...] Perfino la sporcizia sulle pagine, perché in differenti epoche c'erano diversi tipi di sporco [...] Non era infrequente notare impronte digitali, e quindi identificare lo studioso che aveva consultato l'opera"

Questa non è una petizione CONTRO i formati digitali, ma una opinione sulla bellezza della COMPRESENZA delle diverse tipologie di formati. Non credo che alcun computer o e-book abbiano, o avranno, la possibilità di rendere, concretamente, l'idea del profumo delle pagine di un libro, nuovo o usato che sia. Del resto, in questi anni, ritornano gli appassionati, per altri media, del vinile, con numerosi esempi di adulti e giovani alla ricerca di LP, possibilmente originali.

Ed ecco l'articolo, tratto dalla newsletter Scienzainrete, e parzialmente modificato in leggibilità. Buona lettura! NR

ARTICOLO SCIENZAINRETE: GENETICA E INFORMATICA
L'abbiamo scritto nel DNA Tommaso Maccacaro Sc. dello spazio Istituto Nazionale di Astrofisica
È piccolo, molto piccolo. È una striscia fatta di pezzetti larghi 2,5 nanometri e lunghi 0,3, che si dispiega nelle tre dimensioni avvolgendosi a elica. Ha una struttura che si presta, con grande semplicità, a una codifica binaria, quella a cui ci ha abituato l’era digitale, fatta di computer e di informazione scritta, con lunghe sequenze di 1 e di 0. È anche molto leggero e resistente: rimane sostanzialmente inalterato per millenni. Potrebbe diventare il miglior mezzo per risolvere il problema dell’archiviazione dell’enorme quantità d’informazione quotidianamente prodotta nel mondo: libri, immagini, filmati, per non parlare della miriade di dati prodotti nei piccoli e grandi laboratori sparsi per il pianeta, o acquisiti dai telescopi a terra e nello spazio. Ci sta tutto. Perché l’informazione vi potrebbe essere immagazzinata con densità enormemente superiore a quella raggiungibile nei media usati oggi per questo scopo. È l’acido desossiribonucleico, il DNA, il materiale biologico che contiene le informazioni genetiche ereditarie che sono alla base dello sviluppo e della struttura degli organismi viventi. La prima volta che ho sentito parlare di DNA è stato nel 1962, a tavola. Mio padre (un ricercatore medico che, nella prima fase della sua attività scientifica, si occupava di genetica e microbiologia) commentò l’assegnazione del premio Nobel di quell’anno per la medicina a Watson, Crick e Wilkins, per la loro scoperta della struttura molecolare del DNA, avvenuta circa dieci anni prima, e mi spiegò cos’avevano trovato. Ricordo della struttura a doppia elica, formata da una sequenza di quattro basi (adenina, citosina, guanina e timina), che si associano a due a due, come a formare i pioli di una lunga scala attorcigliata, e che si ripetono in un ordine da cui dipende la natura e il funzionamento degli esseri viventi. L’ordine con cui si alternano queste basi codifica infatti l’informazione genetica di ogni organismo vivente conosciuto, nonché le istruzioni per il loro sviluppo. L’informazione genetica è duplicata prima della divisione cellulare, attraverso il processo di replicazione del DNA, che evita la perdita di informazione nel passaggio tra diverse generazioni cellulari. Poi, per molto tempo, di DNA non ho più avuto modo di sentir parlare, se si eccettuano le lezioni di biologia al liceo e qualche articolo di divulgazione scientifica, fino a quando, negli anni ’80 del secolo scorso, fu inventata una tecnica per analizzarlo e sequenziarlo. Poiché vi sono alcuni tratti del DNA che sono unici per ogni individuo, ci si rese conto che poteva essere utilizzato come “impronta genetica” ed esplose quindi il suo utilizzo in medicina forense. La “prova del DNA” diventò rapidamente un’espressione famigliare cui i media davano frequente risalto. Ancor più risalto glielo diede il progetto di sequenziamento del genoma umano, iniziato nel 1990, e la “genomania” che ne derivò negli anni successivi, quando, sui media, leggevamo di come ogni aspetto del nostro carattere potesse essere, in qualche modo, connesso a qualcuna di quelle particolari porzioni del DNA, i geni, che venivano man mano mappati. La realtà si è poi mostrata molto più complessa. Quando, nel 2003, il progetto Genoma Umano fu dichiarato concluso, i geni identificati risultarono in numero molto inferiore (circa 23.000) rispetto a quanto ci si aspettava, e si calcolò che essi costituivano solo qualche percento del DNA di una cellula. Sorprese il fatto che fossero di poco superiori, in numero, a quelli che caratterizzano forme di vita molto più semplici, come per esempio il moscerino della frutta o un verme. Diventava dunque difficile spiegare, sulla sola base del numero di geni, la complessità dell’organismo umano rispetto ad altre forme di vita ben più semplici. Solo recentemente si è rivalutato il ruolo del restante 95% e più del DNA, che era stato, frettolosamente, classificato come “DNA spazzatura”, semplicemente perché non se ne era capita la funzione, e si è rivolta l’attenzione non tanto al numero di geni ma a come questi vengono attivati e disattivati e, più in generale, a come interagiscono. Tutto questo ora lo sappiamo, e c’è ancora moltissimo da imparare “leggendo” quanto codificato nel DNA. Ma il DNA lo si può anche “scrivere”, e scrivendolo in maniera opportuna vi si può registrare l’informazione. Immaginiamo di far corrispondere ad adenina e citosina uno “0” e a guanina e timina un “1”. Poi mettiamo in fila le basi, alternandole secondo il codice che intendiamo registrare. Formeremo un pezzetto di DNA sintetico che, una volta letto, ci restituirà l’informazione codificata. È quello che hanno fatto ChurchGao e Kosuri, (Science, 2012, v. 337, n. 6102, p. 1628) che, con un metodo ingegnoso, hanno scritto un intero libro di 53.000 parole, corredato da 11 figure, dimostrando la fattibilità di registrare nel DNA grandi quantità d’informazione (5 megabit nel loro caso, quasi un fattore mille volte meglio del meglio fatto precedentemente da altri ricercatori). Per rendere il processo di scrittura pratico ed evitare di produrre sequenze eccessivamente lunghe, Church e collaboratori hanno scritto (con ragionevole ridondanza) una moltitudine di brevi sequenze, registrando su ognuna anche la posizione che questa doveva avere per poter poi permettere la ricostruzione ordinata del libro. Un po’ come dire che del libro venivano scritte separatamente tutte le righe e che, all’inizio di ogni riga, veniva scritto il suo numero d’ordine, così da poterle facilmente disporre dalla prima all’ultima quando sarebbe venuto il momento di ricomporre l’intero testo. I numeri che Church, Gao e Kosuri presentano per mostrare come il DNA abbia le caratteristiche per diventare il mezzo privilegiato per l’archiviazione dei dati del futuro, sono impressionanti. La densità teorica d’informazione che un grammo di DNA può arrivare a contenere è di 455 exabyte. Un exabyte equivale a un milione di terabyte, la capacità dei dischi medio-grandi attualmente installati nei personal computer, equivalente al contenuto di oltre 200 DVD completamente scritti. Anche rimanendo alcuni ordini di grandezza al di sotto di questo valore massimo, avremmo un mezzo che, per quanto riguarda la densità di informazione, non avrebbe rivali. Se vogliamo esprimere la densità in termini di byte per unità di volume fisico, i dischi rigidi e le memorie flash attualmente in commercio sono circa un milione di volte meno efficienti, anche perché, in questi casi, la scrittura dei dati è limitata alla superficie, mentre con il DNA si sfrutta il volume. Il DNA inoltre è estremamente stabile (leggiamo quello di organismi vissuti migliaia di anni fa, che risulta integro e ben conservato) e la sua struttura biologica (è così da milioni di anni) fa sì che le modalità di lettura e scrittura rimarranno costanti e disponibili nel futuro. Perché allora questa tecnica non ha ancora preso piede? Perché oggi è lenta e costosa. Church e i suoi collaboratori hanno impiegato diversi giorni per scrivere il loro libro sotto forma di DNA sintetico e le apparecchiature necessarie sono care e ingombranti. Church nota esplicitamente come il costo dei processi di sintesi e del sequenziamento del DNA stiano diminuendo molto velocemente, il primo di un fattore 5 all’anno, il secondo addirittura di un fattore 12, mentre i costi relativi ai processi di archiviazione magnetica calino solo di un fattore 1,6 all’anno. Il DNA ha ancora tanto da insegnare a genetisti e biologi, e conserva ancora molti segreti riguardo al suo ruolo e alle sue funzioni. Il suo studio è estremamente importante e sta portando a sviluppare nuove metodologie di sequenziamento, sempre più veloci, efficienti ed economiche. Church fa anche notare che stanno comparendo sul mercato i primi apparecchi palmari per il sequenziamento. È ragionevole prevedere che l’utilizzo del DNA come memoria di massa possa incentivare e velocizzare ulteriormente questi processi di miniaturizzazione e riduzione dei costi. Abbiamo già assistito a un fenomeno simile con il laser. Negli anni ’60 del secolo scorso i laser avevano dimensioni, complessità e costi tali da poter essere utilizzati solo nei laboratori di ricerca. Oggi, ma oramai da molti anni, un laser costa pochi centesimi e trova posto in una penna, che possiamo usare come puntatore durante le conferenze, o in un minuscolo lettore di DVD, che decodifica un film e ce lo fa guardare mentre siamo in viaggio. Il Large SynopticSurveyTelescope (LSST) inizierà le osservazioni del cielo all’inizio della prossima decade. Ogni notte accumulerà qualcosa come 30 terabyte di dati, circa 10 petabyte all’anno. Il Large Hadron Collider (LHC), nei periodi di funzionamento tra gennaio 2010 e dicembre 2012 ha già accumulato 60 petabyte di dati utili. Tra una decina d’anni entrerà in funzione lo  Square Kilometer Array (SKA, v. “le Stelle” n. 64, pp. 34-39), il radiotelescopio più grande e potente mai costruito, composto da migliaia di antenne, per una superficie totale di circa un chilometro quadrato. Con un tasso previsto di produzione di dati dell’ordine del migliaio di petabyte al giornoSKA sarà anche il più gigantesco generatore di informazione scientifica che l’uomo dovrà gestire. Fa dunque una certa impressione pensare che un archivio off-line e perenne di tutti i dati che questi strumenti acquisiranno nella loro vita utile potrà essere memorizzato in pochi grammi di DNA. Una volta l’espressione: “ce l’ho scritto nel DNA” era un modo di dire comune per spiegare che una qualche nostra caratteristica è profondamente radicata in noi. Presto assumerà anche il suo significato letterale, che diventerà altrettanto comune.
Tratto da Le Stelle n° 118, maggio 2013
(30 luglio 2013)


Nessun commento:

Posta un commento