Il genoma raccontato da Encode porta la scienza fino all'iPad

In un bel libro pubblicato quest’anno da Einaudi, “Le nuove vie della scoperta scientifica” (il libro è meglio del titolo italiano, traduzione un po’ legnosa di “Reinventing Discovery“), Michael Nielsen ci racconta che il futuro della scienza passerà per la capacità di sfruttare l’intelligenza collettiva. Un bel modo per mandare una volta per tutte in soffitta (se ce n’era bisogno) lo stereotipo dello scienziato geniale e solitario che lavora chiuso nella sua stanza fino al momento del fatidico Eureka. Fare ricerca oggi, ci ricorda Nielsen, vuol dire soprattutto raccogliere e maneggiare enormi quantità di dati, tanto che nessun singolo ricercatore potrebbe mai analizzarli per arrivare da solo a una scoperta.

Per fare nuovi salti in avanti nella nostra conoscenza del mondo, dovremo imparare a indirizzare e gestire il lavoro di centinaia, spesso migliaia di persone (ricercatori e qualche volta anche semplici dilettanti), in modo che ognuno si prenda in carico un pezzetto del problema e che tutti assieme producano un risultato che è molto più della somma delle parti.

Per farlo però ci vogliono metodo, buoni software, regole ferree ma non troppo, e molta conoscenza della natura umana. Lo dimostra ENCODE, colossale progetto per catalogare la funzione di ogni singola porzione di DNA nelle diverse cellule del corpo umano, che la settimana scorsa ha presentato i suoi risultati. Sorprendenti ed epocali.

Mettiamola così: se il progetto genoma umano era un elenco un po’ alla rinfusa delle parole che compongono il patrimonio genetico umano, ora arrivano le definizioni. Non tutte, ma già una bella fetta. Il risultato, come hanno raccontato i quotidiani nei giorni scorsi, è una vera rivoluzione nel modo di pensare il genoma. Va in soffitta l’idea, accettata dalla fine degli anni ’90, che solo una piccola parte del patrimonio genetico sia significativa, e che il resto sia solo DNA “spazzatura”.

Almeno due terzi del genoma in realtà hanno una funzione e contengono le istruzioni, se non per una proteina (il “classico” prodotto di un gene) per decidere quali geni devono attivarsi e quali no in ogni momento della vita della cellula, o che quantità produrre di una certa proteina. Il genoma appare come un limitato (circa 20mila) repertorio di geni, accompagnato da un mastodontico apparato di circa quattro milioni di interruttori, che accendono e spengono quei geni a seconda delle esigenze.

Sull’importanza della scoperta per i biologi molecolari è stato già scritto molto, e molto di più seguirà nei mesi e negli anni. Questo potrebbe passare alla storia come il momento più importante della storia della genomica, eclissando persino l’iniziale sequenziamento del genoma nel corso degli anni ’90.

Ma ENCODE è interessante non solo per quello che dice del genoma, ma anche di cosa vuol dire fare scienza oggi. È un puro prodotto di intelligenza collettiva, aiutata dalla tecnologia e governata da sofisticati meccanismi istituzionali. Lo ha spiegato su Nature Ewan Birney, che per il consorzio ENCODE ha coordinato l’analisi dei dati.

In un articolo intitolato The Making of ENCODE (i risultati del progetto sono un “pacchetto” talmente grosso che arriva accompagnato da contenuti speciali e making of, come le serie televisive in DVD) Birney ha ricordato che dietro a quei risultati ci sono qualcosa come 1600 esperimenti diversi. Solo il paper principale (e in tutto gli articoli pubblicati dal consorzio sono 30) ha 450 autori provenienti da 30 istituti. Mandare avanti una macchina del genere senza farla deragliare pone problemi ben più grandi di quelli del normale esperimento, e Birney ha voluto raccontare come sono stati affrontati da ENCODE, e perché questo progetto ha raggiunto i suoi obiettivi meglio di altri simili che, invece, si sono impantanati.

Ne viene fuori una lezione di open science, di cui dovrà tenere conto chiunque in futuro si trovi a gestire grandi collaborazioni scientifiche basate sull’analisi di dati.

Tanto per cominciare, scrive Birney, l’era dei grandi progetti come ENCODE è solo all’inizio. Si potrebbe pensare che la democratizzazione dei dati portata dalle tecnologie informatiche faccia venire meno l’esigenza di grandi strutture organizzate per gestirli. Dopotutto, creare e archiviare un grande database di dati scientifici è ormai alla portata anche di piccole istituzioni, e il “costo per byte” di questi progetti continua ad abbassarsi. Ma in realtà, scrive Birney, i tentativi di integrare a posteriori piccole basi dati prodotte da soggetti diversi e ottenere qualcosa di sensato non hanno funzionato. Serve uno scheletro sistematico di dati pensato a priori, al cui interno tutti poi accettino di lavorare, e questo richiede la centralizzazione tipica dei grandi progetti.

Ma più della tecnologia conta l’organizzazione, che non deve farsi troppe illusioni sulla natura umana: un progetto di questo tipo non si regge sulla buona volontà ma su regole chiare, una linea di comando ben definita e trasparenza totale tra i gruppi di lavoro. I ricercatori sono abituati per lo più a lavorare per se stessi e per il proprio gruppo ristretto, producendo più in fretta possibile risultati originali per pubblicare, ottenere finanziamenti. In questo modo – si spera – fanno al tempo stesso quanto è meglio per la loro carriera e per la scienza in generale. In questo caso però, buona parte dei ricercatori coinvolti nel progetto dovevano solo produrre i migliori set di dati possibile, per consentire poi ad altri di analizzarli, produrre scoperte, firmare gli articoli e rispondere alle interviste sui giornali. La cosa era ancora più complicata perché molto spesso ricercatori che collaborano all’interno del consorzio sono poi in competizione l’uno con l’altro su altri progetti.

“ENCODE ha dimostrato che questo tipo di scienza funziona solo se tutti i partecipanti accettano lo stesso formato di dati, lo stesso codice di condotta e si comprano l’idea che il loro obiettivo sia di produrre dati di alta qualità da rendere accessibili e utilizzabili da tutti gli scienziati del mondo” scrive Birney. E non è banale.

Servono quindi regole precise e grande trasparenza all’interno del consorzio, per evitare le fazioni. Serve una grande varietà di specializzazioni e competenze all’interno del progetto, in modo che il progetto non resti vittima del group think e non si fossilizzi su scelte scientifiche e tecnologiche che potrebbero non essere le migliori. Ma quella varietà deve essere governata da una leadership forte, in mano a un gruppo ristretto di persone che tenga ferma la barra ed eviti che alcuni membri del consorzio spostino l’enfasi del progetto sulle loro aree di competenza a scapito dell’obiettivo finale. Eppure, scrive Birney, un progetto come questo dovrebbe avere una politica di porte aperte. Deve permettere anche a soggetti esterni al consorzio di utilizzare i dati, e accettate le analisi che arrivano dall’esterno con la stessa serietà con cui sarebbe considerato il lavoro dei membri ufficiali del consorzio.

Ultima cosa, i risultati di uno sforzo così grande (pagato, in grandissima parte, con fondi dei contribuenti di diversi paesi, USA ed Europa in testa) devono essere pubblici. È il caso di ENCODE, i cui risultati sono distribuiti in 30 diversi articoli pubblicati su diverse riviste (ma i principali sono su Nature del 6 settembre) ma tutti liberamente accessibili (se ve lo state chiedendo sì, c’è anche una app su iPad per navigarci dentro). Così chiunque, ovunque, abbia ora un’idea per farci qualcosa di più e di nuovo potrà farlo.