L’intersezione tra l’Informatica e le Scienze della Vita - che costituisce il campo di elezione per le attività del laboratorio - è un’area scientifica estremamente variegata, nella quale le problematiche in gioco devono necessariamente essere affrontate identificando la combinazione di metodi informatici che meglio si presta a rispondere ai quesiti scientifici che si trovano di fronte i ricercatori operanti in tale settore.
E’ importante ribadire che in questo settore i metodi informatici non possono assolutamente essere considerati in modo indipendente dagli specifici quesiti scientifici affrontati, pena la perdita di rilevanza per le Scienze della Vita dei metodi considerati.
Pertanto, nel descrivere i temi di ricerca di interesse del laboratorio, proprio per la forte interdipendenza tra aspetti metodologici e quelli applicativi, si è scelto un approccio basato su due coordinate dimensionali, presentate separatamente per comodità espositiva, ma necessariamente intrecciate nella pratica della ricerca. La prima - che chiamiamo metodologica - è legata alla natura delle metodologie usate per affrontare i problemi scientifici, mentre la seconda - che chiamiamo applicativa - classifica la tipologia dei problemi affrontati.
La dimensione metodologica prevede le seguenti etichette di classificazione:
- Formalismi --- Formalismi e simulazione computazionale qui rientrano gli approcci che enfatizzano gli aspetti “semantici” e ne studiano le relative proprietà di completezza/consistenza e potere espressivo
- Algoritmi --- Metodi algoritmici, statistici, combinatorici, analitici questi sono gli approcci con l’enfasi sulle “procedure computazionali” con le relative considerazioni di complessità ed efficienza
- Data-Mining --- Data Mining, Machine Learning e Deep Learning questi sono gli approcci in cui l’enfasi è sulla capacità di estrarre da grandi quantità di dati conoscenza significativa per il dominio applicativo
- Infrastrutture --- Infrastrutture, strumenti, architetture e servizi per la bioinformatica, finalizzati ad assicurare analisi riproducibili e dati equi e accessibili (FAIR): qui rientrano gli approcci che pongono l’enfasi sulla realizzazione di “sistemi” che forniscono “servizi”, interpretando sia “sistemi” che “servizi” in senso lato
- Sistemi - Sistemi complessi e proprietà emergenti in questa categoria vi sono gli approcci che enfatizzano lo “sguardo di sistema” e l’integrazione di più metodi nello studio del problema in esame, tipo quelli usati nella Systems Biology.
La dimensione applicativa prevede le seguenti etichette di classificazione:
- Sequenze --- Analisi di sequenze (analisi e assemblaggio di genomi) qui rientrano i metodi e gli algoritmi di sequenziamento genomico, le analisi di similarità, la valutazione di distanze filogenetiche, l'identificazione di elementi funzionali (zone codificanti e regolative, fattori di trascrizione), la struttura e le le corrispondenze tra geni, fino ai metodi volti a identificare chiavi interpretative sulla struttura e funzione di componenti genomiche.
- Popolazioni --- Dinamica di popolazioni cellulari e non qui rientrano i temi di definizione e simulazione di modelli computazionali centrati sull'interazione di popolazioni di entità biologiche soggette a specifici vincoli e meccanismi di comunicazione/reazione (dalla classica dinamica di popolazioni di specie soggette alle leggi di selezione naturale, alle popolazioni cellulari cellule in tessuti patologici, ai meccanismi di configurazioni spaziali e funzionali nei processi di morfogenesi e differenziamento cellulare, fino allo studio di popolazioni batteriche soggette a stimoli che inducono opportune strategie di crescita e proliferazione).
- Predizione --- Predizione di struttura e funzioni a livello molecolare qui rientrano temi classici di analisi dei polimeri biologici, informazionali e conformazioni (strutture secondarie/ terziarie/quaternarie di proteine; annotazione funzionale di proteine; interazioni molecolari a livello di legami atomici; predizione delle strutture secondarie DNA ed RNA) a vari livelli funzionali (codifica, regolazione, promozione, inibizione, trascrizione, traduzione, espressione, epigenesi), nonché predizione di annotazioni semantiche funzionali e non (es. pathways, processi biologici, funzioni molecolari, e di associazione con patologie geniche) di geni e prodotti proteici.
- Reti --- Reti di regolazione, di interazione e metaboliche qui rientrano le reti di interazione (ad es. Protein-Protein Interaction), di regolazione (ad es. Gene Regulatory Networks), di reti metaboliche, e in generale di tutti quei fenomeni biologici complessi in cui le interazioni tra le componenti del sistema può essere descritta dal concetto di rete.
- Dati-Clinici --- Dati clinici e dati biomedici (dati testuali e multimediali) qui rientrano dati biochimici (microarray, RNA-seq e sue varianti, etc...), immagini biomediche da microscopio o ottenute da esami clinici (RX, MRI, etc…), dati clinici e biologici da sensori e strumenti (ECG, naso elettronico, ECO, etc…), dati sanitari e bio-medicali multi-dominio, dati in tempo reale (streaming data).
In ognuno dei campi individuati da tali etichette applicative si pone, in varia misura, il problema della validazione delle soluzioni individuate. A questo scopo è necessario creare, in stretta collaborazione con partner biologici e medici, benchmark che possano testare e verificare, oltre alle complessità di tempo e di spazio, l’affidabilità dei risultati ottenuti e le loro ricadute.
C’è una forte consapevolezza che diversi problemi del settore vengono affrontati con tecniche che possono essere classificate sia dal punto di vista metodologico che da quello applicativo con più di un’etichetta. Il coordinamento di un laboratorio che ha un’ambizione scientifica così elevata e coinvolge il gran numero di nodi elencati successivamente non può però prescindere da un approccio classificatorio di questa natura.