Google Cloud Healthcare supporta la ricerca genetica

23 Ottobre 2020

Google Cloud Healthcare & Life Sciences ha annunciato una collaborazione con il Broad Institute of MIT e Harvard per fornire accesso gratuito a uno dei set di dati genomici pubblici più completi al mondo, il Genome Aggregation Database (gnomAD) .

GnomAD riunisce i dati di numerosi progetti di sequenziamento su larga scala, inclusi studi genetici su popolazioni e malattie specifiche.
Con oltre 241 milioni di varianti genetiche umane corte uniche e 335.000 varianti strutturali osservate in più di 141.000 individui adulti sani in una vasta gamma di gruppi di ascendenza genetica, questo set di dati è una risorsa quasi onnipresente per la ricerca sulla genetica umana e l'interpretazione clinica delle varianti. Viene utilizzato nelle pipeline diagnostiche genetiche cliniche in tutto il mondo.

I dati di gnomAD sono ospitati in diversi formati per affrontare un'ampia gamma di casi d'uso biomedici e sanitari. Questi dati sono disponibili nelle tabelle hail-formatted e nei file Variant Call Format (VCF) in Google Cloud Storage.
Inoltre, i dati sono disponibili anche in BigQuery come parte del programma Public Datasets . Gli utenti ricevono 1 TB di elaborazione BigQuery gratuita ogni mese, che può essere utilizzata per eseguire query su questo set di dati pubblico. Gli utenti di Google Cloud possono accedere in modo sicuro a questi dati in uno qualsiasi di questi formati in tutte le regioni di Google Cloud attraverso le loro pipeline di bioinformatica su Google Cloud senza pagare costi di uscita.

Per rendere disponibile gnomAD in BigQuery, il team di Google Cloud ha utilizzato Variant Transforms per importare i file VCF. Una volta ingerite, le varianti sono state suddivise per dividere le tabelle di output in base al cromosoma. Inoltre, Google ha utilizzato il partizionamento dell'intervallo intero e il clustering per ridurre il costo delle query.
Questo lavoro consente ai ricercatori di esplorare gnomAD in modo rapido ed efficiente, senza dover richiedere o pagare risorse di cloud computing dedicate. Eseguendo query su una regione genomica mirata più piccola, i costi di query dovrebbero essere ridotti in modo significativo rispetto all'interrogazione dell'intero set di dati.
I dati nel bucket di Google Cloud Storage includono anche set di verità standard utilizzati per valutare e convalidare le chiamate di varianti, dati dai documenti del Broad Institute in Nature , elenchi di intervalli e altre risorse di annotazione.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche iscriviti alla newsletter gratuita.