Supercomputers, Genome Sequencing, and the Race to Decode Coronavirus

En una sola gota de líquido respiratorio hay miles de millones de partículas de coronavirus. Cada una de esas partículas, muchas con mínimas variaciones, contiene unas 30.000 bases de ADN. Esa abrumadora densidad biológica está enterrada en el genoma viral, que define cada aspecto del virus, desde su virulencia hasta su transmisibilidad. Los investigadores de China y de todo el mundo ya secuenciaron algunos genomas del COVID-19, con lo que proporcionaron a los médicos clínicos y científicos una base fundamental para empezar a combatirlo.

Pero el mapeo de los genomas entre los coronavirus en circulación es sólo el comienzo. La secuenciación de los genomas de las personas infectadas es exponencialmente más difícil, e igualmente importante para entender esta pandemia. Como el virus, las preguntas se multiplican: ¿Por qué este virus es más contagioso que otros? ¿Qué mecanismos producen neumonía y la consecuente hospitalización en algunos y en otros una leve tos? ¿Cómo reaccionará cada paciente a distintos tratamientos o vacunas? Las respuestas están escritas en algún lugar de la interacción entre el genoma de una persona y las cepas virales que la infectan. Una vez mapeadas, esa interacción impulsada por el ADN señala el camino hacia los diagnósticos, las vacunas y las inmunoterapias.

Los investigadores de BGI Genomics—que también desarrollaron los primeros equipos de pruebas diagnósticas para la enfermedad—y otros en todo el mundo participan en el meticuloso proceso del análisis genómico a escala poblacional para el COVID-19. Para desarrollar una vacuna efectiva u otras medidas de protección, los científicos necesitan enormes conjuntos de datos para localizar las diferencias genéticas que podrían resultar protectoras. Trabajar a esa escala genera de terabytes a petabytes de datos, demasiados para procesarlos sin un análisis a gran escala apoyado por la computación de alto rendimiento (HPC).

La velocidad de la secuenciación del genoma ha aumentado considerablemente con la rápida aceleración de la potencia computacional. Un proceso que que inicialmente se extendía por más de una década y que costaba miles de millones para un solo genoma ahora puede llevarse a cabo en cuestión de horas en clústeres de supercomputadoras que funcionan con una arquitectura de hardware totalmente optimizada. Si bien los investigadores insisten en que el camino hacia una vacuna es probablemente muy largo, un conjunto de herramientas sin precedentes puede acelerar los plazos.

“BGI Genomics ha secuenciado cientos de muestras clínicas para analizar y distinguir las complicaciones de la infección”, afirmó Xiangqian Jin, CIO de BGI Genomics. “Tener acceso a las últimas tecnologías de análisis genómico y computación de alto rendimiento son factores importantes para mejorar la eficiencia de los análisis”.

BGI researcher on the T7 sequencer — BGI Genomics researcher working on the T7 sequencer

Para respaldar los esfuerzos de BGI y capacitar a los investigadores que lideran la batalla contra el coronavirus, Intel y Lenovo se asociaron para donar un clúster dedicado de supercomputadoras, así como los conocimientos especializados de software y hardware para maximizar su uso.

“Nos honra contribuir a los esfuerzos críticos de los investigadores en genómica y los proveedores de atención médica en la primera línea de la lucha contra el nuevo coronavirus”, señaló la Dra. Mileidy Giraldo, Directora Global de Investigación y Desarrollo en Genómica de Lenovo”. Durante años la Dra. Giraldo se desempeñó como científica en bioinformática en el NIH (Instituto Nacional de Salud), donde colaboró en el diseño de vacunas para enfermedades infecciosas, y en la actualidad ayuda a tender puentes entre los científicos y los ingenieros que desarrollan hardware y software para las ciencias biológicas. “Donamos equipos y conocimientos especializados, pero el verdadero avance, la verdadera contribución vendrá de lo que los investigadores de BGI logren y de lo que el resto de la comunidad biomédica a su vez aprenda y desarrolle en base a los hallazgos de BGI”.

Traducir el “libro” del genoma

Imagina si el genoma de cada ser humano en la tierra pudiera ser representado por su propio libro de mil páginas. Este extraño libro sólo usaría cuatro letras: AGCT. El limitado alfabeto, que significa los pares de bases de ADN, proporciona las instrucciones para cada una de las características que te hacen ser quien eres: color de pelo, altura e incluso susceptibilidad a una enfermedad como el COVID-19. La mayoría de esas instrucciones son idénticas de persona a persona, pero las variaciones más importantes están ocultas en un puñado de páginas.

Para entender cómo se manifestará en una persona determinada una característica como la susceptibilidad a la infección, los investigadores deben identificar las páginas precisas (es decir, los genes) que dan las instrucciones pertinentes. Esto sólo puede hacerse si se comparan esas páginas entre el mayor número posible de pacientes, identificando las características compartidas más útiles, y luego se aprovechan los datos que vinculan esas variaciones con la susceptibilidad o la resistencia a la infección.

Esta tarea tremendamente difícil de traducción e interpretación genómica se encuentra en el centro de la batalla de los científicos contra el nuevo coronavirus. La decodificación de la compleja interacción entre los correspondientes productos genéticos humanos y el coronavirus puede revelar formas de inhibir o detener completamente el proceso. Los científicos también buscarán páginas comunes en el propio libro del coronavirus, regiones del genoma donde el virus no puede tolerar mutaciones o variaciones Esas regiones apuntan a debilidades susceptibles de ser explotadas, una especie de talón de Aquiles que podría abrir el virus a una vacuna o tratamiento efectivo.

Diseño de una vacuna efectiva

Hay un poco de verdad en las películas sobre epidemias en las que los científicos buscan desesperadamente una persona inmune a la enfermedad. Las inmunidades naturales pueden, de hecho, proporcionar conocimientos clave para diseñar una vacuna efectiva.

“Lo que falta en esas películas es una escala de tiempo realista”, señaló la Dra. Giraldo. “Lo que las películas no muestran es todo el trabajo genómico, durante meses o años, que se necesita para comparar grandes conjuntos de datos entre pacientes para crear una vacuna experimental Entonces, las películas ignoran el tiempo dedicado a ensayos clínicos, probando muchas modificaciones a una vacuna hasta que encontramos una de alta eficacia y bajo riesgo”.

coronavirus structure rendered in 3D — A rendering of the coronavirus revealing the ring of crown-like that inspired the virus name (corona means “crown” in Latin)

Piensa en las reacciones al virus de dos pacientes: uno desarrolla una neumonía mortal y el otro sólo tiene una tos pasajera. ¿Qué diferencias subyacentes explican esta disparidad? ¿Un sistema inmunológico debilitado? ¿Una predisposición genética? ¿Exposición anterior a una enfermedad diferente? ¿La edad? ¿El sexo? ¿La alimentación? ¿El predominio de una cepa del virus? Responder a esas preguntas para sólo dos pacientes ya es un desafío: aplicado a miles, la complejidad aumenta vertiginosamente.

Pero sólo una enorme cantidad de datos puede comenzar a tamizar las incontables variaciones tanto de los genes como de las influencias ambientales. Cuantos más datos clínicos y genómicos tengan los científicos, mejor podrán aislar las características compartidas clave entre pacientes.

El estudio genómico a nivel poblacional proporciona un camino compuesto de miles de millones de datos. Con el nuevo coronavirus, los científicos esperan comparar el ADN de decenas de miles de pacientes diagnosticados. Es un desafío computacional abrumador, que requiere la potencia de procesamiento y la capacidad de almacenamiento de datos que sólo están disponibles dentro de un entorno HPC.

Optimizar la combinación de HPC

¿Recuerdas el libro del genoma? ¿El que se necesitó una década entera para leerlo la primera vez? Los investigadores en genómica en todo el mundo generalmente analizan un genoma entero en unas 150 horas, un avance fantástico, sin duda, pero aún así insuficiente para la velocidad exigida por la pandemia COVID-19. Incluso aislar y secuenciar los bits que codifican las proteínas y propagan los virus, unas cuantas páginas llamadas exomas, suele llevar al menos 4 horas.

Ahora, los investigadores de BGI pueden acceder a clústeres de HPC optimizados para ensamblar y analizar cientos de genomas enteros y miles de exomas.

“Con esta donación, esperamos incrementar los recursos que los investigadores de BGI ya tienen a su disposición para que la comunidad biomédica pueda hacer más y hacerlo más rápido”, explicó la Dra. Giraldo. “No se me ocurre un mejor ejemplo del uso de la tecnología para hacer frente a los mayores desafíos de la humanidad que uno en el que un equipo multidisciplinario de científicos, médicos clínicos e ingenieros se ha reunido para utilizar su capacidad intelectual combinada con el objetivo de combatir la pandemia mundial del coronavirus”.

Sobre la base de una potente solución desarrollada inicialmente por Intel, Lenovo diseñó una arquitectura optimizada de hardware y sistemas para reducir radicalmente los tiempos de procesamiento del genoma. La solución de Lenovo para la genómica a nivel poblacional—la Herramienta de Optimización y Escalabilidad Genómica (GOAST), se basa en el software de código abierto denominado Kit de Herramientas para el Análisis del Genoma (GATK) del Instituto Broad en una combinación de hardware optimizada. Identificar las optimizaciones correctas y los componentes de hardware para acelerar la genómica requirió probar cientos de configuraciones de HPC.

“El proceso de un año de duración se centró completamente en las necesidades reales de los científicos”, señaló Giraldo. “El tiempo de los investigadores se aprovecha mejor si se centran en la ciencia, no en el hardware subyacente. De modo que realizamos una prueba de permutación sistemática de todos los componentes de hardware disponibles para encontrar la combinación correcta de hardware que redujo el tiempo de ejecución. Nuestras pruebas utilizaron el mismo software que los investigadores en el laboratorio para que esta herramienta esté disponible inmediatamente”.

¿Los resultados? Un genoma humano completo secuenciado en cinco horas y media, y exomas en apenas cuatro minutos hasta una velocidad 40 veces mayor. Con la ayuda de un clúster dedicado de supercomputación, los investigadores de BGI pronto se pondrán a trabajar intensamente con la GOAST para estudiar el COVID-19 en el largo camino hacia una vacuna.

En el corto plazo, predecir la virulencia sobre la base de las cepas dominantes de un paciente también puede ayudar a los hospitales a realizar el proceso de triaje de pacientes de manera más efectiva, al saber quiénes están en mayor riesgo en cuanto llegan a una clínica y qué terapias pueden ser efectivas. A largo plazo, incluso más allá de una vacuna, el genoma del COVID-19 contiene indicios de su origen. Conocer su historia genómica y su punto de origen puede ayudar a predecir y prevenir futuros brotes.

En definitiva, un rompecabezas de alto riesgo y asombrosamente complejo de resolver.

“El equipamiento y la tecnología permitirán la rápida identificación de las personas infectadas por el COVID-19 y acelerarán el estudio de las características del genoma del virus, lo que será de gran ayuda para el diagnóstico preciso, el tratamiento y la prevención de epidemias del COVID-19”, afirmó Jin.

Supercomputadoras, secuenciación del genoma y la carrera para decodificar el coronavirus

Traducir el “libro” del genoma

Diseño de una vacuna efectiva

Lenovo powers Lenovo