Con ecuaciones matemáticas y algoritmos, unidos a la inteligencia artificial (IA), se construyeron modelos basados en machine learning, o aprendizaje de máquina, que muestran cómo una “representación HIT” extrae características y analiza mejor las secuencias genómicas, al clasificar de forma más precisa y rápida los virus de ARN, conocidos por su capacidad para desencadenar enfermedades mortales; un ejemplo es el SARS-CoV-2, conocido como COVID-19.
En términos sencillos, la clasificación de secuencias de
genes de virus es una herramienta que ayuda a entender aspectos clave de estos
microorganismos, como su origen, diversidad y relaciones entre sí. Esta
información es esencial para estudiar la evolución de los virus, y
particularmente para encontrar mecanismos para prevenir emergencias ocasionadas
por virus.
Mediante dicho proceso se extraen características que les
permiten a los modelos entrenar y encontrar patrones de tal forma que les sea
posible clasificar según variables de interés; por ejemplo, el ARN o ácido
ribonucleico está compuesto por adenina, guanina, citosina y uracilo. Con base
en esa información se emplean técnicas de análisis de datos para identificar
las similitudes y diferencias entre dichas secuencias.
Carolina Colmenares Celis, magíster en Bioinformática de la
Universidad Nacional de Colombia (UNAL), junto con los profesores Clara Isabel
Bermúdez Santana y Luis Fernando Niño, exploró diversas representaciones de
estructuras teóricas para analizar y clasificar los virus de ARN por medio de
notaciones poco utilizadas.
Las tres elegidas para este estudio fueron el “árbol
extendido”, el “HIT” y el “árbol de grano grueso”. Con base en las secuencias y
estructuras de los virus, estas representaciones hacen la clasificación
mediante técnicas de aprendizaje automático machine learning.
El modelo de clasificación se apoya en varias herramientas
de aprendizaje automático que incluyen algoritmos, entre los más conocidos las
redes neuronales.
En este caso, la IA actúa como un cerebro artificial capaz
de aprender y tomar decisiones basadas en la información que le proporcionan;
para ello, a la máquina se le debió enseñar antes a reconocer y clasificar
diferentes tipos de virus de ARN.
“Aplicamos diferentes algoritmos a dos conjuntos de datos
específicos de secuencias de familias de virus de ARN. Por un lado tuvimos
cerca de 15.000 datos extraídos de una base y con ellos hicimos el
entrenamiento; por otro lado, contamos con otros datos, que fueron alrededor de
480.000 secuencias de metaviromas recolectados en una expedición biológica a la
Sierra Nevada de Santa Marta, y con estos se hizo la evaluación”, explica la
investigadora.
Los datos de prueba resultado de la expedición formaron
parte de una investigación, también de la UNAL, financiada por Colciencias.
Esta información fue clave para validar la clasificación de los virus.
La transformación de estos datos en las representaciones
estructurales analizadas se logró mediante el software de uso
libre “paquete ViennaRNA”. Después de poner a correr los datos, “limpiarlos”, y
dejar los que aplicaran para la clasificación, la representación HIT fue la más
efectiva para extraer información crucial, según comenta la magíster.
Esta investigación allanaría el camino para entender mejor y
detectar tempranamente virus ARN, lo cual ayudaría a prevenir y mitigar futuras
pandemias.
“Estas clasificaciones suelen tomar mucho tiempo, y lo que
vimos aquí es que la IA, usada de manera adecuada, ayuda a optimizar procesos y
a mejorar la identificación y clasificación de estos virus. Ahora queda seguir
haciendo pruebas con más datos para ver otras potencialidades”, concluye la
investigadora.
No hay comentarios:
Publicar un comentario