Un nuevo software de análisis genómico desarrollado por informáticos de Stanford es capaz de deducir nuestros ancestros con mucha precisión. A diferencia de otros métodos, tiene la capacidad de desenmarañar el complicado pasado de cualquier individuo. Un artículo publicado en la revista Genome Research describe el funcionamiento del sistema HAPAA, como ha sido bautizado. “Hapa” es la palabra que los hawaianos usan para nombrar a alguien que ha perdido sus ancestros.
Retrocediendo 20 generaciones, el software identifica de qué región o continente eran los ancestros de alguien. Si retrocede sólo 10 generaciones, puede ser todavía más certero, siendo capaz de hacer distinciones tan precisas como el acervo genético de grupos de poblaciones muy cercanas (hipotéticamente, puede diferenciar los griegos de los italianos o los rusos de los alemanes)
Lo que hace el software es comparar un individuo con todos aquellos que recoge la base de datos HapMap, al que ya nos referimos en otro artículo, para ver qué pedazos genéticos tienen en común. El proyecto que HapMap está desarrollando un mapa de haplotipos (constitución genética de un cromosoma individual) del genoma humano
“Con una gran precisión, incluso si retrocede 20 generaciones, podemos trazar las poblaciones de todos esos individuos que están, de hecho, presentes en nuestro genoma”, comenta Serafim Batzoglou, que es profesor asistente de informática en Stanford y que ha liderado un grupo de estudiantes para crear HAPAA, en un comunicado de la propia universidad.
Dado que la base de datos HapMap sólo es un archivo genético de los ancestros de 270 individuos de Europa Occidental, oeste de África y este de Asia, por el momento el software únicamente puede generar un perfil étnico según estas poblaciones.
Pocos errores
El artículo de Genome Rearch describe cómo los investigadores probaron la precisión del sistema usando ejemplos con individuos reales y simulando la unión durante 20 generaciones entre individuos recogidos en la base de datos.
El equipo también ha comparado el estado del arte de un sistema parecido llamado SABER. Batzoglou y sus estudiantes llegaron a la conclusión de que su software cometía entre un tercio y la mitad de los errores que cometía SABER, incluso retrocediendo 15 ó 20 generaciones.
Un importante avance que ha permitido la mejora de HAPAA es la inclusión de un modelo de variación individual más preciso. Los informáticos de Stanford crearon un algoritmo lo suficientemente eficiente como para comparar la información genética de un individuo con la información genética de cada individuo incluido en la base de datos HapMap.
Otros sistemas, como el propio SABER, se basan en la comparación de un conjunto que representa el promedio de los datos respecto a muchos individuos. Esta metodología es mucho más sencilla de programar y de ejecutar en un ordenador, sin embargo el gran problema de hacer promedios es que se pierde mucha información en el proceso.
Promedios
Para entenderlo, pensemos por ejemplo en cómo se puede conocer el rendimiento de un jugador de fútbol. Es posible recoger todos los goles que ha metido y compararlos con el promedio de la liga. De esta manera, sabremos cómo ha estado respecto a la media, pero no sabremos nada respecto a patrones más específicos, como cuántos penaltis metió.
Por el momento, el software HAPAA proporciona una prueba de este concepto, pero limitada, dado al pequeño tamaño que hasta el momento tiene la base de datos HapMap. En el futuro, el software se beneficiará no sólo de tener más individuos para comparar, sino también datos más detallados de cada individuo.
Esta investigación de Stanford se enmarca en el trabajo que otros grupos de informáticos ya han iniciado. A finales del año pasado, informáticos, matemáticos y biólogos del Rensselaer Polytechnic Institute anunciaron el desarrollo de un algoritmo informático que también permite rastrear la ascendencia genética de miles de individuos en tan sólo minutos y sin un conocimiento previo de su origen.
A diferencia de programas informáticos similares, que sí requerían un cierto conocimiento previo sobre la ascendencia y procedencia del individuo en cuestión, este algoritmo buscaba unos marcadores específicos en el ADN llamados polimorfismos de un único nucleótido y sólo requiere una simple muestra de ADN. Los investigadores emplearon datos genéticos provenientes de estudios anteriores para realizar su investigación y confirmar los resultados. Entre los datos empleados, figuran los provenientes de la base de datos HapMap.
Retrocediendo 20 generaciones, el software identifica de qué región o continente eran los ancestros de alguien. Si retrocede sólo 10 generaciones, puede ser todavía más certero, siendo capaz de hacer distinciones tan precisas como el acervo genético de grupos de poblaciones muy cercanas (hipotéticamente, puede diferenciar los griegos de los italianos o los rusos de los alemanes)
Lo que hace el software es comparar un individuo con todos aquellos que recoge la base de datos HapMap, al que ya nos referimos en otro artículo, para ver qué pedazos genéticos tienen en común. El proyecto que HapMap está desarrollando un mapa de haplotipos (constitución genética de un cromosoma individual) del genoma humano
“Con una gran precisión, incluso si retrocede 20 generaciones, podemos trazar las poblaciones de todos esos individuos que están, de hecho, presentes en nuestro genoma”, comenta Serafim Batzoglou, que es profesor asistente de informática en Stanford y que ha liderado un grupo de estudiantes para crear HAPAA, en un comunicado de la propia universidad.
Dado que la base de datos HapMap sólo es un archivo genético de los ancestros de 270 individuos de Europa Occidental, oeste de África y este de Asia, por el momento el software únicamente puede generar un perfil étnico según estas poblaciones.
Pocos errores
El artículo de Genome Rearch describe cómo los investigadores probaron la precisión del sistema usando ejemplos con individuos reales y simulando la unión durante 20 generaciones entre individuos recogidos en la base de datos.
El equipo también ha comparado el estado del arte de un sistema parecido llamado SABER. Batzoglou y sus estudiantes llegaron a la conclusión de que su software cometía entre un tercio y la mitad de los errores que cometía SABER, incluso retrocediendo 15 ó 20 generaciones.
Un importante avance que ha permitido la mejora de HAPAA es la inclusión de un modelo de variación individual más preciso. Los informáticos de Stanford crearon un algoritmo lo suficientemente eficiente como para comparar la información genética de un individuo con la información genética de cada individuo incluido en la base de datos HapMap.
Otros sistemas, como el propio SABER, se basan en la comparación de un conjunto que representa el promedio de los datos respecto a muchos individuos. Esta metodología es mucho más sencilla de programar y de ejecutar en un ordenador, sin embargo el gran problema de hacer promedios es que se pierde mucha información en el proceso.
Promedios
Para entenderlo, pensemos por ejemplo en cómo se puede conocer el rendimiento de un jugador de fútbol. Es posible recoger todos los goles que ha metido y compararlos con el promedio de la liga. De esta manera, sabremos cómo ha estado respecto a la media, pero no sabremos nada respecto a patrones más específicos, como cuántos penaltis metió.
Por el momento, el software HAPAA proporciona una prueba de este concepto, pero limitada, dado al pequeño tamaño que hasta el momento tiene la base de datos HapMap. En el futuro, el software se beneficiará no sólo de tener más individuos para comparar, sino también datos más detallados de cada individuo.
Esta investigación de Stanford se enmarca en el trabajo que otros grupos de informáticos ya han iniciado. A finales del año pasado, informáticos, matemáticos y biólogos del Rensselaer Polytechnic Institute anunciaron el desarrollo de un algoritmo informático que también permite rastrear la ascendencia genética de miles de individuos en tan sólo minutos y sin un conocimiento previo de su origen.
A diferencia de programas informáticos similares, que sí requerían un cierto conocimiento previo sobre la ascendencia y procedencia del individuo en cuestión, este algoritmo buscaba unos marcadores específicos en el ADN llamados polimorfismos de un único nucleótido y sólo requiere una simple muestra de ADN. Los investigadores emplearon datos genéticos provenientes de estudios anteriores para realizar su investigación y confirmar los resultados. Entre los datos empleados, figuran los provenientes de la base de datos HapMap.