Cómo funciona el análisis de composición ancestral

(Mucha gente se preguntará cómo funciona el análisis de ancestros de las compañías comerciales y Gedmatch. En general son bastante similares pero el resultado puede variar por cómo el sistema entiende los resultados del análisis o el método usado.

En este post voy a intentar explicar como funciona a alto nivel y con un pequeño ejemplo.

Conceptos

  • Raw Data: Es el fichero con los marcadores de ADN resultante del genotipado.
  • Cromosomas:  [Wikipedia] En biología y citogenética, se denomina cromosoma a cada una de las estructuras altamente organizadas, formadas por ADN y proteínas, que contiene la mayor parte de la información genética de un individuo. El ser humano tiene 22 cromosomas + los hombres XY y las mujeres XX.
  • RSID: Identificador del marcador genético al que se refieren los alelos.
  • Alelos: (Explicación simple) Son pares de letras (ACGT) que conforman nuestro ADN. Uno se hereda del padre y otro de la madre.
  • Paneles poblaciones de referencia: Para poder saber la similitud del ADN de un individuo, se selecciona y clasifican por tipo de población una conjunto de personas de las cuales se saber perfectamente su herencia de las últimas 4-5 generaciones.

¿Qué es un fichero ADN RAW Data?

Los ficheros de ADN, son ficheros de texto que contienen un listado de marcadores SNPs  que definen los alelos (ACGT) que el chip de ADN ha leído (genotipado) en un posición dada del cromosoma. Por lo general, contienen alrededor de 700.000 marcadores SNPs, que han sido seleccionados específicamente para el análisis de composición ancestral.

Del par de letras, una proviene de tu padre y otra de tu madre, pero por la técnica de lectura mediante genotipado, no es posible determinar de quién es cada letra a menos que uno de los dos al menos, se haga el análisis y el sistema los “fasee” o distinga el lado que le corresponde.

snps.png

En base al RSID y al Genotype que ves en la imágen, la calculadora de estimación étnicas, usando estadística, determina la similitud del ADN con ciertos grupos poblacionales.

Explicación y ejemplo práctico de cómo funcionan las calculadoras de estimaciones

Componentes K

Lo primero que vamos a realizar es entender cómo Gedmatch calcula los componentes en que se dividen las calculadoras comparando contra los paneles de poblaciones de referencia definidos, como por ejemplo en la imagen tenemos la Eurogenes K15.

Las calculadoras, como ves en la imágen, lo que hacen es dividir en una serie de componentes (K) de similitud, los marcadores (SNPs) dada la frecuencia con la que aparecen (determinado mediante estadística contra los paneles de referencia).

De esta manera dicen que esta persona (de la imágen) tiene un 8.84% de similitud con el componente North_Sea dado que tiene unos SNP que normalmente están asociados a personas con esa “herencia*****”, pero no quiere decir que uno tenga dicha ascendencia (importante recordar esto: similitud tener ancestros).

ComponentesK.png

Práctico: Nuestra calculadora K3

Vamos a crear nuestra primera calculadora. Pongamos para este ejemplo, que los componentes son 3, es decir un K3: Africano, Asiático, Europeo.

Para empezar necesitamos marcadores SNP para poder calcular la estimación. Normalmente las calculadoras usan entre 70.000 a 200.000 SNPs para el cálculo de estimaciones.

Para este ejemplo, vamos a usar únicamente un SNP de los ~700.000 que tiene nuestro fichero de ADN. Elegimos el rs1426654.

Las calculadoras, lo que hacen es comprobar en los SNPs que alelos (ACGT) tienes en el par. Dependiendo del grupo étnico, es más o menos habitual encontrar una de las letras de la combinación. Las variaciones genéticas se dan por grupos poblacionales con mayor o menor frecuencia. Hay marcadores tan comunes entre los seres humanos que directamente no se pueden usar para estimaciones étnicas.

Te preguntarás por qué hay “esa variación” entre grupos étnicos en un marcador. La respuesta te la doy de una forma gráfica (muy muy simple y poco científica), el color de piel depende de cómo tras varias decenas de generaciones esos seres humanos que vivían en zonas con poca luz, el adn se adaptó/varió/muto los alelos para poder convertir la piel oscura en blanca. De ahí que se presupone que quien tenga esa combinación proviene de europeos ancestrales.

Para nuestro marcador rs1426654, simplificando y sin entrar en detalles de que se hereda de padre/madre (comprueba el tuyo en tu fichero de ADN), vamos a decir que tener 2 A es 100% habitual en Europeos, 2 G es 100% habitual Africano, 1 A y 1G es 100% habitual en Asiáticos, es decir:

  • AA = 100% Europeo
  • AG = 100% Asiático (este esta simplificado, realmente sería, por decir un 50% Europeo, 50% Africano aprox. pero para el ejemplo simplificamos y pongo asiático)
  • GG = 100% Africano

En un caso sencillo de K3 con un solo SNP el rs1426654, si tuviéramos AA, podríamos afirmar que esa persona es 100% Europeo, 0% Asiático, 0% Africano, fácil ¿no?.

Comprueba el tuyo y ponlo en un Excel así:

Mi primera calculadora Gedmatch: Wilhelm K3

Africano 0%
Asiatico 0%
Europeo 100%

Ya tenemos nuestro primera calculadora! ahora ya podemos publicarla en Gedmatch ;)!

Más complejo, más detalle, ¿más “preciso”?

Naturalmente, hay miles de variantes, combinaciones de ADN, mezclas de personas… Por lo que posiblemente alguien que tuvo ancestros Europeos + Africanos + Asiáticos, tenga por ejemplo AC como letras, que es lo mismo que ser 100% asiático. O pudo quedarse con AA = 100% Europeo o….. ¿Cómo discernimos la composición ancestral de esta persona?

Para ello, se toman miles de SNPs significativos y se aplica la misma regla que hemos dicho antes, pero con métodos estadísticos complejos para el cálculo de porcentajes entre las diferentes combinaciones y teniendo en cuenta que entre marcadores hay una relación, no son entes individuales que determinan exactamente la composición ancestral de una persona.

Sobre el cálculo no entraré en detalles, es complejo y no creo que sea necesario para la explicación.

3 componentes K no me dan detalle, ¿qué podemos hacer?

Existe el problema que según el número de componentes K, habrá más detalle o menos para clasificar la similitud de ADN de una persona.

Por ello, se meten más número de componentes K para poder desglosar/categorizar el ADN de una persona en valores significativos. Está muy bien saber que alguien es Europeo, pero y dentro de Europa, ¿a que partes es similar? ¿Norte, Sur, Este, Oeste? ¿Suroeste o Sureste?… Por ello, las calculadoras tienden a tener más número de componentes K que clasifican esas subregiones.

Actualmente, tenemos calculadoras especializadas en cada una de las grandes regiones del mundo, que se subdividen en regiones especializadas, por ejemplo el proyecto Eurogenes para ascendencia Europea (Eurogenes K13, Eurogenes K15, Eurogenes K36), Ethioelix para personas con ascendencia puramente africana, MDLP para gente con mucha mezcla mundial…

¿Más K es mejor? mmm.. tal vez no

Naturalmente, cuanto más desgranamos, es más probable que encontremos similitudes con componentes comunes. Por ejemplo, un componente ibérico puede tener similitudes con un norte africano, italiano, irlandés,… que puede producir que si se meten esos componentes se desvirtúe el objetivo de determinar nuestra composición ancestral y con ello “saber**** de donde eran nuestros ancestros***”.

Encontrar el equilibrio entre número de componentes K depende de varios factores, como disponer de poblaciones maestras que tengan ancestros de varios generaciones 100% de la zona y que no se hayan mezclado (sencillo de ver en un PCA), entender la história y darle un marco temporal a los componentes K para hacerlo relevante.

Marco temporal de la calculadora

El marco temporal es importante, la composición de un habitante de la Península Ibérica no es igual en el año 2018 que en el año 500. Por ello, las calculadoras comerciales tienden a clasificar a las personas en componentes “actuales” y relevantes. Un Irlandés puede ser mezcla de ibérico, escandinavo e inglés por decir 3 componentes, pero en la práctica, lo que la gente quiere escuchar que es % irlandés.

En Gedmatch encontraremos calculadoras Modern, Ancient, … esto es importante porque para su construcción han usado el ADN de restos de pobladores de hace de cientos/miles de años de ciertas regiones en vez de personas de las últimas décadas… como veréis, la foto puede cambiar, tras tantos siglos de migraciones, guerras, por lo que desde un punto de vista útil, son un entretenimiento.

Oráculos (eligieron buen nombre 😉 )

Los oráculos (Oracle y Oracle 4) lo que intentan es desgranar esos componentes K, en combinaciones de poblaciones, las cuales están compuestas en cierto porcentaje de cada componente K.

Volviendo a nuestra calculadora K3, podríamos definir que un habitante genérico de la Península Ibérica, por ejemplo, es 95% Europeo, 5% Africano, 0% Asiático), sencillo e intuitivo, no? Y un Marroquí? 10% Europeo, 85% Africano, 5% Asiático?

Como ves determinar la proporción es prácticamente como preparar una tarta, pero mediante estadística y con muestras de gente de cada zona.

¿Cómo se eligen esas proporciones?

Para este desglose, se utilizan individuos característicos de cada población que se quiere identificar.

Cómo imaginas, si esa persona proviene de una endogamia (una gran familia genética por casarse parientes relativamente cercanos), más fácil será definir qué es una individuo característico de dicha población (todos son prácticamente “iguales*****”).

Pero si proviene de poblaciones más heterogéneas, más difícil será definirlos. Por ejemplo, qué diferencia hay entre un madrileño del norte o del sur de Madrid y ¿quién/cómo se determina que un individuo es característico para definir alguien del norte de Madrid o del sur?).

Como estarás pensando, si tenemos solo 3 componentes, como en nuestro ejemplo, se hace complejo distinguir españoles de cada parte de la Península, portugueses, franceses, alemanes… estaríamos hablando de porcentajes que andaría jugando con decimales o incluso se solapan).

Por ello, volvemos al punto de aumentar los componentes K hasta un número significativo para desglosar las poblaciones.

¡Pero nadie es 100% puro de un sitio, somos de nuestros padres y nuestras madres ancestrales!

Por ello, posteriormente, mediante técnicas de distancias euclídeas, Manhattan, IBS, … se puede sacar “lo cerca” que está el ADN de una persona respecto a 1 o combinaciones de 2, 3 o 4 poblaciones. Naturalmente las combinaciones nos permiten generar varias opciones o poblaciones susceptibles de ser similares y cerca en distancia estadística. Nuestros queridos Oracle 4.

Estadística y recombinación de ADN
Esto esta bien, hasta que entramos en el efecto de la estadística y la recombinación de ADN. Cada persona hereda un 50% del padre y otro 50% de la madre, aproximadamente y completamente aleatorio.

Según la combinación de ADN recibida, las proporciones de los componentes K de una persona pueden variar, por lo que si por casualidades de la vida tus marcadores dan proporciones similares a las poblaciones maestras del oraculo, te acertará tu similitud (volvemos a la endogamia y ciertas poblaciones aisladas cultural o geográficamente).

Sino, dado que el método estadístico no tiene en cuenta este tipo de escenarios, puedes tener proporciones de poblaciones que posiblemente los padres no tienen. Es decir, te pareces a esos individuos genéticamente pero no tienes porque tener nadie de dicha población.

Para evitar esto, existen mecanismos más modernos que sólo algunas compañías están empezando a aplicar, donde en vez de mirar marcador a marcador, miran segmentos completos, le dan “sentido” a lo que detectan y ponderan las posibilidad de que tras varios segmentos aparezca uno de otra población similar. De esta manera, evitan que la recombinación de ADN pueda afectar al resultado final de la estimación.

Naturalmente nada es perfecto, en un porcentaje por debajo de 1-2% es posible encontrar composiciones ancestrales que realmente no están correctamente identificados. Para ello, estas compañias, están empezando a recurrir al machine learning, es decir, el ordenador aprende a distinguir tras decenas de miles de análisis de adn, cuando un segmento que la estadística dice ser de una población realmente es de es población o no, y asigna el valor que considera realmente correcto, evitando así fallos estadísticos.

Todo esto con el fin de suavizar la recombinación del ADN y el ruido estadístico, que provoca que haya resultados dispares entre padres e hijos (si no están faseados). Algo que dentro de este mundillo de la composición ancestral, provoca desconcierto y sensación de haber pagado por algo que no lo vale, el peor marketing que una empresa se puede echar a la cara.

Fin

Espero haber ayudado a entender un poquito mejor cómo funcionan las calculadoras de composición ancestral, y si alguno se anima, a construir su propia calculadora.

Si te ha servido haz clic aquí para realizar una donación, ¡Gracias por tu aportación!</h3

Advertisements

One thought on “Cómo funciona el análisis de composición ancestral

  1. misraicespaisas says:

    Me encanto este análisis! El próximo debe ser como crear “nuestras propias” cálculadoras, como sugieres… Y cómo entender mejor un PCA. Ojalá el “machine learning” avance rápidamente. Aunque desconozco tecnicamente estos métodos estadísticos, sería genial poder construir una calculadora para los latinoamericanos, para nuestro componente nativo. Como crees que sea posible? A mí me gusta la representación de poblaciones nativoamericanas de la calculadora MDLP de Gedmatch, pues es la que tiene más representatividad…que opinas?

    Like

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s