Admix Easy Tools – K47

Hoy traigo una paquete que he creado para poder ejecutar de manera más sencilla la calculadora K47 creada por Lukasz Macuga.

Para ello he incorporado en el paquete una herramienta que permite convertir el fichero de ADN al formato Genotype.txt que usan las calculadoras que se ejecutan mediante DIYDodecadWin. Anteriormente, para poder adaptar el fichero de ADN hacia falta el programa de lenguaje R llamado “standardize.r”. Dado que requiere instalar el entorno del lenguaje R, el poder ejecutar estas calculadoras por cualquier usuario estándar no era sencillo. Por ello adapte la herramienta “aconv.exe” de www.y-str.org para realizar esta adaptación.

Además, para poder ejecutar los Oracles mediante el Admix4, requeria convertir el fichero “genowide.txt” al formato “input.txt”. Para evitar tener que realizarlo a mano, he creado la herramienta “AdmixConverter” que se encarga de convertir dicho fichero al formato de entrada adecuado.

Download

AdmixEasyTools para calculadora DIYDodecadWin: AdmixEasyTools

AdmixEasyTools K47 AllInOne pack: AdmixEasyTools K47 AllInOne

Cómo funciona el análisis de composición ancestral

(Mucha gente se preguntará cómo funciona el análisis de ancestros de las compañías comerciales y Gedmatch. En general son bastante similares pero el resultado puede variar por cómo el sistema entiende los resultados del análisis o el método usado.

En este post voy a intentar explicar como funciona a alto nivel y con un pequeño ejemplo.

Conceptos

  • Raw Data: Es el fichero con los marcadores de ADN resultante del genotipado.
  • Cromosomas:  [Wikipedia] En biología y citogenética, se denomina cromosoma a cada una de las estructuras altamente organizadas, formadas por ADN y proteínas, que contiene la mayor parte de la información genética de un individuo. El ser humano tiene 22 cromosomas + los hombres XY y las mujeres XX.
  • RSID: Identificador del marcador genético al que se refieren los alelos.
  • Alelos: (Explicación simple) Son pares de letras (ACGT) que conforman nuestro ADN. Uno se hereda del padre y otro de la madre.
  • Paneles poblaciones de referencia: Para poder saber la similitud del ADN de un individuo, se selecciona y clasifican por tipo de población una conjunto de personas de las cuales se saber perfectamente su herencia de las últimas 4-5 generaciones.

¿Qué es un fichero ADN RAW Data?

Los ficheros de ADN, son ficheros de texto que contienen un listado de marcadores SNPs  que definen los alelos (ACGT) que el chip de ADN ha leído (genotipado) en un posición dada del cromosoma. Por lo general, contienen alrededor de 700.000 marcadores SNPs, que han sido seleccionados específicamente para el análisis de composición ancestral.

Del par de letras, una proviene de tu padre y otra de tu madre, pero por la técnica de lectura mediante genotipado, no es posible determinar de quién es cada letra a menos que uno de los dos al menos, se haga el análisis y el sistema los “fasee” o distinga el lado que le corresponde.

snps.png

En base al RSID y al Genotype que ves en la imágen, la calculadora de estimación étnicas, usando estadística, determina la similitud del ADN con ciertos grupos poblacionales.

Explicación y ejemplo práctico de cómo funcionan las calculadoras de estimaciones

Componentes K

Lo primero que vamos a realizar es entender cómo Gedmatch calcula los componentes en que se dividen las calculadoras comparando contra los paneles de poblaciones de referencia definidos, como por ejemplo en la imagen tenemos la Eurogenes K15.

Las calculadoras, como ves en la imágen, lo que hacen es dividir en una serie de componentes (K) de similitud, los marcadores (SNPs) dada la frecuencia con la que aparecen (determinado mediante estadística contra los paneles de referencia).

De esta manera dicen que esta persona (de la imágen) tiene un 8.84% de similitud con el componente North_Sea dado que tiene unos SNP que normalmente están asociados a personas con esa “herencia*****”, pero no quiere decir que uno tenga dicha ascendencia (importante recordar esto: similitud <> tener ancestros).

ComponentesK.png

Práctico: Nuestra calculadora K3

Vamos a crear nuestra primera calculadora. Pongamos para este ejemplo, que los componentes son 3, es decir un K3: Africano, Asiático, Europeo.

Para empezar necesitamos marcadores SNP para poder calcular la estimación. Normalmente las calculadoras usan entre 70.000 a 200.000 SNPs para el cálculo de estimaciones.

Para este ejemplo, vamos a usar únicamente un SNP de los ~700.000 que tiene nuestro fichero de ADN. Elegimos el rs1426654.

Las calculadoras, lo que hacen es comprobar en los SNPs que alelos (ACGT) tienes en el par. Dependiendo del grupo étnico, es más o menos habitual encontrar una de las letras de la combinación. Las variaciones genéticas se dan por grupos poblacionales con mayor o menor frecuencia. Hay marcadores tan comunes entre los seres humanos que directamente no se pueden usar para estimaciones étnicas.

Te preguntarás por qué hay “esa variación” entre grupos étnicos en un marcador. La respuesta te la doy de una forma gráfica (muy muy simple y poco científica), el color de piel depende de cómo tras varias decenas de generaciones esos seres humanos que vivían en zonas con poca luz, el adn se adaptó/varió/muto los alelos para poder convertir la piel oscura en blanca. De ahí que se presupone que quien tenga esa combinación proviene de europeos ancestrales.

Para nuestro marcador rs1426654, simplificando y sin entrar en detalles de que se hereda de padre/madre (comprueba el tuyo en tu fichero de ADN), vamos a decir que tener 2 A es 100% habitual en Europeos, 2 G es 100% habitual Africano, 1 A y 1G es 100% habitual en Asiáticos, es decir:

  • AA = 100% Europeo
  • AG = 100% Asiático (este esta simplificado, realmente sería, por decir un 50% Europeo, 50% Africano aprox. pero para el ejemplo simplificamos y pongo asiático)
  • GG = 100% Africano

En un caso sencillo de K3 con un solo SNP el rs1426654, si tuviéramos AA, podríamos afirmar que esa persona es 100% Europeo, 0% Asiático, 0% Africano, fácil ¿no?.

Comprueba el tuyo y ponlo en un Excel así:

Mi primera calculadora Gedmatch: Wilhelm K3

Africano 0%
Asiatico 0%
Europeo 100%

Ya tenemos nuestro primera calculadora! ahora ya podemos publicarla en Gedmatch ;)!

Más complejo, más detalle, ¿más “preciso”?

Naturalmente, hay miles de variantes, combinaciones de ADN, mezclas de personas… Por lo que posiblemente alguien que tuvo ancestros Europeos + Africanos + Asiáticos, tenga por ejemplo AC como letras, que es lo mismo que ser 100% asiático. O pudo quedarse con AA = 100% Europeo o….. ¿Cómo discernimos la composición ancestral de esta persona?

Para ello, se toman miles de SNPs significativos y se aplica la misma regla que hemos dicho antes, pero con métodos estadísticos complejos para el cálculo de porcentajes entre las diferentes combinaciones y teniendo en cuenta que entre marcadores hay una relación, no son entes individuales que determinan exactamente la composición ancestral de una persona.

Sobre el cálculo no entraré en detalles, es complejo y no creo que sea necesario para la explicación.

3 componentes K no me dan detalle, ¿qué podemos hacer?

Existe el problema que según el número de componentes K, habrá más detalle o menos para clasificar la similitud de ADN de una persona.

Por ello, se meten más número de componentes K para poder desglosar/categorizar el ADN de una persona en valores significativos. Está muy bien saber que alguien es Europeo, pero y dentro de Europa, ¿a que partes es similar? ¿Norte, Sur, Este, Oeste? ¿Suroeste o Sureste?… Por ello, las calculadoras tienden a tener más número de componentes K que clasifican esas subregiones.

Actualmente, tenemos calculadoras especializadas en cada una de las grandes regiones del mundo, que se subdividen en regiones especializadas, por ejemplo el proyecto Eurogenes para ascendencia Europea (Eurogenes K13, Eurogenes K15, Eurogenes K36), Ethioelix para personas con ascendencia puramente africana, MDLP para gente con mucha mezcla mundial…

¿Más K es mejor? mmm.. tal vez no

Naturalmente, cuanto más desgranamos, es más probable que encontremos similitudes con componentes comunes. Por ejemplo, un componente ibérico puede tener similitudes con un norte africano, italiano, irlandés,… que puede producir que si se meten esos componentes se desvirtúe el objetivo de determinar nuestra composición ancestral y con ello “saber**** de donde eran nuestros ancestros***”.

Encontrar el equilibrio entre número de componentes K depende de varios factores, como disponer de poblaciones maestras que tengan ancestros de varios generaciones 100% de la zona y que no se hayan mezclado (sencillo de ver en un PCA), entender la história y darle un marco temporal a los componentes K para hacerlo relevante.

Marco temporal de la calculadora

El marco temporal es importante, la composición de un habitante de la Península Ibérica no es igual en el año 2018 que en el año 500. Por ello, las calculadoras comerciales tienden a clasificar a las personas en componentes “actuales” y relevantes. Un Irlandés puede ser mezcla de ibérico, escandinavo e inglés por decir 3 componentes, pero en la práctica, lo que la gente quiere escuchar que es % irlandés.

En Gedmatch encontraremos calculadoras Modern, Ancient, … esto es importante porque para su construcción han usado el ADN de restos de pobladores de hace de cientos/miles de años de ciertas regiones en vez de personas de las últimas décadas… como veréis, la foto puede cambiar, tras tantos siglos de migraciones, guerras, por lo que desde un punto de vista útil, son un entretenimiento.

Oráculos (eligieron buen nombre 😉 )

Los oráculos (Oracle y Oracle 4) lo que intentan es desgranar esos componentes K, en combinaciones de poblaciones, las cuales están compuestas en cierto porcentaje de cada componente K.

Volviendo a nuestra calculadora K3, podríamos definir que un habitante genérico de la Península Ibérica, por ejemplo, es 95% Europeo, 5% Africano, 0% Asiático), sencillo e intuitivo, no? Y un Marroquí? 10% Europeo, 85% Africano, 5% Asiático?

Como ves determinar la proporción es prácticamente como preparar una tarta, pero mediante estadística y con muestras de gente de cada zona.

¿Cómo se eligen esas proporciones?

Para este desglose, se utilizan individuos característicos de cada población que se quiere identificar.

Cómo imaginas, si esa persona proviene de una endogamia (una gran familia genética por casarse parientes relativamente cercanos), más fácil será definir qué es una individuo característico de dicha población (todos son prácticamente “iguales*****”).

Pero si proviene de poblaciones más heterogéneas, más difícil será definirlos. Por ejemplo, qué diferencia hay entre un madrileño del norte o del sur de Madrid y ¿quién/cómo se determina que un individuo es característico para definir alguien del norte de Madrid o del sur?).

Como estarás pensando, si tenemos solo 3 componentes, como en nuestro ejemplo, se hace complejo distinguir españoles de cada parte de la Península, portugueses, franceses, alemanes… estaríamos hablando de porcentajes que andaría jugando con decimales o incluso se solapan).

Por ello, volvemos al punto de aumentar los componentes K hasta un número significativo para desglosar las poblaciones.

¡Pero nadie es 100% puro de un sitio, somos de nuestros padres y nuestras madres ancestrales!

Por ello, posteriormente, mediante técnicas de distancias euclídeas, Manhattan, IBS, … se puede sacar “lo cerca” que está el ADN de una persona respecto a 1 o combinaciones de 2, 3 o 4 poblaciones. Naturalmente las combinaciones nos permiten generar varias opciones o poblaciones susceptibles de ser similares y cerca en distancia estadística. Nuestros queridos Oracle 4.

Estadística y recombinación de ADN
Esto esta bien, hasta que entramos en el efecto de la estadística y la recombinación de ADN. Cada persona hereda un 50% del padre y otro 50% de la madre, aproximadamente y completamente aleatorio.

Según la combinación de ADN recibida, las proporciones de los componentes K de una persona pueden variar, por lo que si por casualidades de la vida tus marcadores dan proporciones similares a las poblaciones maestras del oraculo, te acertará tu similitud (volvemos a la endogamia y ciertas poblaciones aisladas cultural o geográficamente).

Sino, dado que el método estadístico no tiene en cuenta este tipo de escenarios, puedes tener proporciones de poblaciones que posiblemente los padres no tienen. Es decir, te pareces a esos individuos genéticamente pero no tienes porque tener nadie de dicha población.

Para evitar esto, existen mecanismos más modernos que sólo algunas compañías están empezando a aplicar, donde en vez de mirar marcador a marcador, miran segmentos completos, le dan “sentido” a lo que detectan y ponderan las posibilidad de que tras varios segmentos aparezca uno de otra población similar. De esta manera, evitan que la recombinación de ADN pueda afectar al resultado final de la estimación.

Naturalmente nada es perfecto, en un porcentaje por debajo de 1-2% es posible encontrar composiciones ancestrales que realmente no están correctamente identificados. Para ello, estas compañias, están empezando a recurrir al machine learning, es decir, el ordenador aprende a distinguir tras decenas de miles de análisis de adn, cuando un segmento que la estadística dice ser de una población realmente es de es población o no, y asigna el valor que considera realmente correcto, evitando así fallos estadísticos.

Todo esto con el fin de suavizar la recombinación del ADN y el ruido estadístico, que provoca que haya resultados dispares entre padres e hijos (si no están faseados). Algo que dentro de este mundillo de la composición ancestral, provoca desconcierto y sensación de haber pagado por algo que no lo vale, el peor marketing que una empresa se puede echar a la cara.

Fin

Espero haber ayudado a entender un poquito mejor cómo funcionan las calculadoras de composición ancestral, y si alguno se anima, a construir su propia calculadora.

Cómo interpretar JTest de Gedmatch

Interesante esta lectura (actualizada el 19 de Marzo) que el creador del JTest hace sobre el uso y conclusiones que los usuarios sacan de este test. En resumen:

  1. Puntuar en JTest algo de ashkenazim es normal en gente que no tiene relación alguna con ashkenazim, existen componentes ancestrales comunes. Hay que abrir el Spreadsheet y comparar con la media que recibe alguien con tus orígenes, en caso de España, buscar ES español medio ronda el 5% Ashkenazi). Si el valor es similar de ashkenazi que pone en esa fila con el resultado de la calculadora contando con alguna mezclas de tus ancestros, con un pequeño margen arriba abajo… no hay nada de AJ. La tabla con los valores comunes por población:
    https://docs.google.com/spreadsheets/d/1XgXrkqivuGCbYocBm_MMbdRd2tX1A68D3bl_wJN3pUM/edit?usp=sharing 
  2. Si un AJ puro saca 30% no quiere decir que eso sea 100%, y puntuar 5% es tener un 15-18% de AJ. Solo funciona en los casos de AJ recientes.
  3. Si no sacas AJ como una de las poblaciones en cada una de las combinaciones en el Oracle 4, seguramente no hay AJ en la ascendencia de manera sustancial y relativamente reciente que pueda detectarse.

Link al artículo original:

http://bga101.blogspot.com.es/2012/09/eurogenes-ashkenazim-ancestry-test-files.html?m=1

 

10 + 1 conclusiones (de las estimaciones étnicas)

El día 3 de Enero de 2018 recibí mis resultados de 23andme y con ello me introduje en el fascinante mundo de las estimaciones étnicas, genealogía y salud a partir de tu ADN.

Tras estos 3 meses he sacado las siguientes 10 conclusiones (+1 extra):

  1. ¡Solo son estimaciones estadísticas! En muchos casos, sobre todo en porcentajes bajos, no pueden asegurarte que tengas ancestros recientes de esa población. (Compruébalo aquí). Simplemente es similitud con el ADN de las poblaciones que han usado como referencia.
  2. ¡Compara con lo que sabes de tu familia! Busca referencias escritas de tu familia, pero no creas con fé ciega que por tener 3 generaciones de un cierto lugar, eres de pura cepa de ese lugar. Muchas británicos piensan que son 100% de las islas británicas y luego descubren que tuvieron ancestros escandinavos, de los países del Este o incluso Ibéricos.
  3. Revisa los estudios étnicos de cada región que estés investigando o de donde crees que eres. La mezcla en cada región puede variar ostensiblemente los resultados que cada calculadora te puede dar.
  4. Las estimaciones globales siempre van a ser más precisas que las regionales. Ten en cuenta las migraciones y la historia, hay regiones y grupos étnicos muy mezclados. Los componentes continentales, como el europeo se distingue fácilmente de un asiático, pero un madrileño de un toledano, es mucho más complicado. No todo es estadística en el mundo de las estimación étnica.
  5. Confía en lo común. Si en todas las calculadoras te sale un componente en particular, tienes una probabilidad muy alta de que tengas ancestros de esa población.
  6. Los grupos étnicos endogamos proveen una mayor fiabilidad en su detección y distinción (isleños, ashkenazis, …), por lo tanto si tienes un % significativo de esas etnias, deberías tener una gran cantidad de “primos de ADN”. Comprueba que los segmentos que tienes identificados de dicha etnia es donde coincides con dichos primos. Si no tienes docenas de primos “puros” y no coincides en esos segmentos, duda de la estimación étnica.
  7. Estudia cómo funciona el ADN para comprender que significan los porcentajes. Al final todos tenemos componente ancestrales que nos definen como poblaciones características e individuos.. Los ibéricos tienen mezcla de muchas zonas de alrededor de la Península Ibérica, por lo que es normal que tengas pequeños porcentajes de similitud con dichas poblaciones.
  8. Tener herencia de una población no te convierte en “miembro de tal población étnica”. Será una obviedad, pero no por tener un porcentaje de irlandes, te hace irlandés, ni tampoco herencia judía, te hace judío,… es, sin duda, muy interesante conocer tus orígenes y saber como se movieron tus antepasados.
  9. Las empresas de test de ADN no miran los mismos marcadores genéticos. Cada empresa selecciona los marcadores que consideran más significativos para sus calculadoras de estimación étnica.
  10. Gedmatch es una gran herramienta, pero las calculadoras toman un número determinado de marcadores genéticos para la estimación. Si estos marcadores no están presentes en tu kit de adn no los podrá usar para el cálculo, por lo que el resultado saldrá sesgado comparado con los resultados de un kit con todos los marcadores requeridos por la calculadora. Nota: No hay empresa que provea todos los marcadores escogidos durante el diseño de una calculadora en particular.
  11. No caigas en el efecto “spotlight” que generan algunas etnias. Algunos grupos étnicos tienen un “imán” a la hora de infra o sobrevalorarse su aparición en la estimación. Un claro ejemplo es el resultado de ashkenazi, que en ciertos casos se investiga su origen aún sin tener en cuenta que puede que salga de casualidad en una calculadora y con porcentajes tan bajos que raramente pasan de ser ruido, dado que sus componentes ancestrales son similares al ADN actual de poblaciones mediterráneas.Sin duda, si a alguien le sale que tiene un 6% de “donde sea” debe tener en cuenta que tuvo un antepasado 3 generaciones atrás (compruébalo tu mismo en esta herramienta de DNAPainter) que tenía alrededor de un 100% (teóricamente) de esa firma genética. En muchos casos, en la rumorología familiar se tiene conocimiento de los orígenes de esos familiares “tan cercanos” y tan característicos.
    6dnapainter

Caso Real > IBC – Identical By Chance

En este post quiero hablar brevemente de un escenario real de IBC sucedido en personas cercanas a mi y que demuestra como la recombinatoria del ADN puede provocar coincidencias con personas que no son válidas (falsos-positivos).

Recombinación de ADN

De nuestros padres heredamos un 50% de ADN aproximadamente de cada uno de ellos, como regla general. Esta recombinación es aleatoria por lo que los “segmentos” que se pasan a hijo tienen un longitud arbitraria. Lo único seguro es que la recombinación al final genera un 100% del ADN autosomal de una persona.

Como podéis imaginar, si combinamos segmentos, nos puede pasar que el final de un segmento al unirse con el principio del siguiente genere un “nuevo segmento” con trozos de ambos segmentos originales que pueda por casualidad parecerse al de otra persona en el mundo. Esto es lo que se denomina IBC Identical By Chance o “Idéntico por Casualidad”, que según los expertos es el responsable de gran parte de los falsos-positivos que uno puede encontrar en sus coincidencias de ADN.

Por ello, se establece como regla general que mínimo debe ser 7cM y 500-700 SNPs para considerar que una coincidencia autosomal es válida.

Caso real

Os comento el caso de real de mi hermano y su mujer. Con ella no tenemos relación familiar que conozcamos, tanto es así que nuestros padres no tienen coincidencias con ella. Sin embargo, al testearse ellos dos (mi hermano y su pareja), se da la casualidad que comparten un segmento de 5.77 cM y 924 SNPs. Como sabréis cualquier matcheo por debajo del os 7 cM debe tomarse con pinzas por posible falso positivo o relación ancestral. El número de SNPs es alto, pero dado que son solo 5.77cM y sabiendo que no existe relación familiar alguna, ni coincide con nuestros padres, este resultado es claramente un FALSO-POSITIVO.

SegmentComparison2

SegmentComparison

Conclusión

Claramente esto es un “error”, entre comillas porque no es un error, es simplemente el azar de la recombinatoria de ADN.

Con ello quiero dejar claro que el análisis de coincidencias de ADN hay que ser estricto con el umbral de mínimo 7 cm y 700 SNPs. Puede darse que incluso con este mínimo umbral que establecieron los expertos como el mínimo razonable se quede corto.

 

Análisis de endogamia con RootsFinder

He realizado un análisis de diferentes usuarios con poblaciones “étnicas” bien identificadas para ver como tanto la endogamia y como la no endogamia se visualiza en las herramientas de RootsFinder (recomendable para análisis genealógico). Requiere de suscripción Tier 1 de Gedmatch (clásico).

Los individuos de este estudio son:

  1. Ashkenazi 4 últimas generaciones (32% en JTest)
  2. 50% finlandesa (endogamia por cultura e idioma) / 50% sueca
  3. Isleño (endogamia de isla)
  4. Descendiente de ashkenazi (2 tatarabuelos)
  5. Británico (4 poblaciones K15 = 4 regiones islas britanicas)
  6. Latinoamericano
  7. Andaluz (4 poblaciones K15 = 4 andalucia)
  8. Vasco (4 poblaciones K15 = 4 french_basque)

RootFinders se basa en la triangulación de los primeros 500 kits de GedMatch (no Genesis). En la visualización (así como manualmente en la triangulación) se puede distinguir claramente cuando existe una herencia de una población endogamica (ashkenazi, finlandeses, islandeses,…).

Criterios de análisis
En el análisis he tenido en cuenta que existen casuísticas como que los usuarios anglosajones tienen una mayor posibilidad de encontrar relaciones cercanas dentro de los 500 primeros kits (pero no endogámicas).

Otro punto a tener en cuenta, es que en todos los casos los primeros 500 kits tendrán algún tipo de relación, pero cuando no existe endogamia, el número de segmentos compartidos entre ellos será un número bajo, sin embargo en el caso de endogamia existirá un gran número de segmentos compartidos entre cada uno de los kits.

Conceptos

  • Endogamia: (Wikipedia) Se denomina endogamia (del griego ἔνδον endon ‘dentro’, y γάμος gamos, ‘casamiento’) al matrimonio, unión o reproducción entre individuos de ascendencia común; es decir, de una misma familia, linaje o grupo (religioso, étnico, geográfico).
  • Nodo: Un kit = una persona. Cuanto más grande el nodo, más segmentos comparte con el resto de kits.
  • Segmento: Relación de >=7cM entre dos kits. Indica una relación IBS o IBD. Cuanto más largos los segmentos, los nodos están más cerca.
  • Cluster: Conjunto de nodos relacionados por los segmentos que les unen que tienen en común estar relacionados entre sí al menos una vez cada uno entre ellos.
  • Cluster familiar: Cuando hay múltiples segmentos que asocian a varios nodos hasta 20 nodos (de media), con un segmento por nodo entre cada uno de ellos.
  • Cluster endogamico: Cuando hay más de 20 nodos, con múltiples segmento entre cada uno de los nodos, conformando un conjunto cercano y extremadamente unido que raramente se da entre familias cercanas sin endogamia.
  • Cluster difuso: Cuando existen múltiples nodos con poca relación entre ellos, provocando visualmente una nube de puntos con una relación difusa.

Escenarios analizados

Sin endogamia

En un caso normal, sin endogamia y con un buen número de kits que tienen una relación cercana (habitual en anglosajones donde muchos familiares cercanos se han realizado las pruebas) pero sin endogamia se conforma un conjunto de 10 a 15 clusteres de media hasta 20 nodos (personas) fuertemente relacionados, de los cuales salen segmentos a otros clusteres familiares con similares o menor características.

La morfología del diagrama es por regla general de un anillo de clusteres con otros tantos en el interior, de los cuales hay 3 o 4 que tienen un gran número de segmentos y relaciones (padres, hijos, primos primeros) de los cuales se ramifican a otros tantos con similares características.

Británico

Este sería el diagrama estándar de británico “100%”. En él se conjugan un gran número de kits de familiares cercanos, primos segundos/terceros. En él se aprecia como cada uno de estos tienen algún tipo de relación cercana entre ellos, que permite clasificarlos en pequeños clusteres.

britanico.png

Vasco

En este caso vemos que a pesar de disponer un buen número de kits asociados, el resultado nos dice que no hay familiares muy cercanos a esta persona. Aún así, hablando de la endogamia, no se aprecia que exista, dado que independientemente de los kits de familiares cercanos, no se aprecia esa cercana genética mantenida de generación en generación. Cierto es que se aprecia un pequeño cluster, pero alrededor de él, se aprecian otros tantos de relaciones simples que no aclaran si hubiera habido una endogamia en las últimas generaciones.

Vasco

Andaluz

En el caso de un andaluz (cuyo K15 son 4 español de spanish_andalucia) podemos observar que tiene un resultado similar al vasco, nuevamente sin presentar endogamia y parece ser que faltan kits de familiares cercanos para realmente disponer de un resultado “normal” como el de un británico (véase el ejemplo del británico)

Andaluz

Latinoamericano

En un latinoamericano no se aprecia una relación fuerte entre los diferentes nodos por lo que se comprende las relaciones normales entre personas que tienen antepasados comunes pero no endogamia.

Latino

Endogámicos

Endogamia inmediata (padres y abuelos con herencia endogámica)

En general, cuando existe endogamia inmediata (3 últimas generaciones), los primeros 500 kits están fuertemente relacionados entre ellos, lo que provoca que todos las personas de esos kits formen una gran familia cercana a pesar que no tienen relación alguna.

La morfología es claramente un gran cluster de aproximadamente 500 personas fuertemente relacionadas entre sí. Se puede interpretar como si todos fueran primos entre sí.

Ashkenazi 100% (JTest 32%)

AJ

 

Isleño

Esta persona es de una isla del Caribe. Dada las características de las islas, donde la geografía impide el fácil movimiento de la población local y por consiguiente, generaciones de personas que tienen familiares en común, la endogamia se hace claramente visible entre ellos. Interesante el tamaño de los nodos, que denotan un gran número de segmentos compartidos entre ellos.

Isleño

Endogamia reciente

En los casos que existe un endogamia en la 2a-3a generación atrás, la morfología de estas relaciones se visualiza como dos grandes clusters, el cluster difuso/familiar que corresponde a la familia “no endogámica” y otro cluster endogámico.

50% finlandesa 50% sueca

En este caso se aprecia bien la diferencia entre los ascendientes finlandeses y suecos. A pesar que en Eurogenes K15 puntúa 50% de cada herencia, la relación con finlandeses es mucho más fuerte por número de segmentos que la sueca, que se aprecia algo difusa.

FinlandesaSueca

2 Tatarabuelos AJ 100%

En este caso, la endogamia es de una pareja de tatarabuelos, pero aún así se mantiene claro el gran número de ashkenazis 100% que se encuentran en este cluster AJ a pesar de la lejanía generacional.

TatarabuelosAj

 

Conclusiones

  1. La endogamia se visualiza claramente incluso hasta 4 generaciones atrás.
  2. Con los 500 primeros kits que usa Gedmatch en la triangulación es suficiente para detectar endogamia. Pero es un problema para detectar otras relaciones en los casos de mix herencia tanto endogámica como no.
  3. El número de kits de familiares relativamente cercanos es importante para generar el “clásico” diagrama multicluster.
  4. En la endogamia “pura” (hasta la generación de los padres) se genera un diagrama con forma esférica prácticamente negra por el gran número de segmentos compartidos entre todos los nodos. Muy pocos nodos están relacionados con pocos segmentos y casi ninguno esta fuera de esta relación.
  5. La geografía y la cultura influyen claramente en la endogamia.
  6. La endogamia provoca que sea complejo identificar quien es pariente directo de una persona o no.
  7. Estos diagramas nos permiten verificar si los resultados de las calculadoras pueden ser ciertos en los casos que aparezcan resultados de poblaciones endogámicas.

Nota: Este análisis esta basado en mi criterio, si consideráis que se puede modificar, abierto estoy a que lo comentéis.

Nota 2: Si alguien tiene un kit de Gedmatch de algún islandés, se lo agradecería para realizar un análisis de endogamia.