https://frosthead.com

Cet arbre pourrait être le plus grand au monde

L'essor des tests ADN via des services tels que 23andme montre qu'il existe un marché important pour l'histoire familiale.

Aujourd'hui, les scientifiques ont construit sur ces données en publiant ce qu'ils considèrent être la plus grande base de données de généalogie au monde, avec un arbre généalogique qui relie 13 millions de personnes et s'étend sur plus de cinq siècles.

Comme le rapporte Jocelyn Kaiser pour le magazine Science, Yaniv Erlich, généticien en informatique à l'Université Columbia, a conçu le projet il y a sept ans après avoir reçu un courrier électronique d'un cousin éloigné via Geni.com, l'un des nombreux sites de recherche de liens familiaux.

Avec le soutien du directeur de la technologie de Gemi.com, Erlich a téléchargé les profils publics du site, qui se chiffrent en dizaines de millions. Bien qu'il ne fournisse pas de données ADN, les informations incluaient le nom d'une personne, son sexe, les date et lieu de naissance, la date du décès et ses proches parents.

Nature avait décrit le projet d’Erlich à ses débuts en 2013 et, l’année dernière, Sarah Zhang, de l’ Atlantique, a annoncé que les chercheurs avaient publié une pré-impression de l’énorme arbre. Maintenant, écrit Kaiser, l'équipe d'Erlich a publié une étude sur leurs travaux dans la revue Science. En utilisant les données, ils se sont retrouvés avec 5, 3 millions d'arbres, dont le plus important relie environ 13 millions de parents, principalement d'origine européenne.

Depuis le début du projet, Erlich est devenu le responsable scientifique de MyHeritage, une entreprise de généalogie et de tests ADN propriétaire de Geni.com. Il a fait une reddit Ask Me Anything vendredi dernier sur ses découvertes, corrigeant les idées fausses et expliquant la méthodologie derrière le projet. Il a également noté que l'expérience la plus intéressante pour lui consistait à trouver un moyen de traduire toutes les données disponibles en quelque chose de personnel.

Dans une interview avec Nicole Wetsman de National Geographic, Erlich a expliqué que le travail le plus difficile du projet était de déterminer comment travailler avec ces données. «Les jeux de données génomiques ont des outils, des structures de données et des méthodes spécifiques, mais nous n'en avions aucune pour cela. Nous inventions la roue au fur et à mesure », dit-il.

En fin de compte, les chercheurs ont utilisé la théorie mathématique des graphes pour organiser et vérifier les informations, rapporte Laura Geggel pour Live Science . Ils ont également comparé les profils avec environ 80 000 certificats de décès du Vermont disponibles au public sur une période de 25 ans afin de s’assurer que ce ne sont pas seulement les riches profils téléchargés sur Geni.com.

L’équipe a ensuite décidé des informations qu’elle souhaitait rechercher pour tester la base de données, écrit Wetsman.

Ils ont commencé à examiner les tendances et ont constaté des fluctuations dans la durée de vie, anticipées par eux. Par exemple, ils ont constaté une chute de jeunes hommes durant la guerre de Sécession et les deux guerres mondiales et une augmentation de la survie infantile dans les années 1900. Ils ont également pu suivre la migration, comme l’arrivée du Mayflower en 1620 dans l’actuel Massachusetts, suivie d’une augmentation du nombre de naissances dans cette région.

Les chercheurs ont également découvert que la longévité est plus liée à l'environnement et au comportement qu'à la génétique; en fait, les données ont révélé que les gènes ne sont responsables que de 16% de la durée de vie. Paola Sebastiani, professeur de biostatistique à l’École de santé publique de l’Université de Boston, met toutefois en garde de tirer des conclusions autour de ces données lors d’un entretien avec Wetsman. «Les définitions de la longévité sont très confuses», dit-elle.

Le généticien Peter Visscher de l'Université du Queensland à Brisbane, en Australie, explique à Kaiser que les données recueillies par l'équipe d'Erlich ont le potentiel de fournir un aperçu du rôle de la génétique sur les maladies si les données sont liées à des informations sur la santé.

L’équipe de recherche a déjà commencé à combiner l’arbre avec les informations d’ADN.Land, ce qui permet de collecter des données d’ADN, ce qui pourrait signifier qu’un arbre encore plus grand pourrait bientôt arriver. Les chercheurs prédisent que si la base de données peut remonter à 65 générations, ils pourront compléter l’arbre.

Cet arbre pourrait être le plus grand au monde