En 1984, la Fondation nationale de recherche biomédicale a lancé une base de données en ligne gratuite contenant plus de 283 000 séquences de protéines. Aujourd'hui, la ressource d'informations sur les protéines permet aux scientifiques du monde entier de prendre une protéine inconnue, de la comparer aux milliers de protéines connues de la base de données et de déterminer en quoi elle est semblable. À partir de ces données, ils peuvent déduire rapidement et avec précision l’histoire évolutive d’une protéine et ses relations avec diverses formes de vie.
Les origines modestes de cette base de données en ligne massive commencent bien avant Internet. Tout a commencé avec l' Atlas of Protein Sequence and Structure, un livre imprimé en 1965 contenant les 65 séquences protéiques alors connues, compilé par une femme nommée Margaret Dayhoff. Pour créer son Atlas, Dayhoff a appliqué des technologies informatiques de pointe afin de trouver des solutions aux problèmes biologiques, contribuant ainsi à la naissance d'un nouveau domaine que nous appelons maintenant la bioinformatique. À l'origine chimiste, Dayhoff a exploité les technologies nouvelles et évolutives de l'ère informatique de l'après-seconde guerre mondiale pour créer des outils pionniers que chimistes, biologistes et astronomes pourraient utiliser pour l'étude interdisciplinaire des origines de la vie sur Terre.
Dayhoff (alors Margaret Oakley) est née à Philadelphie le 11 mars 1925 de Ruth Clark, professeur de mathématiques à l'école secondaire, et de Kenneth Oakley, propriétaire d'une petite entreprise. À l'âge de dix ans, sa famille a déménagé à New York. Là-bas, elle a fréquenté des écoles publiques, devenant par la suite l'admiration de Bayside High en 1942. Elle a étudié au Washington Square College de l'Université de New York avec une bourse d'études, obtenant son diplôme avec grande magnitude en mathématiques à peine trois ans plus tard, en 1945.
La même année, Dayhoff entra à la Columbia University pour obtenir son doctorat en chimie quantique sous le mentorat de l'éminent chimiste et chercheur en opérations de la Seconde Guerre mondiale, George Kimball. Son acceptation était une rareté pour l'époque. Après la Seconde Guerre mondiale, davantage d'hommes sont entrés dans les sciences et la chimie est devenue encore plus dominée par les hommes que durant la décennie précédente, avec seulement 5% des titulaires d'un doctorat en chimie allant aux femmes, contre 8% auparavant.
À l'époque de l'université de Dayhoff, Columbia était un foyer pour la technologie informatique. Il comptait parmi les premiers laboratoires informatiques aux États-Unis et, en 1945, il devint le siège du laboratoire IBM Watson Scientific dirigé par l'astronome WJ Eckert. Le laboratoire Watson avait d'abord servi de centre de calcul pour les Alliés au cours des derniers mois de la Seconde Guerre mondiale. Après la guerre, il devint un site pour développer certains des premiers super-ordinateurs, y compris le calculateur électronique de séquence sélective (SSEC), utilisé plus tard par Eckert pour calculer les orbites lunaires des missions Apollo.
Avec cette technologie à portée de main, Dayhoff a combiné son intérêt pour la chimie avec l'informatique au moyen de machines à cartes perforées, essentiellement des ordinateurs numériques anciens. Les machines ont permis à Dayhoff d’automatiser ses calculs, en stockant un algorithme sur un jeu de cartes et des données sur un autre. En utilisant la machine, elle était capable de traiter les calculs beaucoup plus rapidement et avec précision qu’à la main.
Le sujet d’intérêt particulier de Dayhoff était les composés organiques polycycliques, qui sont des molécules composées de trois atomes ou plus reliés en un cycle proche. Elle a utilisé les machines à cartes perforées pour effectuer un grand nombre de calculs sur les énergies de résonance des molécules (la différence entre l'énergie potentielle d'une molécule dans un état spécifique et dans un état moyen) pour déterminer la probabilité de liaison moléculaire et les distances de liaison.
Dayhoff a obtenu son doctorat en chimie quantique en seulement trois ans. La recherche qu’elle entreprit en tant qu’étudiante diplômée fut publiée avec le coauteur Kimball en 1949 dans le Journal of Chemical Physics sous le simple titre Calcul des cartes perforées des énergies de résonance.
Également en 1948, Dayhoff épouse Edward Dayhoff, un étudiant en physique expérimentale rencontré à Columbia. En 1952, le couple déménage à Washington, DC, où Edward occupe un poste au Bureau national de la normalisation et Dayhoff donne naissance à sa première de deux filles, Ruth. Dayhoff a bientôt abandonné ses recherches pour devenir une mère au foyer et Ruth et sa fille cadette, Judith, à l'exception d'un poste postdoctoral de deux ans à l'Université du Maryland.
Quand elle est retournée à la recherche et a commencé à solliciter des subventions pour financer son travail en 1962, elle a eu un choc. Les instituts nationaux de la santé ont rejeté une demande de subvention mentionnant Dayhoff en tant qu'investigateur principal, en expliquant que «[Dayhoff] était hors de tout contact intime depuis un certain temps… avec ce domaine compliqué et en rapide évolution», écrit l'historien Bruno Strasser dans son prochain livre Collecting Experiments: Making Big Data Biology . Ce genre de montée difficile pour les femmes qui ont pris du temps pour élever leurs enfants n'est qu'un des moyens par lesquels les institutions scientifiques ont entravé - et continuent d'entraver - la promotion des femmes.
Malgré le manque de soutien des NIH, Dayhoff était sur le point d'entrer dans la décennie la plus marquante de sa carrière. En 1960, elle a accepté l'invitation fatale de Robert Ledley, un biophysicien pionnier qu'elle a rencontré par l'intermédiaire de son mari, à le rejoindre à la Fondation nationale de recherche biomédicale à Silver Spring, dans le Maryland. Ledley savait que les compétences en informatique de Dayhoff seraient essentielles à l'objectif de la fondation de combiner les domaines de l'informatique, de la biologie et de la médecine. Elle serait son directeur associé pendant 21 ans.
Une fois dans le Maryland, Dayhoff avait toute liberté pour utiliser le tout nouvel ordinateur central IBM 7090 de l’Université de Georgetown. Le système IBM a été conçu pour gérer des applications complexes, avec une vitesse de calcul six fois supérieure à celle des modèles précédents. Cette vitesse avait été obtenue en remplaçant la technologie des tubes à vide, plus lente et plus volumineuse, par des transistors plus rapides et plus efficaces (composants qui produisent les 1 et les 0 des ordinateurs). À l'aide de l'ordinateur central, Dayhoff et Ledley ont commencé à rechercher et à comparer des séquences peptidiques avec les programmes FORTRAN qu'ils avaient eux-mêmes écrits pour tenter d'assembler des séquences partielles en une protéine complète.
Console opérateur IBM 7090 au centre de recherche de la NASA Ames en 1961, avec deux banques de lecteurs de bande magnétique IBM 729. (NASA)L'engagement de Dayhoff et Ledley à appliquer l'analyse informatique à la biologie et à la chimie était inhabituel. «La culture de l'analyse statistique, sans parler de l'informatique numérique, était complètement étrangère à la plupart des [biochimistes]», explique Strasser dans une interview avec Smithsonian.com . «Certains se sont même enorgueillis de ne pas être des« théoriciens », c'est ainsi qu'ils ont compris l'analyse de données à l'aide de modèles mathématiques.»
L'astronomie était une discipline scientifique dans laquelle les connaissances informatiques de Dayhoff étaient plus appréciées. Cet intérêt pour l'informatique est en partie dû à WJ Eckhart, qui en 1940 avait utilisé des machines à cartes perforées IBM pour prédire les orbites planétaires. Et dans les années 1960, l'intérêt américain pour l'exploration spatiale battait son plein, ce qui signifiait un financement de la NASA. À l'université du Maryland, Dayhoff rencontra Ellis Lippincott, spectroscopiste, qui l'amena à collaborer pendant six ans avec Carl Sagan à Harvard en 1961. Ils développèrent tous les trois des modèles thermodynamiques de la composition chimique de la matière. pourrait calculer les concentrations de gaz à l’équilibre dans les atmosphères planétaires.
Avec le programme de Dayhoff, elle, Lippincott et Sagan ont été en mesure de choisir un élément à analyser, leur permettant d’enquêter sur de nombreuses compositions atmosphériques différentes. Finalement, ils ont développé des modèles atmosphériques pour Vénus, Jupiter, Mars et même une atmosphère primordiale de la Terre.
En explorant le ciel, Dayhoff a également abordé une question que les chercheurs exploraient depuis au moins les années 1950: quelle est la fonction des protéines? Le séquençage des protéines était un moyen de trouver la réponse, mais le séquençage de protéines individuelles était extrêmement inefficace. Dayhoff et Ledley ont adopté une approche différente. Au lieu d'analyser des protéines isolément, ils ont comparé des protéines dérivées de différentes espèces végétales et animales. «En comparant les séquences d'une même protéine chez différentes espèces, on a pu déterminer quelles parties de la séquence étaient toujours identiques chez toutes les espèces, ce qui indique clairement que cette partie de la séquence était cruciale pour le bien de la protéine», explique Strasser.
Dayhoff a sondé plus en profondeur, en se basant sur l'histoire commune des protéines. Elle a analysé non seulement les parties identiques d'une espèce à l'autre, mais également leurs variations. «Ils ont pris ces différences pour mesurer les distances d'évolution entre espèces, ce qui leur a permis de reconstruire des arbres phylogénétiques», explique Strasser.
Dayhoff, toujours prêt à exploiter le potentiel des nouvelles technologies, a mis au point des méthodes informatisées pour déterminer les séquences protéiques. Elle a procédé à une analyse informatique des protéines chez une grande variété d'espèces, du champignon Candida à la baleine. Ensuite, elle a utilisé leurs différences pour déterminer leurs relations ancestrales. En 1966, avec l'aide de Richard Eck, Dayhoff crée la première reconstruction d'un arbre phylogénétique.
En 1969, dans un article de Scientific American, "Analyse informatique de l'évolution des protéines", Dayhoff présenta au public l'un de ces arbres, ainsi que ses recherches utilisant des ordinateurs pour séquencer des protéines. «Chaque séquence de protéines établie, chaque mécanisme évolutif mis en lumière, chaque innovation majeure révélée dans l'histoire phylogénétique amélioreront notre compréhension de l'histoire de la vie», a-t-elle écrit. Elle essayait de montrer à la communauté des sciences de la vie le potentiel des modèles informatisés.
Son prochain objectif était de rassembler toutes les protéines connues à un endroit où les chercheurs pourraient trouver des séquences et les comparer à d’autres. Contrairement à aujourd'hui, lorsqu'il est facile d'appeler des sources sur une base de données électronique avec un simple mot clé, Dayhoff a dû parcourir des journaux physiques pour trouver les protéines qu'elle cherchait. Dans de nombreux cas, cela impliquait de rechercher les erreurs dans les travaux de nos collègues chercheurs. Même à l’aide d’un ordinateur, le travail de collecte et de catalogage des séquences a nécessité un temps considérable et un œil scientifique perspicace.
Tout le monde ne voyait pas la valeur de ce qu'elle faisait. Pour d'autres chercheurs, les travaux de Dayhoff ressemblaient plus aux travaux de collection et de catalogage d'histoire naturelle du XIXe siècle qu'aux travaux expérimentaux d'un scientifique du XXe siècle. «Recueillir, comparer et classifier des éléments de la nature paraissaient démodés à de nombreux biologistes expérimentaux au cours de la seconde moitié du XXe siècle», déclare Stasser. Il fait référence à Dayhoff en tant qu '"outsider". "Elle a contribué à un domaine qui n'existait pas et n'avait donc aucune reconnaissance professionnelle", dit-il.
En 1965, Dayhoff a publié pour la première fois sa collection de 65 protéines connues dans l' Atlas of Protein Sequence and Structure, une version imprimée de sa base de données. Finalement, les données ont été transférées sur une bande magnétique et maintenant, elles sont en ligne, où les chercheurs continuent à utiliser ses données pour trouver des milliers de protéines supplémentaires. D'autres bases de données biomédicales ont rejoint la mêlée, dont la Protein Data Bank, une collection collaborative de protéines et d'acides nucléiques lancée en 1971, et GenBank, la base de données de séquences génétiques lancée en 1982. Dayhoff a lancé une révolution scientifique.
«Aujourd'hui, chaque publication en biologie expérimentale contient une combinaison de nouvelles données expérimentales et d'inférences tirées de comparaisons avec d'autres données disponibles dans une base de données publique, une approche que Dayhoff a lancée il y a un demi-siècle», déclare Strasser.
Au fur et à mesure que la bioinformatique se développait, les tâches de collecte et de calcul incombaient largement aux femmes. Les collaborateurs de Dayhoff sur l' Atlas étaient toutes des femmes, à l'exception de Ledley. Comme les «ordinateurs» féminins de la NASA dans les années 1960 et les briseurs de code féminins de la Seconde Guerre mondiale, ces femmes ont rapidement été marginalisées par la pratique scientifique. En se référant aux «filles ENIAC» qui ont programmé le premier ordinateur numérique polyvalent, l'historienne de l'informatique, Jennifer Light, écrit que «c'est dans les limites de classements professionnels aussi bas que ceux-ci que les femmes ont été engagées dans un travail sans précédent».
Dans sa notice biographique de Dayhoff, Lois T. Hunt, qui a travaillé sur l’ Atlas avec elle, a écrit que Dayhoff pensait que son enquête sur l’atmosphère primordiale de la Terre pourrait lui donner «les composés nécessaires à la formation de la vie». l’informatique, c’est ce qui lie les différentes parties de la recherche scientifique de Dayhoff. De la minuscule protéine à la vaste atmosphère, Dayhoff cherchait les secrets de l’émergence de la vie sur cette planète. Bien qu'elle ne les ait pas toutes révélées, elle a donné à la science moderne les outils et les méthodes nécessaires pour poursuivre ses recherches.