https://frosthead.com

Pourquoi Google Flu Trends ne peut pas suivre la grippe (encore)

En 2008, Google a annoncé un nouveau service intriguant appelé Google Flu Trends. Les ingénieurs de la société avaient constaté que certaines requêtes de recherche (telles que celles contenant les mots "fièvre" ou toux ") semblaient marquer une pointe chaque saison grippale. Leur idée était d’utiliser la fréquence de ces recherches pour calculer les taux de grippe à l’échelle nationale plus rapidement que possible. Cela est fait avec des données conventionnelles (dont la collecte et l’analyse prend généralement quelques semaines), permettant aux gens de savoir quand prendre des précautions supplémentaires pour éviter de contracter le virus.

Contenu connexe

  • Comment les modèles météorologiques et Google pourraient-ils aider à prévoir la saison de la grippe
  • Big Data ou trop d'informations?

Les médias (ce journaliste inclus) se sont empressés de féliciter Google pour son utilisation aussi perspicace, novatrice et perturbatrice du Big Data. Le seul problème? Google Flu Trends n'a pas très bien performé.

Le service a constamment surestimé les taux de grippe, comparé aux données conventionnelles collectées par la suite par le CDC, estimant l'incidence de la grippe à un niveau supérieur à 100% sur 100 semaines entre août 2011 et septembre 2013. En janvier 2013, quand Les taux de grippe ont atteint un sommet, mais les estimations de Google Flu Trends étaient deux fois plus élevées que les données réelles. Son imprécision a finalement commencé à attirer l'attention de la presse.

L’explication la plus commune à cette divergence est que Google n’a pas pris en compte la hausse des requêtes liées à la grippe qui survient à la suite de l’hystérie grippale provoquée par les médias, qui se produit chaque hiver. Mais cette semaine dans Science, un groupe de spécialistes des sciences sociales dirigé par David Lazer propose une autre explication: les modifications apportées par Google à son algorithme de recherche sont à blâmer.

Certes, il est difficile pour des tiers d'analyser Google Flu Trends, car l'entreprise ne rend pas publics les termes de recherche spécifiques qu'elle utilise en tant que données brutes, ni l'algorithme particulier utilisé pour convertir la fréquence de ces termes en évaluations de la grippe. Mais les chercheurs ont fait de leur mieux pour inférer les termes en utilisant Google Correlate, un service qui vous permet de consulter les taux de termes de recherche particuliers au fil du temps.

Lorsque les chercheurs ont procédé de la sorte à diverses requêtes liées à la grippe au cours des dernières années, ils ont découvert que quelques recherches clés (traitements du virus de la grippe et recherche de la différenciation du rhume) suivaient de plus près avec Google Flu. Les tendances observées sont plus proches des taux réels de grippe, en particulier lorsque Google surestime la prévalence de la maladie. Ces recherches particulières, semble-t-il, pourraient constituer une part importante du problème de l'inexactitude.

Il existe une autre bonne raison de penser que cela pourrait être le cas. En 2011, dans le cadre de l'un de ses algorithmes de recherche habituels, Google a commencé à recommander des termes de recherche associés pour de nombreuses requêtes (y compris une recherche de traitements contre la grippe après que quelqu'un ait recherché de nombreux termes liés à la grippe dans Google) et en 2012, la société a commencé à fournir des diagnostics potentiels. en réponse à des symptômes lors de recherches (y compris la liste des mots "grippe" et "rhume" après une recherche incluant l'expression "mal de gorge", par exemple, incitant peut-être un utilisateur à rechercher le moyen de faire la distinction entre les deux). Les chercheurs affirment que ces ajustements ont probablement entraîné artificiellement une augmentation du nombre de recherches qu'ils ont identifiées comme étant à l'origine des surestimations de Google.

Bien sûr, si cette hypothèse était vraie, cela ne voudrait pas dire que Google Flu Trends est inévitablement voué à l'inexactitude, il doit simplement être mis à jour pour tenir compte des changements constants du moteur de recherche. Mais Lazer et les autres chercheurs affirment que le suivi de la grippe à partir de données massives est un problème particulièrement difficile.

Il s'avère que la plupart des termes de recherche en corrélation avec les données du CDC sur les taux de grippe ne sont pas dus à la grippe, mais à un troisième facteur qui affecte à la fois les habitudes de recherche et la transmission de la grippe: l'hiver. En fait, les développeurs de Google Flu Trends ont signalé avoir rencontré des termes particuliers, liés au basketball dans les écoles secondaires, par exemple, qui étaient corrélés au taux de grippe au fil du temps, mais qui n'avaient clairement rien à voir avec le virus.

Au fil du temps, les ingénieurs de Google ont supprimé manuellement de nombreux termes liés aux recherches sur la grippe mais n'ayant rien à voir avec la grippe, mais leur modèle était clairement trop dépendant des tendances de la recherche saisonnière non grippale, ce qui explique en partie pourquoi Google Flu Trends n'a pas reflété la L’épidémie de grippe H1N1 de 2009 s’est produite pendant l’été. En particulier dans ses versions antérieures, Google Flu Trends était "un détecteur partiel de grippe et un détecteur d’hiver", écrivent les auteurs du journal Science .

Mais tout cela peut constituer une leçon pour l’utilisation des mégadonnées dans des projets tels que Google Flu Trends, plutôt qu’une mise en accusation générale, affirment les chercheurs. Correctement mis à jour pour tenir compte des modifications apportées à l'algorithme de Google et analysé de manière rigoureuse pour éliminer les facteurs purement saisonniers, il pourrait être utile pour documenter les taux de grippe à l'échelle nationale, en particulier lorsqu'ils sont combinés avec des données conventionnelles.

À titre de test, les chercheurs ont créé un modèle combinant les données de Google Flu Trends (essentiellement en temps réel, mais potentiellement inexactes) avec des données CDC datant de deux semaines (datées, car il faut du temps pour les collecter, mais elles pourraient encore l'être. un peu indicatif des taux actuels de grippe). Leur hybride correspondait beaucoup plus étroitement aux données actuelles et actuelles concernant la grippe que Google Flu Trends, et offrait un moyen d'obtenir ces informations beaucoup plus rapidement que d'attendre deux semaines pour les données classiques.

"Notre analyse de Google Flu démontre que les meilleurs résultats proviennent de la combinaison d'informations et de techniques provenant des deux sources", a déclaré Ryan Kennedy, professeur de sciences politiques à l'Université de Houston et co-auteur, dans un communiqué de presse. "Au lieu de parler d'une" révolution du Big Data ", nous devrions parler d'une" révolution de toutes les données "."

Pourquoi Google Flu Trends ne peut pas suivre la grippe (encore)