Données mondiales

Un checkpoint aux Philippines, 13 mai 2020, RVO for Philippine Information Agency Bohol, Public domain, via Wikimedia Commons

Policy trackers

Dans les premiers mois de l’année 2020, des dizaines de chercheurs à travers le monde eurent, de manière indépendante, la même idée. Ils formèrent de petits groupes, souvent associés à une université donnée, et commencèrent à archiver systématiquement les politiques nationales ou locales justifiées par la pandémie : fermeture des frontières, des écoles, des commerces non-essentiels, confinement, couvre-feu, déploiement de la police ou de l’armée, traçage des cas contacts, quarantaine, port du masque, etc. Ce qu’en anglais on appelle Public Health and Social Measures ou Non Pharmaceutical Interventions. L’idée était de coder chaque politique de manière standardisée, selon un glossaire prédéfini, afin de permettre des comparaisons internationales, et d’obtenir une couverture du monde la plus exhaustive possible. Les routines de la recherche étaient sérieusement perturbées, et les canaux de communication scientifiques habituels ne fonctionnaient pour ainsi dire pas. Dans un moment de synchronisation saisissante des politiques publiques à l’échelle du globe, chacun restait enfermé dans les limites étroites du territoire national, de la région de confinement, voire de son domicile. On comprend facilement l’envie pressante de documenter les congruences et les variations des mesures édictées pour faire face au virus. On comprend aussi que des dizaines de projets très semblables aient pu être montés, en ignorant complètement, au moins dans les premiers mois, l’existence des autres. Dès l’été 2020, toutefois, les différentes équipes commencèrent à publier le résultat de leurs efforts dans de grandes revues anglo-saxonnes, principalement Nature, mettant leurs bases de données, parfois énormes, à disposition de l’ensemble de la communauté scientifique, et détaillant leurs méthodes de collecte et leurs protocoles de validation.

Parmi les bases de données les plus conséquentes, on peut citer :

  • CoronaNet, qui archive plus de 130 000 politiques nationales et sub-nationales dans 190 pays (Cheng et al. 2020).
  • Oxford Covid-19 Government Response Tracker (OxCGRT), qui code plus de 85 000 politiques, ventilées en 26 types, pour 180 pays (Hale et al. 2021).
  • COVID-19 Government Measures Dataset, conçu par l’ONG ACAPS, spécialisée dans la récolte de données sur les crises humanitaires.
  • HIT-COVID, développé par une une équipe d’épidémiologistes et de chercheurs en santé publique de l’Université John Hopkins, qui se concentre particulièrement sur l’Afrique, l’Asie et l’Amérique du Sud, et descend au niveau sub-national (Zheng et al. 2020).
  • Complexity Science Hub COVID-19 Control Strategies List (CCCSL), qui distribue 11512 mesures enregistrée en 63 catégories et 500 sous-catégories. À titre d’exemple, les restrictions frappant les voyages sont divisées en 7 catégories et 50 sous-catégories (Desvars-Larrive et al. 2020).
  • Protective Policy Indices (PPI), qui se distingue par une remarquable granularité spatiale : des données au niveau du premier échelon administratif sont disponibles pour 74 pays(Shvetsova et al. 2022).

À la fin de l’année 2020, le temps était venu de recenser et de confronter de manière systématique ces jeux de données. Au début, de bonnes volontés les signalaient dans un fil Twitter, qui devint un répertoire alimenté de manière collaborative, le Tracker of Trackers, puis se mua, quelques mois plus tard, en une base de données, le Supertracker, hébergée par l’Université d’Oxford. Le Supertracker recense, au moment où nous écrivons, quelques 300 éléments, organisés par thèmes : Liberties and Human Rights, Macroeconomic and Financial Policy, Education Policy, Health and Care Policy, etc. De son côté, l’Organisation Mondiale de la santé (OMS), aidée de la London School of Tropical Medecine, faisait un effort pour fusionner quelques unes des principales bases de données existantes au sein d’une seule et unique base. De cette fusion naquit lePublic Health and Social Measures Dataset, qui archive, pour tous les pays du monde, 121 238 politiques mises en place à tous les niveaux administratifs.

Devant ces chiffres impressionnants, la perplexité gagne peut-être le lecteur. Qui a réellement récolté toutes ces données, comment, et quelle est leur fiabilité ? La plupart des projets ont reposé sur le travail bénévole de dizaines, ou de centaines de personnes à travers le monde. Dans un article en forme de bilan, signé par les concepteurs des principaux Trackers, les auteurs estiment qu’environ 2000 volontaires ont fait la récolte des données pour les 40 plus grandes bases(Cheng et al. 2022, 3). CoronaNet, le projet le plus important, a fait appel à 260 « assistants de recherche » tout autour du monde. Chacun d’entre eux était en charge d’un pays, ou d’une fraction d’un pays, et devait scruter attentivement les sites gouvernementaux ou la presse en ligne pour détecter toute nouvelle mesure en lien avec le virus. Chaque trouvaille était saisie dans un questionnaire en ligne, avec sa date d’entrée en vigueur, la date de fin (si elle était connue), le code de la mesure selon le glossaire standardisé élaboré par l’équipe, le caractère obligatoire ou incitatif et les sanctions prévues. Dans leur très grande majorité, ces « assistants de recherche » étaient des étudiants, dont beaucoup étaient d’autant plus disponibles pour ce travail de petite main qu’ils étaient strictement enfermés chez eux. Seule une infime minorité a été rémunéré pour cela, pas forcément à cause de la mauvaise volonté des chercheurs, mais parce que la grande majorité de ces projets n’ont reçu aucun financement.

Autrement dit, la cartographie mondiale des mesures liées à la pandémie repose presque exclusivement sur le travail bénévole d’étudiants à l’affût des dépêches de la presse en ligne. Les bases sont donc, nécessairement, d’une qualité inégale, notamment en ce qui concerne le codage des informations recueillies. En faisant coder la même mesure à deux étudiants différents, au cours de leur processus de vérification, les chercheurs se sont aperçus qu’il y avait parfois, et comme c’est presque toujours le cas pour ce type d’opérations de recherche, des divergences substantielles entre les codeurs. Le pourcentage d’accord sur la notion de couvre-feu (curfew) par exemple, qui semble pourtant assez transparente, n’est que de 80% (Cheng et al. 2020, 764). Selon les trackers, ces divergences étaient résorbées soit par consensus, soit par le vote majoritaire. Au fil des rounds de vérification, à mesure que la classification des politiques se stabilisait, puis, plus tard, quand les différentes bases ont été confrontées entre elles, elles sont devenues de plus en plus robustes.

A Good Reason

Pour l’Europe, il existe une base de données qui colle parfaitement aux questions posées dans ce livre. Elle s’appelle A Good Reason. A Chronicle of stay at home orders in Europe. Elle n’a pas été développée par une équipe internationale de chercheurs, mais par un unique individu, Jean Merlin Von Agris, titulaire d’un Master en économie du développement, une trentaine d’années au moment des premiers confinements. Fermement opposé au principe de l’assignation à domicile, il commence, au cours de l’année 2020, à nourrir, de manière intermittente, une base de données systématique des stay-at-home-orders en Europe. Il se pose une question toute simple : où et quand fallait-il une « bonne raison » (a good reason) pour sortir de chez soi ?

Petit à petit, le projet prend de l’ampleur, des centaines d’heures sont consacrées à éplucher la presse en ligne et les sites gouvernementaux, dans plusieurs langues. Une première version de la base est publiée au cours de l’année 2021, puis améliorée par la suite.

Sous sa forme définitive, elle suit les politiques de confinement dans l’Europe continentale, c’est à dire pour 47 unités territoriales, incluant la Turquie, la Russie, l’Ukraine et la Biélorussie, du 1er janvier 2020 au 30 juin 2021. Pour donner une idée de sa précision, on y trouve plusieurs des couvre-feux mis en place par des municipalités en France au cours du printemps 2020, notamment dans le Nord de la France. Par ailleurs, le taux de convergence avec la base de 41 pays constituée par Jan Brauner et ses collègues (Brauner et al. 2021) est excellent.

Néanmoins, jusqu’à ce que nous repérions la base dans le Supertracker maintenu par l’Université d’Oxford, aucun chercheur ne s’en était emparé, et à part quelques échanges avec l’équipe de l’OxCGRT pour corriger des erreurs mutuelles et une période de bénévolat pour CoronaNet, Von Agris était resté complètement ignoré du petit monde travaillant sur ces questions.

Nous montrons comment utiliser ces données dans L’Europe des promenades surveillées.

Mobility data

Les indicateurs journaliers de Google sur la fréquentation de différents espaces et l’évolution du temps passé au domicile, que nous avons utilisés à plusieurs reprises dans ce livre, ou encore ceux d’Apple, que nous avons très brièvement mobilisés pour construire, dans la FAQ, un indicateur synthétique d’enfermement, ne représentent qu’une partie des données de mobilité utilisables (Hu et al. 2021).

Note

Un article méthodologique antérieur à la pandémie évalue la robustesse des données issues de l’historique des positions de Google (Ruktanonchai et al. 2018). À partir de 2025, l’historique des positions, aussi appelé “Mes Trajets” ou “Timeline”, ne sera plus stocké que localement sur l’appareil.

Les données de mobilité de Facebook sont présentées sur le site web Data for Good et téléchargeables sur le site web Humanitarian Data Exchange. Elles ont été mises à jour pour la dernière fois en mai 2022.

Baidu (l’équivalent chinois de Google), ainsi que les opérateurs de téléphonie mobile, ont aussi fourni les leurs. Nous espérons que le large usage que nous en avons fait dans ce livre permettra, en creux et après beaucoup d’autres mises en garde, de réfléchir à leur potentielle dangerosité.

Sondages

Le Covid 19 Behaviour Tracker Data Hub constitué par YouGov et l’Imperial College de Londres contient des données nationalement représentatives pour de nombreux pays (dont le Danemark, la Finlande, la France, l’Allemagne, les Philippines, l’Espagne, l’Italie et la Suède) à partir du 31 mars 2020.

Traces de la violence

On s’est également appuyés sur la presse internationale, les ONG de défense des Droits de l’Homme, ainsi que sur l’Armed Conflicts Locations and Events Dataset (ACLED). Les données du COVID-19 Disorder Tracker de l’ACLED sont téléchargeables sur cette page (moyennant la création d’un compte).

Les références

Brauner, Jan M., Sören Mindermann, Mrinank Sharma, David Johnston, John Salvatier, Tomáš Gavenčiak, Anna B. Stephenson, et al. 2021. « Inferring the Effectiveness of Government Interventions Against COVID-19 ». Science 371 (6531): eabd9338. https://doi.org/10.1126/science.abd9338.
Cheng, Cindy, Joan Barceló, Allison Spencer Hartnett, Robert Kubinec, et Luca Messerschmidt. 2020. « COVID-19 Government Response Event Dataset (CoronaNet v.1.0) ». Nature Human Behaviour 4 (7): 756‑68. https://doi.org/10.1038/s41562-020-0909-7.
Cheng, Cindy, Amélie Desvars-Larrive, Bernhard Ebbinghaus, Thomas Hale, Alexandra Howes, Lukas Lehner, Luca Messerschmidt, et al. 2022. « Capturing the COVID-19 Crisis Through Public Health and Social Measures Data Science ». Scientific Data 9 (1): 520. https://doi.org/10.1038/s41597-022-01616-8.
Desvars-Larrive, Amélie, Elma Dervic, Nina Haug, Thomas Niederkrotenthaler, Jiaying Chen, Anna Di Natale, Jana Lasser, et al. 2020. « A Structured Open Dataset of Government Interventions in Response to COVID-19 ». Scientific Data 7 (1): 285. https://doi.org/10.1038/s41597-020-00609-9.
Hale, Thomas, Noam Angrist, Rafael Goldszmidt, Beatriz Kira, Anna Petherick, Toby Phillips, Samuel Webster, et al. 2021. « A Global Panel Database of Pandemic Policies (Oxford COVID-19 Government Response Tracker) ». Nature Human Behaviour 5 (4): 529‑38. https://doi.org/10.1038/s41562-021-01079-8.
Hu, Tao, Siqin Wang, Bing She, Mengxi Zhang, Xiao Huang, Yunhe Cui, Jacob Khuri, et al. 2021. « Human Mobility Data in the COVID-19 Pandemic: Characteristics, Applications, and Challenges ». International Journal of Digital Earth 14 (9): 1126‑47. https://doi.org/10.1080/17538947.2021.1952324.
Ruktanonchai, Nick Warren, Corrine Warren Ruktanonchai, Jessica Rhona Floyd, et Andrew J. Tatem. 2018. « Using Google Location History data to quantify fine-scale human mobility ». International Journal of Health Geographics 17 (1): 28. https://doi.org/10.1186/s12942-018-0150-z.
Shvetsova, Olga, Andrei Zhirnov, Abdul Basit Adeel, Mert Can Bayar, Onsel Gurel Bayrali, Michael Catalano, Olivia Catalano, et al. 2022. « Protective Policy Index (PPI) Global Dataset of Origins and Stringency of COVID 19 Mitigation Policies ». Scientific Data 9 (1): 319. https://doi.org/10.1038/s41597-022-01437-9.
Zheng, Qulu, Forrest K. Jones, Sarah V. Leavitt, Lawson Ung, Alain B. Labrique, David H. Peters, Elizabeth C. Lee, et Andrew S. Azman. 2020. « HIT-COVID, a Global Database Tracking Public Health Interventions to COVID-19 ». Scientific Data 7 (1): 286. https://doi.org/10.1038/s41597-020-00610-2.