Covid-19 : estimation de l’évolution du R0 en France

Catégorie :

Data Science

Savoir-faire :

Data & Digital Performance

Publié le :

13

May

2020

Temps de lecture :

6 minutes

#
Article
#
Modélisation
#
DataScience
Photo d'une enseigne indiquant que le monde est fermé
Article mis à jour le

Jusque-là réservé aux discussions savantes entres épidémiologistes, le R0 a fait irruption dans le débat public, durant la période de confinement, pour devenir un élément incontournable du champ lexical associé au Covid-19, au même titre que le masque, les cas contacts ou l'hydroxychloroquine, etc.

Le R0, ou le nombre de reproduction de base, est le nombre moyen de cas secondaires contaminés par une seule personne infectée. Si, par exemple, chaque personne infectée contamine à son tour 5 personnes alors le R0 est égal à 5. Il faut noter que la notion de moyenne est capitale ici. En réalité, le R0 varie d'une manière assez significative selon les personnes : certains cas sont très peu contaminateurs, voire pas du tout, alors que d'autres, qu'on appelle les super-contaminateurs, peuvent générer jusqu'à plusieurs dizaines de cas secondaires ; et ces super-contaminateurs, bien que peu nombreux, sont souvent ceux qui contribuent le plus à la propagation du virus. Cette variabilité peut expliquer, en partie du moins, l'apparition de clusters et la variabilité que l’on observe entre les régions – mais également la variabilité dans le temps (l'explosion soudaine de l'épidémie).

Bien qu'il s'agisse d'une moyenne, le R0 d’une épidémie mesure sa dynamique. Un R0 inférieur à 1 est en effet synonyme de l'extinction progressive de l'épidémie, tandis qu'un R0 supérieur à 1 induit sa progression exponentielle – et celle-ci est d’autant plus rapide que la valeur du R0 est grande. Suivre l'évolution du R0 dans le temps permet notamment d’évaluer l’efficacité des mesures de contrôle. Celles-ci peuvent prendre la forme d'une intervention de l'Etat, comme le confinement, mais elles peuvent également être le résultat de la réaction spontanée de la population à l'évolution de l'épidémie (distanciation physique, hygiène, etc.).

Le R0, synthèse de l’évolution de la propagation du virus

Pour mieux comprendre le R0 et son importance dans le contrôle de l'épidémie, il est utile d'observer son lien avec trois facteurs :

La durée de l'infection : plus celle-ci est courte chez une personne contaminée, moins de cas secondaires pourront être générés. Du point de vue du contrôle, la durée de l'infection peut être réduite par un traitement médical, quand celui-ci est disponible.

Le nombre moyen de contacts par personne infectée : ce nombre est également proportionnel au R0. Le nombre de contacts peut être réduit par des mesures comme le confinement, la limitation des déplacements, le traçage et l'isolation des cas positifs, etc.

La probabilité de transmission du virus entre une personne contaminée et une personne susceptible de contracter le virus : cette probabilité, également proportionnelle à R0, peut être réduite grâce à des mesures comme le port de masques ou la distanciation physique.

Le R0 ne dépend pas seulement de la contagiosité propre du virus ; il est déterminé par tout l'environnement de l'épidémie, notamment les comportements collectifs et individuels de la population.

Stopper la propagation du virus nécessite de baisser ce R0 en dessous de 1. Une politique de contrôle devrait donc chercher à réduire le nombre moyen de contacts et la probabilité de transmission sans nécessairement chercher à les annuler.

L’évolution du R0 en France

L’estimation du R0, même moyennée sur toute la période de l’épidémie, n’est jamais évidente, car celle-ci dépend de plusieurs facteurs : qualité des données, modèle choisi, technique d’estimation des paramètres, etc. Le calcul du R0 instantané (qu’on appelle généralement le R) est ainsi d’autant plus délicat. En comparant 12 études, des chercheurs chinois ont montré que les estimations du R0 associé au Covid-19 varient entre 1.5 et 6.68 ! Pour assurer une certaine robustesse de notre estimation, nous avons considéré deux approches : une stochastique et une déterministe. Bien que fondamentalement différentes, leurs résultats s’accordent dans une large mesure quant aux profils du R obtenus.

Les résultats présentés sont ceux obtenus à l’aide du modèle stochastique. Les aspects techniques des deux modèles sont discutés par la suite.

Le modèle stochastique s’appuie sur les données d’incidence journalière, à savoir le nombre de nouveaux cas positifs par jour, rapportées dans le graphique suivant. Celles-ci sont très bruitées ; ces fluctuations très importantes peuvent s’expliquer par la fluctuation des réalisations des tests réalisés et des remontées des résultats (biais lié au week-end et jours fériés). Par ailleurs, on peut observer une valeur négative au 29 avril ; après croisement avec d’autres sources de données, il semble que cette anomalie corresponde à une compensation des deux jours précédents (données fournies par www.data.gouv.fr). Le pic du 6 mai est moins explicable, probablement dû à des mises à jour substantiellement différées.

Pour réduire le bruit sur les données originelles, nous avons appliqué une régression locale (courbe bleue sur le graphique ci-dessous).

courbe d'evolution des nouveaux cas de covid-19 en France
Figure 1 - Évolution des nouveaux cas en France.
En bleu, les données lissées à l’aide d’une régression locale.

L’estimation du R0 peut être réalisée sur les données lissées. On obtient alors le graphique suivant :

Courbe de l'evolution du R0 de l'épidémie de Covid-19 en France jusqu'au 13 mai 2020 obtenue à l'aide d'un modèle stochastique
Figure 2 - Évolution du R0 en France jusqu'au 13 mai 2020.
Courbe obtenue à l’aide d’un modèle stochastique

Le premier constat est la baisse continue du nombre de reproduction R0 : de plus de 3 vers début mars, pour passer à moins de 1 vers mi-avril et atteindre, au début du mois de mai, une valeur proche de 0.6. En regardant ensuite de plus près, on peut constater une certaine inflexion vers la dernière semaine de mars, où la baisse du R0 semble s’être accélérée. On peut supposer que cette inflexion est due aux premiers effets du confinement, intervenu près d’une semaine plus tôt. La baisse continue et significative observée avant avril, moins attendue, est probablement l’enseignement le plus intéressant exhibé par le modèle. Elle peut s’expliquer par une explosion brutale de l’épidémie vers le début du mois de mars, en raison notamment de cas de super-contaminateurs – comme l’événement de Mulhouse, par exemple – ou tout simplement par une augmentation du nombre de tests réalisés. Cependant, cette baisse continue peut également être attribuée aux effets de la prise de conscience générale concernant la gravité de la pandémie, qui aurait amené des effets rétroactifs, sous forme de distanciation physique, de mesures supplémentaires d’hygiène, etc. Cette explication souligne l’importance capitale des comportements individuels ; elle va dans le sens de la responsabilisation des individus et montre que la lutte contre la pandémie, avant d’être l’affaire de l’État, est celle de tout un chacun.

Enfin, la reprise observée durant la dernière semaine est due à une hausse des cas positifs, notamment pour la journée de mercredi 6 mai, où l’on recense plus de 4000 nouveaux cas. Cette reprise à la hausse est vraisemblablement due à un problème dans la collecte de données, mais, en l’absence de certitude, nous avons choisi de privilégier la prudence quant à d’éventuels rebond ou apparition de clusters.

Présentation technique des deux approches

Modèle stochastique

Le modèle stochastique que nous avons présenté plus haut a été réalisé à l’aide d’un package R, nommé EpiEstim, développé par des chercheurs de l’Imperial College of London (Cori et al.). Celui-ci permet de calculer le R0 – ou, plus exactement, sa distribution a posteriori – à l’aide d’une formule analytique dérivée d’un modèle bayésien. L’évolution du nombre de cas contaminés est modélisée comme un processus de Poisson (vraisemblance) et la loi a posteriori est une gamma. Le package permet également d’échantillonner à partir d’une distribution sur l’intervalle sériel. Celui-ci représente la durée entre le moment de l'apparition des symptômes dans un cas primaire et celui de leur apparition dans un cas secondaire. Le modèle stochastique nécessite d’expliciter certaines hypothèses, notamment l'intervalle sériel. Celui que nous avons considéré dans notre modèle est de 4 jours, valeur empruntée à une étude parue en mars 2020 (Nishiura et al.). Par ailleurs, le R0 est calculé sur une fenêtre de temps glissante d’une semaine.

Modèle déterministe

Le modèle déterministe a été réalisé à partir d’un modèle compartimental SIR en posant un problème inverse. On rappelle que les équations dynamiques du modèle s’écrivent :

S est le nombre de personnes susceptibles de contracter le virus, I est celui des personnes infectées et R le nombre de guéris ou de décès ; bêta est un paramètre qui modélise le passage du compartiment des personnes susceptibles à celui des personnes infectées et gamma le passage du compartiment des personnes infectées à celui des personnes guéries.

Comme le R0 est donné par :

Il suffit alors d’estimer les paramètres bêta et gamma à partir des équations dynamiques et des données en considérant la variable I.

Les données utilisées ici concernent les cas infectés et les cas guéris. Celles-ci sont préalablement lissées à l’aide d’une régression locale pour réduire la variance des dérivées. Ensuite, en discrétisant les équations dynamiques sur une fenêtre glissante d’une semaine, dans laquelle on estime à chaque fois les paramètres bêta et gamma, on obtient le profil suivant pour le R0 :

Courbe de l'evolution du R0 de l'épidémie de Covid-19 en France jusqu'au 13 mai 2020 obtenue à l'aide d'un modèle déterministe
Figure 3 - Évolution du R0 en France jusqu’au 13 mai.
Courbe obtenue à l'aide d'un modèle déterministe (SIR).

On note que la courbe est similaire à celle obtenue par le modèle stochastique. L’inflexion observée précédemment, la dernière semaine de mars, est moins visible ici. On peut également noter la valeur initiale du R0, de l’ordre de 2.5, alors qu’elle est d’un peu plus de 3 dans le modèle précédent. D’une manière plus générale, le modèle déterministe a tendance à sous-estimer la valeur du R0 par rapport au modèle stochastique. Le modèle dynamique est sans doute plus robuste au plus fort de la pandémie, quand les différentes variables prennent des valeurs très substantielles ; les effets stochastiques sont alors négligeables.

Notons enfin que si la concordance des deux approches, stochastique et déterministe, permet de lever une grande part d’incertitude quant au choix du modèle et celui de l’estimation des paramètres, les résultats obtenus dans les deux cas sont nécessairement tributaires de la qualité des données dont nous disposons.

Bibliographie

Bauch, C. T., Lloyd-Smith, J. O., Coffee, M. P., & Galvani, A. P. (2005). Dynamically modeling SARS and other newly emerging respiratory illnesses: past, present, and future. Epidemiology, 791-801.

Viceconte, G., & Petrosillo, N. (2020). COVID-19 R0: Magic number or conundrum?. Infectious disease reports, 12(1).

Cori, A., Ferguson, N. M., Fraser, C., & Cauchemez, S. (2013). A new framework and software to estimate time-varying reproduction numbers during epidemics. American journal of epidemiology, 178(9), 1505-1512.

Nishiura, H., Linton, N. M., & Akhmetzhanov, A. R. (2020). Serial interval of novel coronavirus (COVID-19) infections. International journal of infectious diseases.

https://fr.wikipedia.org/wiki/Mod%C3%A8les_compartimentaux_en_%C3%A9pid%C3%A9miologie

Sources de données

Cas confirmés, guéris et décédés (hors EHPAD) à partir de data.gouv :

https://www.data.gouv.fr/fr/datasets/chiffres-cles-concernant-lepidemie-de-covid19-en-france/#_

Keley est un partenaire de co-création parmi les meilleurs acteurs du marché, notamment via son expertise des parcours clients.

Yann Ruello

Content Innovation Director, chez Orange

Redha Moulla
Redha Moulla

Ancien Manager en Data Science

Docteur en Automatique, Redha a un imposant parcours en recherche scientifique, notamment en mathématique et Intelligence Artificielle.

Envie de partager cet article ?
Button Text
UN PROJET DE TRANSFORMATION DIGITALE ?

Il est temps de se rencontrer ! Il vous suffit de remplir ce formulaire pour nous contacter.

La collecte des informations demandées est nécessaire au traitement de votre demande par Keley, unique entité habilitée au traitement. Elle vous permettra en premier lieu de recevoir une réponse à ce message. En cas de contact ultérieur de la part de Keley, votre consentement sera au préalable recueilli. Vous disposez d’un droit d’accès, de rectification, d’opposition et de suppression des données vous concernant. Pour l'exercer, merci de nous en faire la demande par email à l’adresse communication@keley.com.

Pictogramme blanc et jaune d'une enveloppe

Comment pouvons-nous vous aider ?

Merci pour votre message !
Oops ! On dirait qu'il y a eu un problème...

La collecte des informations demandées est nécessaire au traitement de votre demande par Keley, unique entité habilitée au traitement. Elle vous permettra en premier lieu de recevoir une réponse à ce message. En cas de contact ultérieur de la part de Keley, votre consentement sera au préalable recueilli. Vous disposez d’un droit d’accès, de rectification, d’opposition et de suppression des données vous concernant. Pour l'exercer, merci de nous en faire la demande par email à l’adresse communication@keley-consulting.com.