Koober : comment prédire et réduire le churn des abonnés ? #3

Épisode 3 : Construction de variables et modèle de prédiction du churn

Koober est une startup française proposant une application de lecture de livres au format condensé pour être lus ou écoutés en moins de 20 minutes, avec des abonnements annuels ou mensuels. La startup a confié à Keley-Data la mission d’augmenter la durée d’abonnement de ses clients, grâce à la prévention du churn (attrition).

Dans nos deux articles précédents, nous avons identifié deux comportements singuliers qui devaient être écartés pour permettre la prédiction du churn : les désengagés, résiliant, mais continuant à profiter des services sur leur durée d’abonnement, et les dormants, inactifs renouvelant néanmoins leur abonnement chaque mois tacitement. Une fois ces deux catégories de clients identifiées, nous pouvons nous concentrer sur l’objectif de la mission : prédire le churn d’un utilisateur.

Pour cela, toujours sur la base des clients ayant souscrit entre le 1er Octobre 2019 et le 1er Août 2020, nous avons tout d’abord (1) réalisé une analyse exploratoire des variables potentiellement pertinentes pour notre modèle, à partir des historiques de connexions et de lectures de Koobs ; puis (2) appliqué un algorithme d’apprentissage automatique sur une sélection de variables issues de l’analyse précédente, permettant de prédire le risque de churn d’un utilisateur.

‍

Analyse des connexions

Les études préliminaires sur les fluctuations du nombre de connexions en termes de jours de connexion, de jour du mois, d’heure n’ont pas révélé de comportements particuliers séparant churneurs et abonnés actifs. Pour cette raison, nous considérerons uniquement le nombre de connexions en jour, ou nombre de jours où l’utilisateur s’est connecté. Ce critère peut être décliné en « Nombre de connexions lors de la première semaine », et « Nombre de connexions lors de la dernière semaine (d’abonnement) ». Sur cette base, d’autres indicateurs ont été construits dont en particulier les suivants :

‍

La stabilité de connexion (StabilitéCx) constitue un indice de dispersion des connexions par semaine : plus il est faible plus l’utilisateur a un rythme de connexion stable dans le temps. Il apparaît que les actifs peuvent avoir un rythme plus instable que les churneurs. Cela peut s’expliquer par une durée de vie plus longue.

Stabilité des connexions chez les actifs et les churners, Keley pour Koober

‍

La densité d’activité (DensitéActivité) est le taux de semaines actives sur la période d’activité totale. Sur la figure ci-dessous, nous voyons la distribution de cette variable pour les abonnés actifs (1) et les churneurs (0) (en ayant écarté les utilisateurs connectés uniquement leur première semaine). Pour les churneurs, la médiane est supérieure à 75% contre 65% pour les actifs.

Cela signifie que les churneurs ont consommé de façon plus intense durant leur période d’activité.

Densité d'activité des abonnés, Keley pour Koober

‍

Les historiques de connexions sont certes des données importantes pour la prédiction du churn, néanmoins, ils ne nous informent pas sur l’impact des contenus proposés par Koober, c’est-à-dire les koobs.

‍

Analyse des lectures

Parallèlement aux données liées aux connexions, les données concernant les lectures des Koobs peuvent dégager des tendances sur les titres, les catégories ou les parcours, pouvant mener au churn, nous avons construit quelques variables d’intérêt, dont entre autres :

‍

En observant les distributions des variables, nous constatons peu de différence statistique entre churneurs et actifs pour le nb_koobs_ParPeriodeActive. En revanche, pour le nb_koobs_ParSemaineActive, les utilisateurs actifs ont tendance à lire un peu plus de koobs par semaine que les churneurs, avec une médiane proche de 1 contre 0,6.

Koobs par périodes et par semaines, Keley pour Koober

À noter que nous avons supprimé de ces distributions les utilisateurs s’étant connectés pendant seulement une semaine, car ces derniers ne présentent pas d’intérêt dans le cadre de notre analyse et risque de biaiser le résultat.

‍

Analyse des devices : iOS vs Android

Une dernière variable fournie par Koober a retenu notre attention : l’OS du device de l’utilisateur. Nous distinguons de manière marquée une différence de répartition entre Actifs / Churneurs selon que l’abonné soit sur iOS ou Android, la plateforme web Stripe restant très peu utilisée : le taux de churn chez les utilisateurs d’Android (53.3%) est largement plus élevé que celui des abonnés iOS (40.4%).

Abonnements par plateforme / device, keley pour Koober

Les variables pouvant caractériser le churn étant sélectionnées, nous pouvons désormais démarrer la phase de modélisation pour prédire le churn.

‍

Un modèle robuste pour la prédiction du churn

La base de données a été préalablement nettoyée des utilisateurs type « abonnés dormants » identifiés dans les deux premiers articles. Elle comprend les variables présentées précédemment dans l’article, ainsi que les variables liées à la récence introduites dans l’article consacré aux dormants.

Le dataset est ensuite entré comme données d’entraînement dans un algorithme de Machine Learning, avec « abonnement actif » (0 pour les churneurs, 1 pour les abonnés actifs) comme variable à prédire. Plusieurs algorithmes de Machine Learning ont été testés pour la prédiction, et notre choix s’est porté sur l’algorithme présentant à la fois la meilleure précision, et le meilleur rappel, c’est-à-dire capable de prédire qu’un utilisateur va churner sans trop prédire de “faux churneurs”, ni de “faux abonnés actifs”.

Les résultats obtenus par la méthode ensembliste XGBoost, donnent une exactitude de 91.89 % sur un échantillon test de données. À noter que c’est la première fois que ce modèle atteint ce niveau d’exactitude. Sur ce même échantillon, le modèle donne :

Une précision de 89.21 % : la précision représente la proportion des churneurs prédits correctement sur la totalité des profils prédits comme churneurs.
Un rappel de 97.67 % : le rappel représente la proportion des churneurs prédits correctement sur la totalité des vrais churneurs.

Nous avons donc construit un modèle extrêmement efficace (robuste) pour prédire le churn :

Réels churneursRéels actifsPrédits churneurs96,41%10,78%Prédits actifs3,59%89,22%100%100%

Si nous nous intéressons à l’importance relative des variables pour la prédiction du modèle, les variables qui ressortent comme ayant le plus d’influence sur la distinction churneur / abonné actif sont :

La récence par durée d’abonnement ;
La récence absolue ;
La stabilité de connexion.

‍

La variable la plus impactante liée au contenu proposé par Koober – le nombre de koobs lus par semaine d’activité – est seulement la 7e variable la plus importante dans la prédiction du churn. Cela indique qu’une prédiction efficace du churn peut se faire uniquement sur les informations de connexions des abonnés.

Impact des variables sur le churn, Keley pour Koober

Bien que l’importance des variables impactant le churn donne à Koober un ensemble d’indicateurs à suivre, il reste à déterminer comment Koober peut agir sur un utilisateur, afin de réduire son aptitude à churner. Pour ceci, il a à sa disposition :

[1] Une fonction analytique permettant d’évaluer la probabilité du churn, avec p(X) la probabilité de churn d’un utilisateur :

avec

X_1 = X_1erSemaineCx : nombre de connexions de la première semaine (en jour)

X_2 = X_StabilitéCx : indice de stabilité du rythme de connexion

X_3 = X_(Récence/DureeAbo): la valeur de la récence sur la durée d’abonnement

X_4 = X_(Cx1erSemaine/TotalCx) : connexions de la première semaine sur le total des connexions

X_5 = X_(CxDernièreSemaine/Cx1erSemaine) : connexions de la dernière semaine sur nombre de connexions de la première semaine

X_6 = X_DensitéActive : nombre de semaines actives sur nombre de semaines de la période active

X_7 = X_((nb_koobs)/SemaineActive) : nombre de Koobs lus par semaine active

X_8 = X_(Plateforme_Android ): 1 si plateforme Android (0 si non)

X_9 = X_(Plateforme_Ios ) : 1 si plateforme iOS (0 si non)

‍

[2] un ensemble de règles caractérisant un potentiel churneur, un abonné non dormant peut être considéré comme potentiel churneur si :

RécenceParDuréeAbo< 0,33Entre 0,33 et 0,645> 0,645Cx1ersemaine/TotalCx> 0,31< 0,31Stabilitécx< 0,78> 0,78ActifsActifsChurneursChurneursChurneurs

‍

La matrice de confusion associée à ces règles est :

Réels churneursRéels actifsPrédits churneurs84,93%17,99%Prédits actifs15,07%82,01%100%100%

‍

Conclusion

Au cours de ces 3 articles, consacrés à la prédiction du churn chez Koober, nous avons pu construire des variables pertinentes et alimenter des méthodes de machine learning pour créer des modèles pouvant identifier les potentiels dormants, et les potentiels churneurs parmi les clients actifs.

Le cadre de cette étude est très particulier pour les raisons suivantes :

Les churneurs gardent leurs droits pendant un mois après la résiliation de leur abonnement,
La disponibilité des données sur moins d’un an, ne permet pas l’analyse et l’exploitation de certaines propriétés des séries temporelles, comme la saisonnalité.
La situation sanitaire et notamment la période de confinement a certainement modifié le comportement des utilisateurs.

Néanmoins, le processus adopté dans le cadre de ce projet reste valide pour beaucoup de problèmes de churn. Ce processus s’articule autour des étapes suivantes :

Établir une analyse exploratoire visant à caractériser l’interaction du client avec le produit.
En confrontant les churneurs aux actifs, il s’agit d’identifier les comportements à explorer, de créer les variables qui les décrivent le mieux et de cerner le périmètre du problème.
Modéliser et prédire le churn en s’attachant à expliquer les causes du churn.

Le choix du modèle doit tenir compte des caractéristiques des données et du besoin du client. Certains modèles, bien que pertinents du fait de leurs capacités prédictives (modèles ensemblistes ou modèles basés sur l’apprentissage profond) peuvent être insuffisant pour comprendre les caractéristiques du churneur.

‍

Cette série d'articles a été écrite avec la participation de Vincent Talbo, Oussma Raboun, Imane Bouzid, Hatime Araki et les équipes Koober.

Le churn pour la startup Koober - E03

Analyse des connexions

Analyse des lectures

Analyse des devices : iOS vs Android

Un modèle robuste pour la prédiction du churn

Conclusion

Comment pouvons-nous vous aider ?