Modèle algorithmique de détection des sociétés du portefeuille présentant un risque de faillite

Article écrit par (3 articles)
Publié le
Modifié le 05/03/2019
2 549 lectures

Le rendez-vous annuel de revue de bilan est le moment fort de la relation entre l'expert-comptable et son client. Il permet de faire le point sur l'année écoulée mais surtout de déterminer les perspectives d'évolution de la société du client.

C'est sur cet axe que des offres de services complémentaires peuvent être étudiées et proposées. Via les outils de machine learning adaptés, il est possible d'identifier automatiquement les signaux avant-coureurs de certains événements mis en exergue lors des rendez-vous annuels. Nous appliquerons ici cette approche à la détection du risque de faillite.

Ainsi, c'est l'expertise métier des experts-comptables qui, couplée aux outils statistiques et informatiques, permet de créer des modèles algorithmiques de qualité. Ce type de conseil automatisé est même envisageable à chaque situation périodique voire, dans un avenir proche, en quasi-temps réel, dès lors que nous disposerons d'une production comptable à jour sur la même régularité.

Le projet de création d'un modèle algorithmique suit les étapes suivantes :

  • compréhension du problème et des données ;
  • exploration et nettoyage des données ;
  • ingénierie et sélection des données ;
  • évaluation et sélection du modèle ;
  • optimisation du modèle ;
  • interprétation des résultats et prédictions.

Afin d'illustrer la démarche, nous avons téléchargé le jeu de données Polish companies bankruptcy data Data Set en provenance de l'UCI Machine Learning Repository.

Pour un exemple de développement sous R, il est possible de se référer à un de mes articles sur LinkedIn. Ce jeu de données a été sélectionné car l'analyse statistique à mener est la même que pour un portefeuille de clients de cabinet d'expertise comptable.

Et pour les plus férus de data science, la lecture de l'article de Zieba, M., Tomczak, S. K., & Tomczak, J. M. (2016). Ensemble Boosted Trees with Synthetic Features Generation in Application to Bankruptcy Prediction. Expert Systems with Applications, publié par les chercheurs ayant utilisé ces données, se révèle être un approfondissement des plus enrichissants.

Enfin, en écho au présent article, il peut être intéressant de lire l'article de l'Usine Nouvelle « A Bercy, l'intelligence artificielle pour anticiper les sorties de route des entreprises » du 4 février 2019.

Compréhension du problème et des données

Le problème à modéliser consiste à identifier en amont quelles sociétés du portefeuille présentent des signes avant-coureurs de faillite. Ainsi, l'expert-comptable peut interpeller son client et lui proposer des solutions visant à limiter en avance les risques de faillite de son client.

En tant que cabinet d'expertise comptable, nous disposons des états financiers de nos clients, de la comptabilité, du social le cas échéant, des relevés bancaires et d'autres informations. Dans notre étude, nous nous appuierons uniquement sur les états financiers.

Par contre, nous risquons de nous retrouver avec trop peu de données si nous nous limitons aux seules données internes du cabinet. En effet, des études empiriques ont conclu que, généralement, plus la quantité de données utilisée pour entraîner le modèle augmente, plus sa performance augmente.

Ainsi, il serait tout à fait opportun de collecter des données externes telles que par exemple des indices boursiers, des indicateurs macro-économiques, l'historique des taux de change, les cours des matières, d'autres données comptables et financières, les données macro-économiques par secteur économique.

Ces données sont enregistrées dans des bases payantes (EMIS par exemple pour le jeu de données utilisé) ou non, dont les plus connues sont Google dataset search, UCI machine learning repository ou Kaggle.

Exploration et nettoyage des données

La première chose à faire est de comprendre les données dont nous disposons, aussi bien dans leur source (logiciel comptable, coordonnées GPS, séries chronologiques, etc.), leur format (numérique, caractère, etc.) que leur structuration (indicateurs statistiques : moyenne, médiane, minimum, maximum, etc.).

Il faut s'assurer également de la fiabilité des données. Dans notre jeu de données, le caractère « ? » a été renseigné en l'absence de l'indicateur financier. On peut imaginer plusieurs raisons liées à l'absence de l'information.

Ainsi, pour la réussite du projet, différentes méthodes de suppression des valeurs aberrantes et de nettoyage des données peuvent être expérimentées selon :

  • la connaissance du domaine. Par exemple, des valeurs aberrantes sont des ratios supérieurs à 100 %, des valeurs négatives alors qu'elles ne peuvent être que positives ;
  • des méthodes statistiques pour remplacer les valeurs manquantes.

Ingénierie et sélection des données

Une fois que notre jeu de données est fiable, la question se pose de savoir quelles données pourrait-on créer à partir des données à disposition. Dans notre exemple, nous nous sommes appuyés sur les états financiers de plusieurs milliers de sociétés pour créer des ratios, alors qu'au départ nous ne disposions que des agrégats du bilan et du compte de résultat.

On peut également créer des données en y apposant des fonctions statistiques, telles que le logarithme, par exemple, afin de lisser les écarts entre les valeurs mais en conservant les proportions.

Ainsi, cette étape vise à construire davantage de variables ou à appliquer la sélection de variables aux variables existantes pour trouver un ensemble de données optimal via :

Évaluation et sélection du modèle

Une première approche est de réaliser une régression linéaire pour avoir une première vision de la significativité de chaque variable sur la variable que l'on souhaite expliquer.

Il existe plusieurs indicateurs statistiques pour comparer des modèles. On peut utiliser l'indicateur Root Mean Squared Error (RMSE). Cet indicateur mesure la différence entre les valeurs prédites (la droite de régression) et les valeurs réelles (le nuage de points).


Source : www.statisticshowto.datasciencecentral.com

On peut utiliser ce qu'on appelle une matrice de confusion, qui va lister les prédictions correctes et celles incorrectes.

Quant aux chercheurs évoqués dans l'article pour les férus de data science, ils ont utilisé l'indicateur Area Under ROC Curve (AUC) pour comparer 16 modèles différents. Cet indicateur consiste en la mesure de la proportion de vrais positifs et de faux négatifs selon des seuils de décision. Plus l'indicateur est proche de 1, meilleur est le modèle.

L'objectif est de construire un modèle pouvant être généralisé à des nouvelles données. Il doit donc comporter peu de biais (pour un meilleur apprentissage) et peu de variance (meilleure généralisation). Ainsi, il est conseillé d'essayer d'autres modèles voire même de combiner plusieurs modèles.

Optimisation du modèle

Afin d'accroître la performance du modèle, nous disposons des moyens suivants :

  • obtenir davantage de données ;
  • construire davantage de variables et sélectionner les variables les plus significatives (exemple : éliminer les variables présentant des corrélations trop fortes entre elles) ;
  • optimiser le modèle sélectionné en appliquant un réglage automatique des hyper paramètres et/ou en procédant par recherche aléatoire ;
  • essayer un modèle plus complexe (tel qu'élaboré par les chercheurs évoqués en début d'article).

Interprétation des résultats et prédictions

Cette étape consiste à comprendre les résultats fournis par le modèle. Ainsi, nous pouvons visualiser l'importance de chaque variable dans le risque de faillite.

Dans notre exemple, et pour le modèle développé basé sur la régression logistique, les variables les plus discriminantes sont : Attr10 : equity / total assets, Attr11 : (gross profit + extraordinary items + financial expenses) / total assets, Attr35 : profit on sales / total assets, Attr30 : (total liabilities - cash) / sales, Attr34 : operating expenses / total liabilities.

Dans la continuité de l'analyse, nous pouvons construire une courbe de distribution de la variable étudiée entre les données d'apprentissage et celles de validation pour comparer la qualité de la distribution des valeurs.

L'intelligence artificielle dans l'expertise comptable est un sujet-clé pour les experts-comptables. En effet, nous sommes au c½ur de l'information financière et comptable de nos clients TPE et PME. Afin de les accompagner sur le pilotage de leur activité plus régulièrement qu'à l'occasion du rendez-vous de bilan annuel, le machine learning se révèle être un outil d'aide à la décision des plus précieux.

Un projet de machine learning est adaptable à toute problématique métier recherchée par l'expert-comptable. Ici, nous avons évoqué l'anticipation du risque de faillite des entreprises. Mais, un modèle pourrait être construit par exemple pour accompagner un créateur d'entreprise dans sa recherche de commerce à acquérir, en intégrant au modèle des données géospatiales par exemple.

Laurent Lanzini, consultant diplômé d'expertise comptable passionné en data et intelligence artificielle.