Au-delà des modèles pré-entraînés : la personnalisation des LLM à destination des experts-comptables et commissaires aux comptes

Article écrit par (113 articles)
Modifié le
1 546 lectures

Enjeu de souveraineté de la Profession et de son patrimoine informationnel

L'ère numérique actuelle a vu l'émergence d'une multitude d'outils et de technologies qui transforment radicalement la manière dont les entreprises et les professions opèrent : OCR, télétransmission (EDI-TFC et EDI-TVA), DSN, etc...

Pour les experts-comptables, la capacité à maîtriser et à contrôler leur propre patrimoine informationnel est devenue un enjeu majeur. Le patrimoine informationnel englobe toutes les connaissances, les données et les informations propres à la profession. En laissant des tierces parties, souvent étrangères, gérer et contrôler cet aspect précieux, la profession s'expose à des risques tels que la dépendance technologique, la perte de contrôle sur les données sensibles et la dilution de son identité professionnelle, nous reléguant au simple rôle d'intermédiaire avec l'Administration fiscale, URSSAF et les greffes.

Une nécessaire adaptation à notre contenu métier

Les modèles de langage génératif, tels que ceux basés sur l'architecture GPT (Generative Pre-trained Transformer), sont souvent formés sur des données générales (souvent en anglais) et peuvent ne pas être spécifiquement adaptés aux nuances et spécificités de nos métiers : expert-comptable et commissaire aux comptes.

Pour garantir une application optimale d'un LLM, une adaptation au contenu métier spécifique des experts-comptables et des commissaires aux comptes est nécessaire. Cela signifie former ces modèles sur des données spécifiques à la profession pour garantir une précision et une pertinence maximales dans les réponses qui seront générées par une interface user-friendly comme le célèbre ChatGPT.

La réduction d'une indépendance vis-à-vis d'outils extérieurs à notre Profession

L'utilisation d'outils extérieurs, bien qu'elle présente certains avantages comme l'externalisation du coût d'entraînement, expose également in fine la Profession à une dépendance qui pourrait être préjudiciable à long terme.

En développant une expertise interne en matière de modèles de langage génératif et en adaptant ces outils à nos besoins spécifiques, nous renforçons notre autonomie et réduisons notre dépendance vis-à-vis des fournisseurs externes.

Concrètement, comment procéder ?



Utilisation d'un modèle de données pré-entraîné

L'avantage d'utiliser un modèle pré-entraîné est qu'il a déjà acquis une connaissance générale de la langue à partir de vastes ensembles de données. Cela constitue une base solide sur laquelle nous pouvons construire et adapter le modèle à notre domaine spécifique.

Quelques exemples de modèle pré-entraîné : GPT Series d'Open AI, Mistral AI (Société française), BERT (Bidirectional Encoder Representations from Transformers) par Google, RoBERTa par Facebook AI, etc

Quelles sont les données accessibles ?

Pour les commissaires aux comptes, nous pouvons aisément penser à la richesse de la base de données Sidoni, dont la gestion et maintenance incombe à la CNCC. Cette base de données est indispensable au commissaire aux comptes dans le cadre de ses missions mais nécessite parfois du temps pour trouver le contenu.

Pour les experts-comptables, la partie privée du site du Conseil national de l'Ordre des experts-comptables comporte de nombreuses documentations à destination des experts-comptables, mais nécessite de se connecter régulièrement pour profiter des nouveaux ajouts.

Nettoyage et préparation des données

Avant de pouvoir utiliser nos données métier (non accessibles au modèle pré-entraîné en temps normal) pour l'entraînement, elles doivent être nettoyées et préparées. Cela implique de supprimer les doublons, de corriger les erreurs, de formater les données de manière uniforme et de les organiser de manière à faciliter l'entraînement du modèle.

Cette phase nécessite des compétences et un temps conséquent afin que la performance du modèle de langage à l'issue de l'entraînement soit satisfaisante.

La tokenisation du contenu professionnel

La tokenisation est le processus de découpage du contenu en unités plus petites, appelées « tokens ». Ces tokens peuvent être aussi courts qu'un caractère ou aussi longs qu'un mot. Pour notre domaine, il est essentiel de s'assurer que les termes spécifiques à la comptabilité sont correctement tokenisés. Il existe des outils qui réalisent le travail de tokenisation.

L'entraînement et l'évaluation du modèle

Une fois les données préparées et tokenisées, elles peuvent être utilisées pour entraîner le modèle. Après l'entraînement, il est crucial d'évaluer les performances du modèle pour s'assurer qu'il répond aux normes et aux attentes de la Profession. Cette évaluation de performance ou « feedback » permettra d'améliorer le modèle dans les mises à jour ultérieures. A noter, que l'évaluation nécessite le concours d'humains, et qui plus est avec des compétences comptables, donc des experts-comptables !

Les problématiques de la personnalisation d'un LLM métier



Si le LLM est opéré par un éditeur

Lorsqu'un éditeur externe opère un LLM, cela soulève des questions cruciales concernant la compensation et la reconnaissance des experts-comptables qui fournissent les données pour l'entraînement. Ces données, issues de leur expertise professionnelle, sont inestimables.

On peut noter les enjeux suivants :

  • Reconnaissance Monétaire : si l'éditeur génère des revenus grâce à l'utilisation du LLM, comment les experts-comptables sont-ils rémunérés pour leur contribution ? Une structure de partage des revenus pourrait-elle être envisagée dans le respect de nos normes professionnelles ?
  • Reconnaissance professionnelle : au-delà de la compensation pécuniaire, comment les experts-comptables sont-ils crédités pour leur contribution ? Ceci est particulièrement pertinent si le LLM est utilisé à des fins éducatives ou mis à disposition du grand-public.
  • Contrôle sur l'utilisation : quel contrôle les experts-comptables ont-ils sur l'utilisation ultérieure de leurs données ? Des questions se posent concernant l'éthique, la confidentialité et la manière dont les données sont utilisées ou partagées. Un soutien et/ou contrôle a priori de la CNIL serait-il possible ?

Les coûts

Les coûts associés à l'entraînement d'un modèle spécifique à la profession. Est-ce rentable à long terme par rapport à l'utilisation de solutions prêtes à l'emploi ?

On peut noter plusieurs typologies de coûts, bien connus des experts-comptables :

  • Coûts directs : ces coûts incluent le matériel nécessaire, les frais de stockage des données, les frais de cloud computing pour l'entraînement et l'évaluation, et les licences logicielles si nécessaire.
  • Coûts de main-d'½uvre : l'expertise nécessaire pour entreprendre un tel projet n'est pas négligeable. Il faut compter les salaires des ingénieurs en machine learning, des spécialistes en traitement du langage naturel, et éventuellement des consultants externes.
  • Coûts indirects : il s'agit des coûts associés aux retards, aux erreurs ou aux révisions nécessaires lors de l'entraînement du modèle. De plus, des coûts peuvent surgir en cas de besoin de mise à niveau du matériel ou des logiciels.

La nature des données et périodicité de l'entraînement du modèle

L'efficacité d'un modèle de langage génératif dépend en grande partie de la qualité et de la pertinence des données sur lesquelles il est formé. Dans le contexte de la comptabilité, il est crucial de différencier les types de données utilisées pour l'entraînement et de comprendre comment chacun influence la performance du modèle. En outre, la fréquence à laquelle le modèle est mis à jour ou entraîné peut avoir des implications significatives tant en termes de coûts que de pertinence.

Données chaudes

Les « données chaudes » font référence aux informations actuelles et pertinentes. Étant donné que le domaine de la comptabilité et surtout de la fiscalité est en constante évolution, il est essentiel d'entraîner régulièrement le modèle avec ces données chaudes pour garantir sa pertinence et sa précision. Malheureusement, cet entraînement régulier aura un coût. Ainsi, comment définir la période optimale d'entraînement : mensuellement ? Trimestriellement ? Annuellement ?

Données froides

Les « données froides » sont des informations qui ne changent pas fréquemment ou qui sont historiques. Bien qu'elles ne soient pas aussi dynamiques que les données chaudes, elles restent essentielles pour fournir une base solide au modèle. Il est moins impératif d'entraîner fréquemment le modèle avec ces données, mais elles ne doivent pas être négligées.

Et pour conclure...

La digitalisation et les avancées technologiques dans le domaine de l'intelligence artificielle ont ouvert la voie à des opportunités inédites pour la profession des experts-comptables et des commissaires aux comptes. Les Large Language Models, en particulier, offrent un potentiel considérable pour transformer la manière dont la profession traite l'information, interagit avec ses clients et gère ses connaissances internes.

Toutefois, comme nous l'avons exploré, il y a une série de défis et de considérations à prendre en compte, allant de la souveraineté de l'information à la périodicité de l'entraînement des modèles. L'entraînement d'un LLM adapté aux spécificités de notre métier n'est pas une simple formalité ; c'est un projet stratégique qui nécessite des ressources, une expertise et une vision à long terme.

Mais au-delà de ces défis, cette démarche s'inscrit dans une quête d'autonomie et de maintien de l'excellence professionnelle. En maîtrisant ces outils et en les adaptant à nos besoins précis, nous ne faisons pas que suivre une tendance technologique ; nous affirmons notre volonté de rester à la pointe de l'innovation, tout en préservant et en valorisant le patrimoine informationnel unique de notre profession.

Alors que l'avenir s'annonce résolument numérique (E-invoicing, E-reporting, EDI-FEC, etc...), la question n'est plus de savoir si les experts-comptables et les commissaires aux comptes devraient explorer et adopter ces technologies, mais plutôt comment le faire de manière judicieuse et stratégique. En fin de compte, l'objectif est d'assurer que la profession reste pertinente, efficace et au service de ses clients, tout en naviguant avec succès dans le paysage technologique en constante évolution.



Fabrice Heuvrard, expert-comptable et commissaire aux comptes.