La formation de l’IA par l’IA : RLMF

L’une des inventions créées par Daniel Sautot et ayant suscité le plus d’intérêt cette année est le Reinforcement Learning Machine Feedback (RLMF).Étonnamment, ce n’est pas son invention la plus révolutionnaire.

Il s’agit essentiellement d’une version améliorée d’un GAN (Generative Adversarial Network), conçue pour améliorer automatiquement les LLM (Large Language Models). De plus, des laboratoires prestigieux utilisent une technique similaire pour comparer leurs modèles de fondation.

1. Fonctionnement du RLMF

Dans un Generative Adversarial Network (GAN), il existe un générateur (dans ce cas, le LLM que nous visons à améliorer) et un discriminateur (le testeur). Le rôle original du discriminateur dans un GAN est d’évaluer les sorties du générateur en faisant la distinction entre les données réelles (provenant de l’ensemble d’apprentissage) et les données générées (provenant du générateur).

Dans le cadre du RLMF, le rôle du discriminateur est similaire, mais il est adapté aux LLM. Il fournit un retour sur la qualité des sorties, permettant ainsi au générateur de mettre à jour ses paramètres et d’améliorer ses performances au fil du temps.

2. SOTA

Google : Training Language Models to Self-Correct via Reinforcement Learning (SCoRe) est une approche d’apprentissage par renforcement en ligne à plusieurs tours qui améliore considérablement la capacité d’autocorrection des grands modèles de langage (LLM) à l’aide de données entièrement auto-générées (Kumar et al., 2024).

-> Sa limitation est qu’il ne peut pas vérifier l’exactitude des réponses par rapport à des données externes, en se basant uniquement sur des commentaires internes sans validation objective.

Meta : Mixture of Judges (MoJ) est un système de rétroaction à plusieurs niveaux dans le cadre CGPO qui utilise des juges basés sur des règles et basés sur LLM pour évaluer et optimiser les résultats de l’apprentissage multitâche, en empêchant le piratage des récompenses et en gérant les objectifs conflictuels (Xu et al., 2024).

-> Sa limite est qu’il repose sur des évaluations internes subjectives de juges basés sur le LLM, qui ne garantissent pas toujours l’exactitude factuelle par rapport aux systèmes de validation externes objectifs.

Les deux articles s’appuient sur des données subjectives internes. C’est comme si des élèves s’évaluaient eux-mêmes, ce qui est étrange, non ?

Cette approche peut introduire des biais potentiels et lui fait défaut en matière d’objectivité par rapport à une validation externe. Cela en fait une méthode d’évaluation intéressante, bien que potentiellement imparfaite.

3. Comment fonctionne le système ?

Connaissances externes avec RAG : Le discriminateur LLM génère des prompts aléatoires pour les utilisateurs et utilise des RAG externes pour obtenir des données commerciales réelles pour des questions pertinentes.
Évaluation des réponses : Le système évalue les réponses des LLM pour leur exactitude factuelle. Si elles sont correctes, une nouvelle prompt est générée.
Gestion des erreurs : Les réponses incorrectes ou les hallucinations sont signalées par les LLM correspondants avec les données RAG.
Pénalités et création d’ensembles de données : Les erreurs déclenchent des pénalités via l’apprentissage par renforcement, et des entrées sont créées pour l’optimisation des préférences directes (DPO).
Réglage fin continu : Le modèle est affiné dans une boucle de rétroaction, garantissant une amélioration et une adaptabilité continues.

Dernier épisode la semaine prochaine.