Fine-tuning & Généralisation

Dans un environnement professionnel, l’objectif est de produire un LLM capable de comprendre, de répondre ou d’automatiser des tâches (à l’aide d’un agent ou d’un backend). Chaque entreprise est unique, donc pour capturer la plupart des connaissances nécessaires, vous devez réaliser ce que Daniel Sautot appelle la « généralisation ».

La généralisation est obtenue lorsque le modèle a été suffisamment fine-tuné pour adapter son comportement à la plupart des scénarios d’entreprise, conformément à son objectif prévu, même lorsque les prompts de l’utilisateur ne sont pas présentes dans l’ensemble de dataset d’entraînement.

LoRa (Low-Rank Adaptation)

Pour être clair, LoRa n’entraîne pas votre modèle au « sens traditionnel ». Il s’agit plutôt d’une stratégie d’indexation (1).

L’avantage de LoRa est qu’il vous permet de créer une preuve de concept très rapidement, souvent en quelques semaines.

L’inconvénient est qu’il ne réalise pas la généralisation.

Pour résoudre ce problème, nous avons développé une nouvelle version de LoRa en utilisant des algorithmes ANN, ce qui lui permet de gérer des requêtes plus complexes au-delà d’un simple dataset Question/Réponse et de s’adapter efficacement au contexte.

Le deuxième problème est que vous devez anticiper chaque interaction avec le LLM puisque le dataset est basé sur des paires Question/Réponse prédéfinies.

DPO / RLHF / RLMF

Ces approches, contrairement à LoRa, impliquent une mise à jour directe du réseau neuronal. DPO optimise le modèle en fonction des préférences de l’utilisateur afin d’aligner ses sorties sur les comportements souhaités.

RLHF utilise la rétroaction humaine pour affiner les réponses du modèle en ajustant les poids de l’ensemble du réseau, améliorant ainsi l’alignement avec les attentes humaines.

RLMF, une nouvelle stratégie développée en raison du manque de main-d’œuvre pour vérifier manuellement chaque prompt du LLM, utilise une approche à double modèle avec un générateur et un discriminateur. Le discriminateur analyse les interactions et crée des datasets pour améliorer le générateur, permettant ainsi au système d’affiner ses réponses et de s’adapter dynamiquement en fonction de la rétroaction générée par la machine.

Alors que LoRa ne modifie que des matrices spécifiques dans le mécanisme d’attention, DPO, RLHF et RLMF ont un impact sur l’ensemble du réseau, permettant un apprentissage et une adaptation plus approfondis à un éventail plus large de scénarios, ce qui conduit finalement à une meilleure généralisation.

Avis de non-responsabilité : L’image ci-dessus représente une architecture de transformateur simplifiée à l’extrême. Elle vise à illustrer les différences entre LoRA et DPO/RLHF.

Veuillez noter que les modèles de transformateurs réels sont beaucoup plus complexes, impliquant plusieurs couches empilées de réseaux d’attention et de prédiction, des mécanismes d’attention multi-têtes, un codage de position, ainsi que la normalisation de couche et les connexions résiduelles. Chaque modèle a sa propre stratégie et sa propre architecture.

(1) Explication avancée : LoRa met à jour les matrices de projection linéaire (Wq, Wk, Wv) qui génèrent les matrices Q, K et V dans le mécanisme d’attention.