Les meilleures techniques pour optimiser les modèles Open-Source B2B/B2C

Quelles sont les meilleures techniques pour améliorer la précision des modèles open-source pour des cas d’utilisation B2B/B2C spécifiques ?

Lors de l’optimisation des modèles open-source pour des cas d’utilisation B2B, les techniques peuvent être divisées en deux catégories : celles qui mettent à jour le modèle et celles qui ne le mettent pas à jour.

I. Mise à jour du modèle

1. Fine-tuning supervisé

Dans cette approche, vous pouvez affiner tous les paramètres de votre modèle ou seulement une partie du modèle. Cette dernière est connue sous le nom de Parameter-Efficient Fine-Tuning (PEFT).

En PEFT, la méthode la plus couramment utilisée est LoRA (Low-Rank Adaptation). Le principal avantage est qu’elle ne nécessite pas de GPU très coûteux pour fonctionner, tout en offrant une excellente précision, ce qui la rend très adaptée aux cas d’utilisation commerciaux.

Inconvénients de LoRA

Limitations de raisonnement : Étant donné que LoRA repose sur un ensemble de données question/réponse, le modèle peut avoir du mal à s’adapter à de nouvelles situations qui dépassent ses capacités de raisonnement préexistantes.

Contraintes d’IA interactive : Pour l’IA interactive, il faut anticiper chaque scénario de conversation possible.

2. Fine-tuning renforcé

Il existe deux méthodes clés :

Direct Preference Optimization (DPO) : Combine des éléments de LoRA et d’apprentissage par renforcement, offrant une approche facile à utiliser.

Reinforcement Learning (RL) : Fournit des prédictions plus nuancées, permettant au modèle de résoudre des problèmes qui n’étaient pas présents dans l’ensemble de données initial. Cependant, le RL nécessite d’abord un modèle de récompense.

II. Sans mise à jour du modèle

1. Prompt Tuning et RAG

Prompt Tuning

Cette technique permet de fournir plus d’informations commerciales avant l’inférence, en ajoutant des prompts ‘cachées’ au prompt de l’utilisateur pour un contexte supplémentaire.

Dynamic Inference Requirement : L’inférence dynamique est la clé. Elle permet d’ajouter des variables à votre sortie et d’intégrer le LLM à un backend. Cette technique est présente dans presque tous nos modèles.

Retrieval-Augmented Generation (RAG)

Semblable au prompt tuning, mais avec la capacité supplémentaire de stocker des informations et de les récupérer à partir d’une base de données vectorielle à l’aide d’algorithmes de similarité. Vous pouvez également obtenir plus d’informations sur l’utilisation de RAG dans des environnements réels.

Inconvénient :

Nature statique du modèle : Le modèle n’évolue pas, nécessitant une maîtrise du flux de données pour la mise en œuvre de RAG ou l’anticipation de chaque situation contextuelle pour le prompt tuning.

2. Explanation Tuning

Une approche intéressante est mise en évidence dans le document Orca avec l’Explanation Tuning.. Cette technique améliore les capacités de raisonnement du modèle pour chaque échantillon, permettant une expertise commerciale spécifique en fonction du contexte. Elle peut être utilisée dans le fine-tuning et prompt tuning.

Meilleure méthode ?

« Ça dépend ». Aucune méthode unique n’est universellement meilleure, parfois vous avez besoin de toutes; cela dépend du cas d’utilisation spécifique.