Pourquoi le reinforcement learning ne suffit pas
Débunk facile du jour : “DeepSeek-R1 n’apporte rien de nouveau”
DeepSeek-R1 est basé sur DeepSeek-R1-Zero, un modèle entraîné exclusivement par Renforcement (RL), sans ajustement supervisé (SFT – Supervised Fine-Tuning).
L’entraînement uniquement via RL repose sur un système de récompenses :
- Récompenses de précision : assurent la justesse des réponses.
- Récompenses de format : imposent une structure (ex. : balises <think>).
- Raisonnement émergent : développe naturellement des capacités de raisonnement étape par étape (Chain-of-Thought, CoT).
Problèmes rencontrés :
- Faible lisibilité.
- Mélange de langues (anglais et chinois).
- Formatage incohérent.
DeepSeek-R1-Zero prouve qu’un entraînement basé uniquement sur le RL peut produire un raisonnement avancé sans SFT, mais avec des limites.
👉 Si ce n’est pas nouveau, on ne sais pas ce qui l’est.
Débunk avancé : “DeepSeek-R1 n’utilise pas de SFT.”
Oui et non.
DeepSeek-R1-Zero évite le SFT, mais DeepSeek-R1 adopte une approche hybride pour corriger les problèmes de lisibilité et de cohérence.
Comment R1 améliore R1-Zero :
- Démarrage à froid : Utilisation de datasets CoT sélectionnés pour stabiliser le RL dès les premières phases.
- Raisonnement RL : Emploie Group Relative Policy Optimization (GRPO) pour optimiser sans modèles de critique classiques.
- Échantillonnage par rejet + SFT : Affine les résultats du RL pour des tâches de raisonnement et non de raisonnement.
- RL généralisé : Aligne le modèle sur les préférences humaines pour améliorer sa polyvalence globale.
Résultat : Sorties plus claires, raisonnement renforcé, meilleures performances sur des tâches variées.
👉 Donc, pour l’instant, il est difficile d’éviter complètement le SFT.
Techniques clés : Pourquoi et quand ?
Monte Carlo Tree Search (MCTS)
- Quand ? Pendant le RL, pour explorer les chemins de raisonnement.
- Pourquoi ? Découpe les problèmes en sous-parties (comme la stratégie “divide and conquer”) pour trouver des solutions optimales.
- Défis : Espaces de recherche vastes, risque d’optima locaux.
Group Relative Policy Optimization (GRPO)
- Quand ? Utilisé dans R1-Zero et R1 pour le RL.
- Pourquoi ? Réduit les coûts de calcul et rend le RL plus efficace.
Ça vous semble familier ?
- Épisode 7 : Divide and Conquer
Comme MCTS, cette méthode découpe les problèmes en sous-parties pour mieux les résoudre. - Épisode 11 : Raisonnement avancé = Explanation Tuning
Le pipeline RL de DeepSeek-R1 affine les étapes de raisonnement en formats compréhensibles par l’humain. - Épisode 12 : RLMF – Une IA qui entraîne une IA
DeepSeek-R1 et RLMF utilisent le RL pour améliorer itérativement les performances. Le système de récompenses GRPO de R1 est aligné avec l’approche RLMF, bien que ce dernier utilise des données externes.