Pourquoi le reinforcement learning ne suffit pas

Débunk facile du jour : “DeepSeek-R1 n’apporte rien de nouveau”

DeepSeek-R1 est basé sur DeepSeek-R1-Zero, un modèle entraîné exclusivement par Renforcement (RL), sans ajustement supervisé (SFT – Supervised Fine-Tuning).

L’entraînement uniquement via RL repose sur un système de récompenses :

Récompenses de précision : assurent la justesse des réponses.
Récompenses de format : imposent une structure (ex. : balises <think>).
Raisonnement émergent : développe naturellement des capacités de raisonnement étape par étape (Chain-of-Thought, CoT).

Problèmes rencontrés :

Faible lisibilité.
Mélange de langues (anglais et chinois).
Formatage incohérent.

DeepSeek-R1-Zero prouve qu’un entraînement basé uniquement sur le RL peut produire un raisonnement avancé sans SFT, mais avec des limites.
👉 Si ce n’est pas nouveau, on ne sais pas ce qui l’est.

Débunk avancé : “DeepSeek-R1 n’utilise pas de SFT.”

Oui et non.
DeepSeek-R1-Zero évite le SFT, mais DeepSeek-R1 adopte une approche hybride pour corriger les problèmes de lisibilité et de cohérence.

Comment R1 améliore R1-Zero :

Démarrage à froid : Utilisation de datasets CoT sélectionnés pour stabiliser le RL dès les premières phases.
Raisonnement RL : Emploie Group Relative Policy Optimization (GRPO) pour optimiser sans modèles de critique classiques.
Échantillonnage par rejet + SFT : Affine les résultats du RL pour des tâches de raisonnement et non de raisonnement.
RL généralisé : Aligne le modèle sur les préférences humaines pour améliorer sa polyvalence globale.

Résultat : Sorties plus claires, raisonnement renforcé, meilleures performances sur des tâches variées.
👉 Donc, pour l’instant, il est difficile d’éviter complètement le SFT.

Techniques clés : Pourquoi et quand ?

Monte Carlo Tree Search (MCTS)

Quand ? Pendant le RL, pour explorer les chemins de raisonnement.
Pourquoi ? Découpe les problèmes en sous-parties (comme la stratégie “divide and conquer”) pour trouver des solutions optimales.
Défis : Espaces de recherche vastes, risque d’optima locaux.

Group Relative Policy Optimization (GRPO)

Quand ? Utilisé dans R1-Zero et R1 pour le RL.
Pourquoi ? Réduit les coûts de calcul et rend le RL plus efficace.

Ça vous semble familier ?

Épisode 7 : Divide and Conquer
Comme MCTS, cette méthode découpe les problèmes en sous-parties pour mieux les résoudre.
Épisode 11 : Raisonnement avancé = Explanation Tuning
Le pipeline RL de DeepSeek-R1 affine les étapes de raisonnement en formats compréhensibles par l’humain.
Épisode 12 : RLMF – Une IA qui entraîne une IA

DeepSeek-R1 et RLMF utilisent le RL pour améliorer itérativement les performances. Le système de récompenses GRPO de R1 est aligné avec l’approche RLMF, bien que ce dernier utilise des données externes.