Pourquoi le reinforcement learning ne suffit pas

Débunk facile du jour : “DeepSeek-R1 n’apporte rien de nouveau”

DeepSeek-R1 est basé sur DeepSeek-R1-Zero, un modèle entraîné exclusivement par Renforcement (RL), sans ajustement supervisé (SFT – Supervised Fine-Tuning).

L’entraînement uniquement via RL repose sur un système de récompenses :

  • Récompenses de précision : assurent la justesse des réponses.
  • Récompenses de format : imposent une structure (ex. : balises <think>).
  • Raisonnement émergent : développe naturellement des capacités de raisonnement étape par étape (Chain-of-Thought, CoT).

Problèmes rencontrés :

  • Faible lisibilité.
  • Mélange de langues (anglais et chinois).
  • Formatage incohérent.

DeepSeek-R1-Zero prouve qu’un entraînement basé uniquement sur le RL peut produire un raisonnement avancé sans SFT, mais avec des limites.
👉 Si ce n’est pas nouveau, on ne sais pas ce qui l’est.

Débunk avancé : “DeepSeek-R1 n’utilise pas de SFT.”

Oui et non.
DeepSeek-R1-Zero évite le SFT, mais DeepSeek-R1 adopte une approche hybride pour corriger les problèmes de lisibilité et de cohérence.

Comment R1 améliore R1-Zero :

  • Démarrage à froid : Utilisation de datasets CoT sélectionnés pour stabiliser le RL dès les premières phases.
  • Raisonnement RL : Emploie Group Relative Policy Optimization (GRPO) pour optimiser sans modèles de critique classiques.
  • Échantillonnage par rejet + SFT : Affine les résultats du RL pour des tâches de raisonnement et non de raisonnement.
  • RL généralisé : Aligne le modèle sur les préférences humaines pour améliorer sa polyvalence globale.

Résultat : Sorties plus claires, raisonnement renforcé, meilleures performances sur des tâches variées.
👉 Donc, pour l’instant, il est difficile d’éviter complètement le SFT.

Techniques clés : Pourquoi et quand ?

Monte Carlo Tree Search (MCTS)

  • Quand ? Pendant le RL, pour explorer les chemins de raisonnement.
  • Pourquoi ? Découpe les problèmes en sous-parties (comme la stratégie “divide and conquer”) pour trouver des solutions optimales.
  • Défis : Espaces de recherche vastes, risque d’optima locaux.

Group Relative Policy Optimization (GRPO)

  • Quand ? Utilisé dans R1-Zero et R1 pour le RL.
  • Pourquoi ? Réduit les coûts de calcul et rend le RL plus efficace.

Ça vous semble familier ?

DeepSeek-R1 et RLMF utilisent le RL pour améliorer itérativement les performances. Le système de récompenses GRPO de R1 est aligné avec l’approche RLMF, bien que ce dernier utilise des données externes.

Retour en haut