L’IA, vulgarisation et rigueur

Suite au post sur la vulgarisation de l’IA, vos échanges ont été aussi riches que passionnants. Sans surprise, la majorité d’entre vous attend plus de rigueur de celles et ceux qui souhaitent vulgariser. Vous avez été nombreux à témoigner que rigueur et vulgarisation ne sont pas incompatibles. Voici un résumé des points et affirmations qui ont suscité le plus d’intérêt.

1. « L’IA n’est pas uniquement basée sur les mathématiques »

Les conséquences de l’IA sont pluridisciplinaires : éthiques, juridiques, économiques, écologiques, sociologiques, etc. Mais ses fondements, eux, sont bel et bien mathématiques. Par exemple, un LLM prédit chaque token un par un, via une distribution de probabilité calculée à partir de poids appris, exploités par le mécanisme de self-attention. Tout est calculé, donc mathématique.

2. « L’IA actuelle est stochastique »

Dans les commentaires du précédent post, on a évoqué l’illusion stochastique. L’effet aléatoire des réponses de l’IA est en réalité paramétré par les data scientists via le sampling contrôlé. Concrètement, un token est tiré d’une distribution de probabilité calculée à chaque étape, généralement modifiée par des paramètres comme la température. Pour plus de détails et une preuve empirique du caractère déterministe du système, on vous invite à lire les commentaires du précédent post.

3. Que penser du RAG ?

On a demandé plusieurs fois notre avis sur le RAG (Retrieval-Augmented Generation). Il y a plusieurs articles et tutoriels sur le sujet. En résumé :

  • Il est mathématiquement impossible de scaler une base vectorielle dans un RAG à retrieval technique (qui demande un raisonnement métier) avec les techniques d’aujourd’hui.
  • Le reranking se fait souvent avec un modèle léger, sans raisonnement métier, la classification reste donc superficielle.
  • Plus la base grossit, plus les chunks se superposent dans l’espace latent, augmentant le bruit, diminuant la précision lors du retrieval.
  • Les techniques de retrieval (TF-IDF, BM25, cosine similarity) ne comprennent pas le raisonnement métier.

Exemple : « contrat » et « document » sont souvent proches vectoriellement, mais « document » est trop générique pour enrichir une requête portant sur un « contrat » précis (ex. clause de résiliation).
Pour plus d’explications et des solutions, des ressources sont disponibles dans mes articles et tutoriels.

La banquise de la compréhension de l’IA est-elle sauvée ?

Pas encore… Mais l’engouement pour une vulgarisation rigoureuse et juste est bien réel ! ❤️

Un conseil : en cas de doute sur un post, envoyez-le à l’IA et demandez si chaque phrase ou affirmation est juste et 100 % précise. (Spoiler : c’est déjà fait pour nous.)

Retour en haut