IA lente et imprécise ? Voici pourquoi

Avez-vous aussi remarqué que l’IA devient moins précise et lente au fil de la conversation ?

Aujourd’hui, on va vous expliquer tous les secrets qui se cachent derrière ce qu’on appelle la context window.

IA lente et imprécise ? Voici pourquoi

Vous avez déjà probablement demandé à l’IA de corriger un texte en plusieurs tours de conversation ou même une image. Vous vous rendez compte qu’au bout d’un moment, l’IA ne corrige plus ce que vous lui demandez. C’est à cause de ce qu’on appelle « la mémoire déterministe ».

Si vous parlez par exemple 100 000 fois d’un même sujet A, et que le sujet 100 001, le sujet B, est sémantiquement très différent, l’IA va avoir du mal à généraliser, c’est-à-dire à sortir du contexte du premier sujet.

Félicitations, vous lui avez fait un lavage de cerveau. 😆

C’est un biais qu’on appelle l’effet d’amorçage (priming) par le contexte récent et dominant. On dit que le sujet A est amorcé (primé) et que le sujet B est minoritaire, car il n’a mathématiquement pas assez d’attention. Ici, je parle bien de l’inertie contextuelle créée par la prépondérance de A (Poor B : Attention is always all you need…).

La dilution d'information

Regardons maintenant la perte d’information, ce qu’on appelle « la dilution ».

Plus vous écrivez à l’IA, moins l’IA est précise. Si votre conversation contient de multiples sujets, au bout d’un moment, l’IA va se perdre dans l’ensemble des sujets. Ce qui est tout à fait normal.

Plus le contexte est long et complexe, plus le LLM aura du mal à attribuer des poids optimaux entre les informations. Il risque alors de mélanger les thèmes et de perdre en précision, diluant ainsi l’information la plus pertinente.

Pourquoi les temps de réponse s’allongent ?

Les LLM utilisent la mémoire du GPU pour stocker les poids du modèle et les données du contexte. Plus la fenêtre de contexte est grande, plus elle occupe de place en mémoire et plus les calculs deviennent « gourmands ».

Ici, gourmand fait référence à la complexité d’un algorithme. La majorité des LLM modernes ont une complexité computationnelle quadratique, c’est-à-dire O(N²).

Combien ça coûte ?

Tout dépend de la fenêtre de contexte et de l’architecture du modèle. Pour donner des chiffres (même si c’est simplifié), si votre fenêtre de contexte est de 4096 tokens, vous aurez environ 16,7 millions de calculs à faire entre les vecteurs.

Maintenant, pourquoi c'est long ?

Car même si un GPU peut facilement traiter des milliers de milliards d’opérations à la seconde, le problème, c’est que le LLM est rarement chargé en entier sur la même mémoire d’un seul GPU, il est sur plusieurs GPU. Et c’est la communication entre les GPU qui va prendre du temps.

Que faire si vous rencontrez l’un de ces problèmes ?

Demandez à l’IA de vous faire un résumé de la conversation et copiez-collez le résumé dans la nouvelle conversation.