Moi : On reprend sur la pseudo intelligence des
machines. Si les LLM n'ont pas une connaissance authentique des domaines
abordés (cf les cas d'erreurs énormes), alors en quoi consiste exactement leur
connaissance inauthentique ?
Claude : Bonne question — elle touche au cœur de ce que
font réellement les LLM.
La "connaissance" des
LLM : de quoi s'agit-il exactement ?
Ce que ce n'est pas
La connaissance humaine authentique implique plusieurs
choses que les LLM n'ont pas :
Un ancrage dans l'expérience (percevoir, agir, échouer,
corriger)
Une compréhension causale du monde (savoir pourquoi quelque
chose fonctionne)
Une vérification par l'usage (tester une affirmation contre
la réalité)
Une intentionnalité — le fait que la connaissance est à
propos de quelque chose pour un sujet
Ce que c'est réellement
La connaissance des LLM est mieux décrite comme une
compression statistique de traces linguistiques humaines. Plus précisément :
1. Une carte des cooccurrences sémantiques
Le modèle a appris quels concepts apparaissent ensemble,
dans quels contextes, avec quelles structures. Il sait que
"antibiotique" cooccurre avec "bactérie" et pas avec
"virus" — mais sans avoir jamais vu une bactérie.
2. Une maîtrise des formes du discours expert
Il sait comment parler de physique quantique, de droit, de
médecine — les structures argumentatives, le vocabulaire, les précautions
rhétoriques typiques. C'est une compétence discursive, pas épistémique.
3. Une interpolation dans un espace de haute dimension
Face à une requête, le modèle interpole entre des patterns
déjà vus. Quand ça marche bien, l'interpolation produit quelque chose de juste.
Quand ça échoue (hallucinations), c'est que le modèle extrapole dans une zone
creuse de son espace d'entraînement — et produit quelque chose de plausible en
forme mais faux en contenu.
4. Pas de modèle du monde, mais un modèle du texte sur le
monde
C'est la distinction clé. Un LLM n'a pas de représentation
du monde — il a une représentation de ce que les humains disent du monde. Ces
deux choses se recoupent massivement, mais pas totalement.
Pourquoi ça marche quand même si souvent ?
Parce que le langage humain est lui-même une compression du
monde. Les textes d'entraînement contiennent des millions de raisonnements,
corrections, débats — le modèle hérite indirectement de beaucoup de structure
réelle. C'est du savoir de seconde main, médiatisé par le langage, mais pas
pour autant nul.
La formulation la plus honnête
Ce que fait un LLM, c'est de la cohérence locale sans vérité
globale garantie : chaque étape du raisonnement est localement plausible, mais
rien ne garantit que la chaîne entière atterrisse sur quelque chose de vrai —
parce qu'il n'y a pas de boucle de feedback avec la réalité.
C'est proche de ce que Searle pointait avec la chambre chinoise
: manipulation syntaxique sans sémantique ancrée. Sauf que la question reste
ouverte de savoir si suffisamment de syntaxe finit par faire émerger quelque
chose qui ressemble fonctionnellement à de la sémantique.








