Les modèles de languages ne peuvent faire que ça : du language.
Ces modèles n'ont donc aucune idée de ce que le langage décrit, ou plutôt ils en ont une vague idée mais nous autres humains l'appelons "une hallucination". Le mécanisme est le suivant : puisque les modèles de langage n'ont pas idée de ce que ces mots décrivent réellement, ils bouchent les trous avec des mots générés pour permettre une continuité de la génération qui ne peut en aucun cas s'arrêter. Chaque mot de la génération étant le suivant du mot précédent, rien de ce qui suit ne peut apparaitre tant que l'inconnu n'est pas halluciné, afin d'être dépassé.
Alors qu'un modèle du monde ne fonctionne pas comme ça, plutôt il va remplir son espace à 3 dimensions (ou 4 dimensions) avec des entités de forme fixe, minimisant l'énergie pour leur représentation. Un modèle du monde existe parce que les lois de la physique sont fixes et définies, il suffit donc de les deviner pour que la simulation devienne calculable, et c'est précisément ça qu'un cerveau fait, ce qui est donc ce qu'une IA devrait faire.
L'autre problème que les World Models résolvent est la persistance de l'espace multi dimensionnel de la discussion : un LLM n'a pas d'autre espace de mémoire que les mots de la conversation en cours. Ce qui rend impossible une multitude de scénarios de conversation, pour toujours.
