Comprehension Without Competence: Architectural Limits of LLMs (arXiv 2507.10624, November 2025).
https://arxiv.org/abs/2507.10624
Zheng Zhang: “Veliki jezikovni modeli (LLM) kažejo izjemno površinsko tekočnost, vendar sistematično odpovejo pri nalogah, ki zahtevajo simbolično razmišljanje, aritmetično natančnost in logično doslednost. Ta članek ponuja strukturno diagnozo takšnih napak in razkriva vztrajno vrzel med razumevanjem in kompetenco. S kontroliranimi eksperimenti in arhitekturno analizo raziskava dokazuje, da LLM pogosto izražajo pravilna načela, ne da bi jih zanesljivo uporabili – napaka, ki ne izhaja iz dostopa do znanja, ampak iz računalniškega izvajanja. Ta pojav imenujejo računalniški sindrom razcepljenih možgan}, pri katerem so poti navodil in dejanj geometrijsko in funkcionalno ločene. Ta osnovna omejitev se ponavlja v različnih področjih, od matematičnih operacij do relacijskih sklepanj, in pojasnjuje, zakaj je vedenje modela krhko tudi v idealnih okoliščinah. LLM delujejo kot močni motorji za dopolnjevanje vzorcev, vendar jim manjka arhitekturna podpora za načelno, kompozicijsko sklepanje. Ugotovitve raziskave opredeljujejo meje trenutnih zmogljivosti LLM in spodbujajo razvoj prihodnjih modelov z metakognitivnim nadzorom, dvigovanjem načel in strukturno utemeljenim izvajanjem. Ta diagnoza tudi pojasnjuje, zakaj lahko ugotovitve mehanistične interpretabilnosti odražajo usklajevanje vzorcev, specifično za usposabljanje, in ne univerzalna računska načela, ter zakaj geometrijska ločitev med potmi navodil in izvajanja kaže na omejitve nevronske introspekcije in mehanistične analize.”
Raziskava kaže, da imajo LLM-ji dve ločeni „poti“:
1) Pot navodil – razumevanje, razlaganje, poučevanje.
2) Pot dejanj – dejansko delovanje, izvajanje, ustvarjanje.
Ti poti sta v arhitekturi modela geometrijsko ločeni. To ni problem usposabljanja (kako se je ChatGPT naučil) ali spodbujanja (kako ga uporabljate).
To je vgrajeno v način delovanja transformatorjev (= LLM = ChatGPT).
LLM izražajo pravilna načela, ne da bi jih zanesljivo uporabljali – neuspeh izhaja iz računalniškega izvajanja, ne iz dostopa do znanja.
To pojasnjuje vsako frustracijo, ki ste jo imeli z AI pisanjem.