Članek trdi, da današnji LLM-i še niso zanesljivi za delegirano urejanje dokumentov, ker skozi daljše zaporedje nalog tiho vnašajo napake in sčasoma kvarijo vsebino. Avtorji zato predstavijo nov benchmark DELEGATE-52, s katerim merijo, kako dobro modeli ohranjajo pravilnost dokumentov skozi dolge delovne tokove v 52 različnih strokovnih domenah. Najpomembnejše praktično sporočilo je, da dober rezultat v kratkem ali enkratnem testu še ne pomeni, da bo model varen pri dolgotrajni uporabi na istih datotekah. LLM-i danes pri delegiranem delu pogosto ne odpovedo z mnogimi majhnimi napakami, temveč z redkimi, a hudimi okvarami, ki se nato seštevajo skozi več interakcij.
VIR https://arxiv.org/pdf/2604.15597.pdf
https://github.com/microsoft/DELEGATE52
BISTVO
-
Članek uvede benchmark DELEGATE-52, ki simulira dolge delovne tokove urejanja dokumentov v 52 profesionalnih domenah, od programiranja in kristalografije do glasbene notacije in računovodstva.
-
Osrednja ugotovitev je, da tudi najboljši preizkušeni modeli po daljšem zaporedju delegiranih nalog opazno poslabšajo dokumente, namesto da bi jih zanesljivo ohranili ali pravilno povrnili v prvotno stanje.
-
Metodologija temelji na “round-trip” pristopu: model najprej izvede spremembo, nato njeno obratno različico, raziskovalci pa izmerijo, koliko prvotne vsebine je po tem ciklu še pravilno ohranjene.
-
Rezultati kažejo, da so modeli praviloma boljši v strogo strukturiranih ali programskih domenah, precej slabši pa v naravnojezikovnih in nišnih formatih, kjer je semantična natančnost težje vzdržna.
-
Avtorji iz tega sklepajo, da sedanji LLM-i še niso pripravljeni na zanesljivo delegirano znanstveno, poslovno ali ustvarjalno delo brez tesnega človeškega nadzora.
DEJSTVA
-
Benchmark zajema 52 domen, 310 delovnih okolij in skupaj 2.125 nalog urejanja, razporejenih v pet skupin: Science & Engineering, Code & Configuration, Creative & Media, Structured Records in Everyday.
-
V glavnem eksperimentu so avtorji preizkusili 19 modelov; med vodilnimi so navedeni Gemini 3.1 Pro, Claude 4.6 Opus in GPT 5.4.
-
Po 20 interakcijah so frontier modeli v povprečju izgubili približno 25% vsebine dokumenta, povprečna degradacija čez vse modele pa je bila približno 50%.
-
Python je edina domena od 52, v kateri je večina modelov dosegla prag “ready”, ki ga avtorji definirajo kot vsaj 98% ohranjenosti po 20 interakcijah.
-
Avtorji pokažejo še tri pomembne učinke: večji dokumenti poslabšajo rezultat, daljši potek interakcije dodatno kopiči napake, prisotnost distraktorskih datotek pa zanesljivo škodi uspešnosti.
CITATI
-
“current models degrade documents during delegation” pomeni glavno tezo članka: problem ni le nepopolnost, ampak sistematična degradacija med delegiranjem dela.
-
“corrupt an average of 25% of document content” je najbolj neposredna številčna ocena škode, ki jo avtorji pripišejo tudi najmočnejšim modelom v dolgih potekih.
-
“agentic tool use does not improve performance” poudari, da preprosta dodana orodja sama po sebi ne rešijo problema zanesljivosti pri urejanju dokumentov.
-
“sparse but severe errors” dobro povzame naravo odpovedi: napake niso stalne, vendar so takrat, ko se pojavijo, dovolj velike, da resno poškodujejo artefakt.
-
“Python is the only domain” izpostavi, kako omejena je dejanska pripravljenost modelov za delegirano delo zunaj kodiranja.