Članek trdi, da današnji LLM-i še niso zanesljivi za delegirano urejanje dokumentov, ker skozi daljše zaporedje nalog tiho vnašajo napake in sčasoma kvarijo vsebino. Avtorji zato predstavijo nov benchmark DELEGATE-52, s katerim merijo, kako dobro modeli ohranjajo pravilnost dokumentov skozi dolge delovne tokove v 52 različnih strokovnih domenah. Najpomembnejše praktično sporočilo je, da dober rezultat v kratkem ali enkratnem testu še ne pomeni, da bo model varen pri dolgotrajni uporabi na istih datotekah. LLM-i danes pri delegiranem delu pogosto ne odpovedo z mnogimi majhnimi napakami, temveč z redkimi, a hudimi okvarami, ki se nato seštevajo skozi več interakcij.

VIR    https://arxiv.org/pdf/2604.15597.pdf

https://github.com/microsoft/DELEGATE52

image

BISTVO

  • Članek uvede benchmark DELEGATE-52, ki simulira dolge delovne tokove urejanja dokumentov v 52 profesionalnih domenah, od programiranja in kristalografije do glasbene notacije in računovodstva.

  • Osrednja ugotovitev je, da tudi najboljši preizkušeni modeli po daljšem zaporedju delegiranih nalog opazno poslabšajo dokumente, namesto da bi jih zanesljivo ohranili ali pravilno povrnili v prvotno stanje.

  • Metodologija temelji na “round-trip” pristopu: model najprej izvede spremembo, nato njeno obratno različico, raziskovalci pa izmerijo, koliko prvotne vsebine je po tem ciklu še pravilno ohranjene.

  • Rezultati kažejo, da so modeli praviloma boljši v strogo strukturiranih ali programskih domenah, precej slabši pa v naravnojezikovnih in nišnih formatih, kjer je semantična natančnost težje vzdržna.

  • Avtorji iz tega sklepajo, da sedanji LLM-i še niso pripravljeni na zanesljivo delegirano znanstveno, poslovno ali ustvarjalno delo brez tesnega človeškega nadzora.

DEJSTVA

  • Benchmark zajema 52 domen, 310 delovnih okolij in skupaj 2.125 nalog urejanja, razporejenih v pet skupin: Science & Engineering, Code & Configuration, Creative & Media, Structured Records in Everyday.

  • V glavnem eksperimentu so avtorji preizkusili 19 modelov; med vodilnimi so navedeni Gemini 3.1 Pro, Claude 4.6 Opus in GPT 5.4.

  • Po 20 interakcijah so frontier modeli v povprečju izgubili približno 25% vsebine dokumenta, povprečna degradacija čez vse modele pa je bila približno 50%.

  • Python je edina domena od 52, v kateri je večina modelov dosegla prag “ready”, ki ga avtorji definirajo kot vsaj 98% ohranjenosti po 20 interakcijah.

  • Avtorji pokažejo še tri pomembne učinke: večji dokumenti poslabšajo rezultat, daljši potek interakcije dodatno kopiči napake, prisotnost distraktorskih datotek pa zanesljivo škodi uspešnosti.

CITATI

  • “current models degrade documents during delegation” pomeni glavno tezo članka: problem ni le nepopolnost, ampak sistematična degradacija med delegiranjem dela.

  • “corrupt an average of 25% of document content” je najbolj neposredna številčna ocena škode, ki jo avtorji pripišejo tudi najmočnejšim modelom v dolgih potekih.

  • “agentic tool use does not improve performance” poudari, da preprosta dodana orodja sama po sebi ne rešijo problema zanesljivosti pri urejanju dokumentov.

  • “sparse but severe errors” dobro povzame naravo odpovedi: napake niso stalne, vendar so takrat, ko se pojavijo, dovolj velike, da resno poškodujejo artefakt.

  • “Python is the only domain” izpostavi, kako omejena je dejanska pripravljenost modelov za delegirano delo zunaj kodiranja.