Sedanji LLM-i še niso pripravljeni na zanesljivo znanstveno, poslovno ali ustvarjalno delo brez striktnega človeškega nadzora (Philippe Laban, Tobias Schnabel in Jennifer Neville, vsi iz Microsoft Research.)

Članek trdi, da današnji LLM-i še niso zanesljivi za delegirano urejanje dokumentov, ker skozi daljše zaporedje nalog tiho vnašajo napake in sčasoma kvarijo vsebino. Avtorji zato predstavijo nov benchmark DELEGATE-52, s katerim merijo, kako dobro modeli ohranjajo pravilnost dokumentov skozi dolge delovne tokove v 52 različnih strokovnih domenah. Najpomembnejše praktično sporočilo je, da dober rezultat v kratkem ali enkratnem testu še ne pomeni, da bo model varen pri dolgotrajni uporabi na istih datotekah. LLM-i danes pri delegiranem delu pogosto ne odpovedo z mnogimi majhnimi napakami, temveč z redkimi, a hudimi okvarami, ki se nato seštevajo skozi več interakcij.

VIR https://arxiv.org/pdf/2604.15597.pdf

https://github.com/microsoft/DELEGATE52

BISTVO

Članek uvede benchmark DELEGATE-52, ki simulira dolge delovne tokove urejanja dokumentov v 52 profesionalnih domenah, od programiranja in kristalografije do glasbene notacije in računovodstva.
Osrednja ugotovitev je, da tudi najboljši preizkušeni modeli po daljšem zaporedju delegiranih nalog opazno poslabšajo dokumente, namesto da bi jih zanesljivo ohranili ali pravilno povrnili v prvotno stanje.
Metodologija temelji na “round-trip” pristopu: model najprej izvede spremembo, nato njeno obratno različico, raziskovalci pa izmerijo, koliko prvotne vsebine je po tem ciklu še pravilno ohranjene.
Rezultati kažejo, da so modeli praviloma boljši v strogo strukturiranih ali programskih domenah, precej slabši pa v naravnojezikovnih in nišnih formatih, kjer je semantična natančnost težje vzdržna.
Avtorji iz tega sklepajo, da sedanji LLM-i še niso pripravljeni na zanesljivo delegirano znanstveno, poslovno ali ustvarjalno delo brez tesnega človeškega nadzora.

DEJSTVA

Benchmark zajema 52 domen, 310 delovnih okolij in skupaj 2.125 nalog urejanja, razporejenih v pet skupin: Science & Engineering, Code & Configuration, Creative & Media, Structured Records in Everyday.
V glavnem eksperimentu so avtorji preizkusili 19 modelov; med vodilnimi so navedeni Gemini 3.1 Pro, Claude 4.6 Opus in GPT 5.4.
Po 20 interakcijah so frontier modeli v povprečju izgubili približno 25% vsebine dokumenta, povprečna degradacija čez vse modele pa je bila približno 50%.
Python je edina domena od 52, v kateri je večina modelov dosegla prag “ready”, ki ga avtorji definirajo kot vsaj 98% ohranjenosti po 20 interakcijah.
Avtorji pokažejo še tri pomembne učinke: večji dokumenti poslabšajo rezultat, daljši potek interakcije dodatno kopiči napake, prisotnost distraktorskih datotek pa zanesljivo škodi uspešnosti.

CITATI

“current models degrade documents during delegation” pomeni glavno tezo članka: problem ni le nepopolnost, ampak sistematična degradacija med delegiranjem dela.
“corrupt an average of 25% of document content” je najbolj neposredna številčna ocena škode, ki jo avtorji pripišejo tudi najmočnejšim modelom v dolgih potekih.
“agentic tool use does not improve performance” poudari, da preprosta dodana orodja sama po sebi ne rešijo problema zanesljivosti pri urejanju dokumentov.
“sparse but severe errors” dobro povzame naravo odpovedi: napake niso stalne, vendar so takrat, ko se pojavijo, dovolj velike, da resno poškodujejo artefakt.
“Python is the only domain” izpostavi, kako omejena je dejanska pripravljenost modelov za delegirano delo zunaj kodiranja.

Sedanji LLM-i še niso pripravljeni na zanesljivo znanstveno, poslovno ali ustvarjalno delo brez striktnega človeškega nadzora (Philippe Laban, Tobias Schnabel in Jennifer Neville, vsi iz Microsoft Research.)

VIR https://arxiv.org/pdf/2604.15597.pdf

BISTVO

DEJSTVA

CITATI

Zadnje objave