Halucinacije: GPT-4o “ustvari” eno od petih navedb o duševnem zdravju

vir: https://mental.jmir.org/2025/1/e80371

Nekatere napake umetne inteligence so precej smešne. Druge imajo resnejše posledice. Zlasti kadar se umetna inteligenca uporablja brez nadzora za izdelavo dokumentov, ki lahko vplivajo na politiko, določajo financiranje in podobno.

V tem primeru so raziskovalci preizkusili rezultate GPT-4o ( OpenAI) pri pisanju znanstvenih člankov. Umetno inteligenco so spodbudili, da ustvari šest pregledov literature o različnih temah duševnega zdravja, pri čemer so poskrbeli, da je imela dostop do razpoložljivih virov. V šestih promptih je GPT-4o ustvaril 176 navedb. Skoraj 20 % teh navedb je bilo popolnoma izmišljenih, več kot 45 % »resničnih« pa je vsebovalo napake.

Ne glede na to, kako natančen je bil prompt ali kako uveljavljena je bila znanstvena tema, je umetna inteligenca še vedno naredila napake in si stvari izmislila.

Vpliv znanosti teme in specifičnosti navodil na izmišljotine citatov pri uporabi velikih jezikovnih modelov v raziskavah duševnega zdravja: eksperimentalna študija

Študija analizira pogostost izmišljenih citatov v izhodih GPT-4o pri generiranju pregledov literature o duševnih motnjah z različno stopnjo javne prepoznavnosti.
Izdelava citatov je višja pri manj znanih motnjah (bulimija 28%, dismorfna motnja 29%) v primerjavi z depresijo (6%).
Med resničnimi citati je 45% napak, najpogosteje napačni DOI-ji, natančnost pa je odvisna od specifičnosti navodil.
Pri bulimiji specializirani pregledi kažejo 46% izmišljotin v primerjavi z 17% pri splošnih.
Rezultati opozarjajo na potrebo po človeški preverbi citatov v akademskih delih z LLM.

DEJSTVA

GPT-4o je generiral 176 citatov v 6 pregledih literature; 35 (19,9%) je izmišljenih.
Izdelava citatov: glavna depresivna motnja 4/68 (6%), motnja prenajedanja 17/60 (28%), dismorfna motnja telesa 14/48 (29%); χ²₂=13,7; P=.001.
Med 141 resničnimi citati je 77 (54,6%) popolnoma natančnih; največ napak pri DOI-jih (51/135, 37,8%).
Natančnost po motnjah: depresija 64%, bulimija 60%, dismorfna 29%; χ²₂=11,6; P=.003.

Halucinacije: GPT-4o “ustvari” eno od petih navedb o duševnem zdravju

Zadnje objave