RAG (retrieval augmented generation)

Glavne omejitve LLM: omejeno znanje (vezano na podatke iz časa treniranja), hitro zastaranje informacij, dragi redni re-treningi in tveganje za t.i. halucinacije—model lahko generira prepričljive, a lažne/izmišljene odgovore, če nima pravih podatkov.
Rešitev za te težave je pristop RAG (Retrieval-Augmented Generation), ki združi zmožnosti naprednih LLM z iskalnimi algoritmi (kot pri spletnih iskalnikih). Preden model ustvari odgovor, iz zunanjih virov pridobi aktualne in relevantne informacije ter jih uporabi kot kontekst za generacijo odgovora.
S tem RAG zmanjša zastarelost podatkov, stroške retreniranja in število halucinacij, saj so odgovori bolje utemeljeni na dejanskih virih in dokumentih.
Prispevek je prvi v seriji o RAG—v naslednjem delu bo podrobneje predstavljen način delovanja RAG pristopa.

Ključne točke:

Osnovni RAG sistem ima tri ključne dele:

LLM, naučen na ogromnem številu besedil.
Vektorsko bazo podatkov (knowledge base), kjer se besedila
shranijo kot številski vektorji zaradi hitrega in semantičnega iskanja
konteksta.
Uporabniška vprašanja ali pozivi v naravnem jeziku.

Pridobivanje (retrieval): “Retriever” iz vektorske baze podatkov poišče kontekstualno ustrezne dokumente z iskanjem podobnosti (query se pretvori v vektor in primerja s shranjenimi vektorji).
Obogatitev (augmentation): Pridobljeno besedilo se doda izvirnemu vprašanju oziroma pozivu uporabnika.
Generacija (generation): LLM prejme obogateno vprašanje in ustvari natančen, s kontekstom podprt odgovor.

Retriever ni klasičen iskalnik po ključnih besedah, ampak išče semantično relevantne podatke glede na uporabniško vprašanje.
Generator je običajno transformer LLM, ki na podlagi obogatenega inputa generira koherentne in relevantne odgovore (t.i. naloga napovedi naslednje besede – next-word prediction).

Retrieval Augmented Generation (RAG) sistemi izboljšajo rezultate LLM z iskanjem zunanjega znanja v vektorskih bazah podatkov. Glavni izziv ostaja upravljanje dolžine konteksta, saj modeli ne morejo obdelati prevelike količine podatkov v eni potezi.
Štiri ključne strategije za upravljanje konteksta v RAG:
- Razdeljevanje dokumentov: Dokumenti se razdelijo na manjše koherentne dele za ohranjanje relevantnosti brez ponavljanja.
- Selektivno iskanje: Filtriranje in izbor le najbolj relevantnih vsebin, da se zmanjša količina nepomembnih podatkov.
- Usmerjeno iskanje: Uporaba specializiranih iskalnikov, prilagojenih za specifične tipe poizvedb ali področja.
- Povzemanje konteksta: Kondenziranje najdenih informacij z izluščenimi ali abstraktnimi povzetki, pri čemer se ohranijo bistveni podatki.

Halucinacije v RAG nastanejo, če:
- So pridobljeni podatki napačni, zastareli ali pristranski.
- Postopek iskanja podatkov izpusti pomembne kontekstualne podrobnosti.
- Je sklepanje samega jezikovnega modela napačno, čeprav so podatki ustrezni.
Tri glavne strategije za zmanjševanje halucinacij:
- Podatkovna strategija: Natančno kuriranje podatkov, redne posodobitve, samodejno preverjanje dejstev in filtriranje nekakovostnih virov povečajo zanesljivost.
- Kontekstualna strategija: Izboljšane metode iskanja, razširjene poizvedbe, ponovno razvrščanje ter napredna uporaba pozivov pomagajo zagotoviti relevanten in popoln kontekst.
- Strategije AI in sklepanja: Prilagajanje modelov z vodenimi podatkovnimi nabori, vključitev logičnega in zdravorazumskega sklepanja, zunanje preverjanje podatkov ter večstopenjsko sklepanje zmanjšujejo tveganje halucinacij.
Čeprav RAG sistemi pomagajo blažiti halucinacije, so potrebni celoviti ukrepi na ravni podatkov, konteksta in AI sklepanja za resnično zanesljive ter kakovostne rezultate uporabniku.