• Glavne omejitve LLM: omejeno znanje (vezano na podatke iz časa treniranja), hitro zastaranje informacij, dragi redni re-treningi in tveganje za t.i. halucinacije—model lahko generira prepričljive, a lažne/izmišljene odgovore, če nima pravih podatkov.

  • Rešitev za te težave je pristop RAG (Retrieval-Augmented Generation), ki združi zmožnosti naprednih LLM z iskalnimi algoritmi (kot pri spletnih iskalnikih). Preden model ustvari odgovor, iz zunanjih virov pridobi aktualne in relevantne informacije ter jih uporabi kot kontekst za generacijo odgovora.

  • S tem RAG zmanjša zastarelost podatkov, stroške retreniranja in število halucinacij, saj so odgovori bolje utemeljeni na dejanskih virih in dokumentih.

  • Prispevek je prvi v seriji o RAG—v naslednjem delu bo podrobneje predstavljen način delovanja RAG pristopa.

Ključne točke:

  • RAG združuje iskanje informacij in generacijo jezika za zanesljivejše odgovore.

  • Rešuje težave: zastarelost podatkov, drage re-treninge, halucinacijo.

  • Je pomemben korak v razvoju sodobne umetne inteligence in NLP rešitev.​

Osnovni RAG sistem ima tri ključne dele:

  • LLM, naučen na ogromnem številu besedil.

  • Vektorsko bazo podatkov (knowledge base), kjer se besedila
    shranijo kot številski vektorji zaradi hitrega in semantičnega iskanja
    konteksta.

  • Uporabniška vprašanja ali pozivi v naravnem jeziku.

Tipični RAG workflow ima tri faze:

  1. Pridobivanje (retrieval): “Retriever” iz vektorske baze podatkov poišče kontekstualno ustrezne dokumente z iskanjem podobnosti (query se pretvori v vektor in primerja s shranjenimi vektorji).

  2. Obogatitev (augmentation): Pridobljeno besedilo se doda izvirnemu vprašanju oziroma pozivu uporabnika.

  3. Generacija (generation): LLM prejme obogateno vprašanje in ustvari natančen, s kontekstom podprt odgovor.

  • Retriever ni klasičen iskalnik po ključnih besedah, ampak išče semantično relevantne podatke glede na uporabniško vprašanje.

  • Generator je običajno transformer LLM, ki na podlagi obogatenega inputa generira koherentne in relevantne odgovore (t.i. naloga napovedi naslednje besede – next-word prediction).

Večji kontekst omogoča bolj kakovostne in natančne odgovore; na primer GPT-4 Turbo lahko sprejme bistveno daljše zaporedje vnosov kot GPT-3.

  • Retrieval Augmented Generation (RAG) sistemi izboljšajo rezultate LLM z iskanjem zunanjega znanja v vektorskih bazah podatkov. Glavni izziv ostaja upravljanje dolžine konteksta, saj modeli ne morejo obdelati prevelike količine podatkov v eni potezi.

  • Štiri ključne strategije za upravljanje konteksta v RAG:

    • Razdeljevanje dokumentov: Dokumenti se razdelijo na manjše koherentne dele za ohranjanje relevantnosti brez ponavljanja.

    • Selektivno iskanje: Filtriranje in izbor le najbolj relevantnih vsebin, da se zmanjša količina nepomembnih podatkov.

    • Usmerjeno iskanje: Uporaba specializiranih iskalnikov, prilagojenih za specifične tipe poizvedb ali področja.

    • Povzemanje konteksta: Kondenziranje najdenih informacij z izluščenimi ali abstraktnimi povzetki, pri čemer se ohranijo bistveni podatki.

Halucinacije (napačni ali zavajajoči rezultati) se seveda še vedno lahko pojavijo pri jezikovnih modelih in tudi v sistemih Retrieval-Augmented Generation (RAG), ki imajo namen zmanjšati napake s tem, da odgovore utemeljijo z zunanjimi podatki.

  • Halucinacije v RAG nastanejo, če:

    • So pridobljeni podatki napačni, zastareli ali pristranski.

    • Postopek iskanja podatkov izpusti pomembne kontekstualne podrobnosti.

    • Je sklepanje samega jezikovnega modela napačno, čeprav so podatki ustrezni.

  • Tri glavne strategije za zmanjševanje halucinacij:

    • Podatkovna strategija: Natančno kuriranje podatkov, redne posodobitve, samodejno preverjanje dejstev in filtriranje nekakovostnih virov povečajo zanesljivost.

    • Kontekstualna strategija: Izboljšane metode iskanja, razširjene poizvedbe, ponovno razvrščanje ter napredna uporaba pozivov pomagajo zagotoviti relevanten in popoln kontekst.

    • Strategije AI in sklepanja: Prilagajanje modelov z vodenimi podatkovnimi nabori, vključitev logičnega in zdravorazumskega sklepanja, zunanje preverjanje podatkov ter večstopenjsko sklepanje zmanjšujejo tveganje halucinacij.

  • Čeprav RAG sistemi pomagajo blažiti halucinacije, so potrebni celoviti ukrepi na ravni podatkov, konteksta in AI sklepanja za resnično zanesljive ter kakovostne rezultate uporabniku.