Mar 27, 2026 | RAG & SLM
VIR: https://en.andros.dev/blog/aa31d744/from-zero-to-a-rag-system-successes-and-failures/
BISTVO (5 ključnih točk)
-
Avtor je moral zgraditi interni RAG‑chat za inženirje, ki lokalno uporablja LLM in odgovarja na vprašanja o skoraj desetletju projektne dokumentacije (~1 TB), z velikim poudarkom na OrcaFlex datotekah.
-
Prvotni pristop (LlamaIndex + JSON + “kar vse poberi iz Azure folderja”) je sesul RAM in bil neobvladljiv; rešil ga je agresiven filtrirni pipeline po ekstenzijah in tipih datotek ter konverzija v plain text.
-
Ključni preklop je bil na ChromaDB kot namensko vektorsko bazo (nad SQLite), z batch obdelavo ~150 datotek naenkrat, checkpointi in možnostjo varnega ponovnega zagona brez izgube napredka.
-
Zaradi šibke lokalne GPU je najel VM z NVIDIA RTX 4000 SFF Ada (20 GB VRAM); indeksiranje 451 GB dokumentov je trajalo 2–3 tedne in ustvarilo ~738.000 vektorjev ter 54 GB indeks.
-
Končna arhitektura: lokalni LLM prek Ollama (llama3.2:3b), embeddings z nomic‑embed‑text, ChromaDB (HNSW), LlamaIndex kot RAG orkestrator, Flask API + Gunicorn, Streamlit UI, Docker Compose, GPU pospešek in dokumenti servirani direktno iz Azure Blob Storage prek SAS tokenov.

DEJSTVA (številke, imena, tehnologije)
-
Izvorni podatkovni set: približno 1 TB projektov in tehnične dokumentacije; po filtriranju je indeksiral 451 GB dokumentov.
-
Po končanem indeksiranju je imel 738.470 vektorjev in približno 54 GB vektorskega indeksa v ChromaDB (nad SQLite).
-
Batch pipeline je obdeloval približno 150 datotek na iteracijo, z eksplicitnimi klici garbage collectorja med batchi.
-
Najeta GPU mašina: VM z NVIDIA RTX 4000 SFF Ada (20 GB VRAM), strošek najema pri Hetznerju je bil 184 € za obdobje indeksiranja.
-
Tehnološki sklad: Ollama + llama3.2:3b (LLM), nomic‑embed‑text (embeddings), ChromaDB (HNSW), LlamaIndex (RAG), Flask + Gunicorn (API), Streamlit (web UI), Docker Compose (orkestracija), Azure Blob Storage (451 GB dokumentov).

CITATI (ključni poudarki v izvirnem jeziku)
-
“A few months ago I was tasked with creating an internal tool for the company’s engineers: a Chat that used a local LLM.”
-
“LlamaIndex ended up overflowing my laptop’s RAM within minutes, choking my OS until everything froze.”
-
“After many trials and errors, and reading more about it, I decided to make the leap to a dedicated vector database: ChromaDB.”
-
“After several weeks, between 2 and 3, the indexing process finished without failures. 738,470 vectors, 54GB of index in ChromaDB, and a RAG system ready to answer questions.”
-
“My humble advice, if you’re considering building something similar: spend time building the best possible data. If the source is not relevant enough, the LLM won’t be able to generate good answers.”
Mar 25, 2026 | RAG & SLM
VIR
https://machinelearningmastery.com/vector-databases-vs-graph-rag-for-agent-memory-when-to-use-which/

BISTVO
-
Članek razloži, kako vektorske baze in grafni RAG služita kot arhitekturi dolgoročnega spomina za AI agente in kdaj je smiselno uporabiti katerega.
-
Vektorske baze predstavljajo podatke kot vektorje v visoko-dimenzionalnem prostoru in so odlične za semantično iskanje po ne-strukturiranem besedilu (pogovori, dokumentacija, koda).
-
Grafni RAG kombinira znanostne grafe in LLM ter modelira svet kot entitete (vozlišča) in relacije (povezave), kar omogoča natančno, večskokovno iskanje in razložljivost.
-
Vektorske baze so enostavnejše za uvedbo, a slabše pri kompleksnih relacijah in natančnih poizvedbah; grafni RAG je dražji in kompleksnejši, a boljši za strukturirane podatke in natančne povezave.
-
Avtor predlaga hibridno arhitekturo: vektorji za začetno semantično iskanje, nato grafni sprehod za natančen kontekst okoli najdenih entitet.
DEJSTVA
-
Članek je objavil Matthew Mayo 5. marca 2026 na portalu MachineLearningMastery v kategoriji “Artificial Intelligence”.
-
Vektorske baze uporabljajo vdelave (embeddings) kot goste vektorje realnih števil, kjer razdalja odraža semantično podobnost.
-
V grafnem RAG so entitete (npr. oseba, podjetje, tehnologija) predstavljene kot vozlišča, relacije (npr. »dela pri«, »uporablja«) pa kot usmerjene ali neusmerjene povezave.
-
Tipični use-case za vektorske baze so pogovorni dnevniki, splošna dokumentacija in široke baze znanja iz surovega besedila.
-
Tipični use-case za grafni RAG so finančni zapisi, odvisnosti kode, kompleksni pravni dokumenti, organizacijske strukture in odobritvene verige.
Mar 25, 2026 | RAG & SLM
VIR: https://machinelearningmastery.com/introduction-to-small-language-models-the-complete-guide-for-2026/

BISTVO:
-
Majhni jezikovni modeli (SLM, do ~10B parametrov) zadoščajo za večino tipičnih produkcijskih nalog (chatboti, support, dokumenti) pri bistveno nižjih stroških in latencah.
-
Ključne prednosti SLM-ov so nižji stroški (lokalni GPU namesto API), manjša latenca (50–200 ms lokalno) in boljša zasebnost (on‑prem, brez pošiljanja podatkov v oblak).
-
Sodobni SLM-i (Phi-3 Mini, Llama 3.2 3B, Mistral 7B) z dobro dodelavo dosegajo zmogljivost, primerljivo z bistveno večjimi modeli na ozko usmerjenih domenah.
-
Priporočeni pristop v praksi je hibrid: SLM rešuje ~80% ponavljajočih se, predvidljivih poizvedb, zahtevnih ~20% se preusmeri na velik LLM prek “router” vzorca.
-
Za začetek avtor priporoča: lokalni preizkus (Ollama + Llama/Phi), identifikacijo ponovljivih use‑caseov, fine‑tuning na 500–1000 primerih in lokalno/on‑prem namestitev.
-
Zasebnost: Regulirani sektorji (zdravstvo, finance, pravni sektor) ne smejo pošiljati občutljivih podatkov zunanjim API-jem.
SLM-i omogočajo tem organizacijam uporabo AI-ja ob hkratnem ohranjanju podatkov na lastnih strežnikih. Brez klicev zunanjih API-jev podatki ne zapustijo vaše infrastrukture.
-
LLM so zasnovani za širino in nepredvidljivost, medtem ko so SLM zgrajeni za globino in ponavljanje. Če vaša naloga zahteva obravnavo kakršnegakoli vprašanja o kateri koli temi, potrebujete široko znanje LLM. Vendar pa, če rešujete isti tip problema na tisoče krat, bo SLM, ki je fino prilagojen za to specifično področje, hitrejši, cenejši in pogosto bolj natančen.
DEJSTVA:
-
Članek je objavljen 24. februarja 2026, avtor je Vinod Chugani na portalu Machine Learning Mastery.
-
SLM je definiran kot model z manj kot 10 milijardami parametrov, tipično med 1B in 7B.
-
Phi‑3 Mini ima približno 3,8B parametrov, Llama 3.2 3B ima 3B parametrov, Mistral 7B pa 7B parametrov.
-
Kvantizacija 7B modela iz 16‑bit (≈14 GB) v 4‑bit zmanjša pomnilniški odtis na približno 3,5 GB, ob ohranitvi ~95% kvalitete.
-
Veliki modeli, kot je GPT‑4, imajo več kot 1 bilijon parametrov, Claude Opus ima stotine milijard parametrov, Llama 3.1 70B se še vedno šteje kot “velik”.
Kako SLM-ji Dosežejo Svojo Prednost
SLM-ji niso zgolj »majhni LLM-ji«. Uporabljajo specifične tehnike za zagotavljanje visoke zmogljivosti pri nizkem številu parametrov.
Distilacija Znanja:
trenira manjše »študente« modele, da posnemajo večje »učiteljske« modele. Študent se nauči ponoviti izhod učitelja, ne da bi potreboval enako veliko arhitekturo. Microsoftova serija Phi-3 je bila stisnjena iz veliko večjih modelov, pri čemer je ohranila več kot 90 % zmogljivosti pri 5 % velikosti.
Visokokakovostni Trening:
Podatki so pomembnejši za SLM-je kot sama količina podatkov. Medtem ko so LLM-ji trenirani na bilijonih tokenov z interneta, SLM-ji koristijo kurirane, visokokakovostne podatkovne zbirke. Phi-3 je bil treniran na »učbenik kakovostnih« sintetičnih podatkih, skrbno filtriranih za odstranitev šuma in odvečnosti.
Kvantizacija stisne uteži modela iz 16-bitnih ali 32-bitnih plavajočih vejic v 4-bitne ali 8-bitne cela števila. Model s 7 milijardami parametrov v 16-bitni natančnosti zahteva 14 GB pomnilnika. Kvantiziran na 4-bitni način, se prilega v 3,5 GB (dovolj majhen za zagon na prenosniku). Sodobne kvantizacijske tehnike, kot je GGUF, ohranijo več kot 95 % kakovosti modela ob doseganju 75 % zmanjšanja velikosti.
Arhitekturne Optimizacije, kot je redka pozornost, zmanjšujejo računsko obremenitev. Namesto da bi vsak token pozornosti namenil vsakemu drugemu tokenu, modeli uporabljajo tehnike kot so pozornost z drsnim oknom ali skupinska pozornost po poizvedbah, da osredotočijo izračune tam, kjer so najbolj pomembni.