7 majhnih jezikovnih modelov

Članek opisuje 7 SLM modelov, ki delujejo na potrošniški strojni opremi in so razvrščeni po primernosti za konkretne use-case scenarije, ne po benchmarkih.
Glavne osi izbire so: dolgi kontekst (Phi‑3.5 Mini), splošna vsestranskost (Llama 3.2 3B), ekstremna učinkovitost za rob/telefon (Llama 3.2 1B), večja moč ob še sprejemljivi velikosti (Ministral 3 8B, Gemma 2 9B) ter specializacija za kodo (Qwen 2.5 7B) in prototipiranje (SmolLM2 1.7B).
Avtor poudari, da se posamezne uteži, kontekstni limiti in izdaje modelov hitro spreminjajo, zato priporoča, da bralec konkretne variante preveri na model cardih oz. straneh v Ollami.
Vsi opisani modeli so na voljo za lokalni prenos prek Hugging Face ali Ollama, pri čemer morata uporabnik za nekatere družine (Llama, Gemma) sprejeti licenčne pogoje in se včasih avtenticirati.
Zaključna poanta: vstopni prag za lokalni pogon AI je nizek; izberite eno družino modelov glede na svoj primer uporabe, jo preizkusite na lastnih podatkih in nato iterirajte.

Phi‑3.5 Mini (Microsoft) ima približno 3,8B parametrov, v 4‑bit kvantizaciji potrebuje približno 6–10 GB RAM, v 16‑bit natančnosti pa približno 16 GB RAM.
Llama 3.2 3B (Meta) podpira vsaj 8 jezikov (angleščina, nemščina, francoščina, italijanščina, portugalščina, hindijščina, španščina, tajščina), v 4‑bit načinu potrebuje približno 6 GB RAM.
Llama 3.2 1B lahko v 4‑bit kvantizaciji deluje v približno 2–4 GB RAM in je primerna tudi za višji razred pametnih telefonov in IoT naprave.
Ministral 3 8B (Mistral AI) cilja na robne namestitve; v 4‑bit kvantizaciji potrebuje približno 10 GB RAM, v 16‑bit pa okrog 20 GB RAM, priporočeno je vsaj 16 GB RAM.
Gemma 2 9B (Google) v 4‑bit kvantizaciji potrebuje približno 12 GB RAM, v 16‑bit okoli 24 GB RAM, priporočilo je 16+ GB RAM za resnejšo uporabo.

»Powerful AI now runs on consumer hardware. The models covered here work on standard laptops and deliver production-grade results for specialized tasks.«
»Microsoft’s Phi-3.5 Mini is a top choice for developers building retrieval-augmented generation (RAG) systems on local hardware.«
»Meta’s Llama 3.2 3B is the all-rounder. It handles general instruction-following well, fine-tunes easily, and runs fast enough for interactive applications.«
»Alibaba’s Qwen 2.5 7B dominates coding and mathematical reasoning benchmarks.«
»Hugging Face’s SmolLM2 is one of the smallest models here, designed for rapid experimentation and learning.«

Zadnje objave