VIR
BISTVO
-
Članek opisuje 7 SLM modelov, ki delujejo na potrošniški strojni opremi in so razvrščeni po primernosti za konkretne use-case scenarije, ne po benchmarkih.
-
Glavne osi izbire so: dolgi kontekst (Phi‑3.5 Mini), splošna vsestranskost (Llama 3.2 3B), ekstremna učinkovitost za rob/telefon (Llama 3.2 1B), večja moč ob še sprejemljivi velikosti (Ministral 3 8B, Gemma 2 9B) ter specializacija za kodo (Qwen 2.5 7B) in prototipiranje (SmolLM2 1.7B).
-
Avtor poudari, da se posamezne uteži, kontekstni limiti in izdaje modelov hitro spreminjajo, zato priporoča, da bralec konkretne variante preveri na model cardih oz. straneh v Ollami.
-
Vsi opisani modeli so na voljo za lokalni prenos prek Hugging Face ali Ollama, pri čemer morata uporabnik za nekatere družine (Llama, Gemma) sprejeti licenčne pogoje in se včasih avtenticirati.
-
Zaključna poanta: vstopni prag za lokalni pogon AI je nizek; izberite eno družino modelov glede na svoj primer uporabe, jo preizkusite na lastnih podatkih in nato iterirajte.
DEJSTVA
-
Phi‑3.5 Mini (Microsoft) ima približno 3,8B parametrov, v 4‑bit kvantizaciji potrebuje približno 6–10 GB RAM, v 16‑bit natančnosti pa približno 16 GB RAM.
-
Llama 3.2 3B (Meta) podpira vsaj 8 jezikov (angleščina, nemščina, francoščina, italijanščina, portugalščina, hindijščina, španščina, tajščina), v 4‑bit načinu potrebuje približno 6 GB RAM.
-
Llama 3.2 1B lahko v 4‑bit kvantizaciji deluje v približno 2–4 GB RAM in je primerna tudi za višji razred pametnih telefonov in IoT naprave.
-
Ministral 3 8B (Mistral AI) cilja na robne namestitve; v 4‑bit kvantizaciji potrebuje približno 10 GB RAM, v 16‑bit pa okrog 20 GB RAM, priporočeno je vsaj 16 GB RAM.
-
Gemma 2 9B (Google) v 4‑bit kvantizaciji potrebuje približno 12 GB RAM, v 16‑bit okoli 24 GB RAM, priporočilo je 16+ GB RAM za resnejšo uporabo.
CITATI
-
»Powerful AI now runs on consumer hardware. The models covered here work on standard laptops and deliver production-grade results for specialized tasks.«
-
»Microsoft’s Phi-3.5 Mini is a top choice for developers building retrieval-augmented generation (RAG) systems on local hardware.«
-
»Meta’s Llama 3.2 3B is the all-rounder. It handles general instruction-following well, fine-tunes easily, and runs fast enough for interactive applications.«
-
»Alibaba’s Qwen 2.5 7B dominates coding and mathematical reasoning benchmarks.«
-
»Hugging Face’s SmolLM2 is one of the smallest models here, designed for rapid experimentation and learning.«