Qwen 2.5-Max

link: https://chat.qwenlm.ai/

Alibaba je pravkar predstavil Qwen2.5-Max, umetno inteligenco z 20 trilijoni tokenov, namenjeno tekmovanju z GPT-4o, Claude 3.5 Sonnet in DeepSeek V3. In številke? So ogromne.

– 20 trilijonov žetonov – to je 15 trilijonov besed ali 168 milijonov izvodov Orwellovega romana 1984.

– Premaguje DeepSeek V3 v neposrednih preizkusih – 89,4 točke na prednostni lestvici (v primerjavi s 85,5 točke DeepSeeka).

– Razbija matematična merila – 94,5 % na testu GSM8K, kar je več kot DeepSeek V3 (89,3 %).

– Nadgrajen sistem Mixture-of-Experts (MoE) – aktivira le potrebne “možgane”, zato je hitrejši in učinkovitejši od tradicionalnih modelov.

– Na voljo prek Qwen Chat in Alibaba Cloud API – ni potrebna zapletena nastavitev. Na nekaterih področjih še vedno zaostaja za Claudom 3,5 Sonnetom.

Qwen 2.5-Max je jezikovni model, ki ga je razvilo podjetje Qwen, hčerinsko podjetje Alibabe. Nekateri ključni podatki o tem modelu:

Velikost modela: Qwen 2.5-Max je model z 72 milijardami parametrov, kar ga uvršča med največje odprto-kodne jezikovne modele na voljo.

In tu je „sporno“ vprašanje, na katerega vam DeepSeek ne bo odgovoril, Qwen pa je to storil brez oklevanja:

Prednosti:

Qwen 2.5-Max je bil pretreniran na več kot 20 bilijonih žetonov besedila, kar mu omogoča izjemno široko znanje in razumevanje.
Model je bil dodatno izpopolnjen s tehnikami nadzorovanega učenja in učenja s povratno zanko iz človeških povratnih informacij, kar je izboljšalo njegove sposobnosti razumevanja in sledenja navodilom.
Qwen 2.5-Max je zmožen generiranja dolgih besedil do 8.000 žetonov in razumevanja strukturiranih podatkov, kot so tabele.
Model odlično deluje v različnih jezikih, vključno s kitajščino, angleščino, francoščino, španščino, nemščino in drugimi.
Qwen 2.5-Max je konkurenčen ali celo boljši od drugih vodilnih jezikovnih modelov, kot sta GPT-4 in Claude 3.5, na različnih testih in ocenjevanjih.

Primerjava z drugimi modeli:

V primerjavi z drugimi velikimi odprtokodnimi modeli, kot sta Llama 3.1-405B in DeepSeek V3, Qwen 2.5-Max dosega boljše rezultate na testih, kot so Arena-Hard, LiveBench in MMLU-Pro.
Qwen 2.5-Max je tudi konkurenčen v primerjavi z vodilnimi komercialnimi modeli, kot sta GPT-4 in Claude 3.5, čeprav še vedno zaostaja v nekaterih vidikih.

Zgodovina nastanka: Qwen 2.5-Max je nadgradnja prejšnjega modela Qwen 2, ki je bil objavljen pred tremi meseci. Qwen 2.5 vključuje številne izboljšave, kot so večja količina pretreniranih podatkov, boljše sposobnosti razumevanja in generiranja strukturiranih podatkov ter izboljšane zmogljivosti sledenja navodilom.

Zadnje objave