Google DeepMind je predstavil Gemini 2.5 Computer Use, specializiran model umetne inteligence, ki ne ustvarja le besedila, temveč tudi dejansko uporablja računalniške vmesnike – klika gumbe, izpolnjuje obrazce in se premika po aplikacijah kot človek.
Glavne značilnosti:
-
Zgrajen je na osnovi Gemini 2.5 Pro in omogoča razvijalcem ustvarjanje agentov, ki upravljajo spletne in mobilne aplikacije prek vizualne interakcije.
-
Model analizira posnetke zaslona, kontekst uporabniškega vmesnika in zahteve uporabnika, da izvaja dejanja, kot so klikanje, drsenje in tipkanje.
-
V testih, kot sta WebVoyager in AndroidWorld, že premaguje konkurenco z manjšo zakasnitvijo in večjo natančnostjo.
-
Trenutno najbolje deluje v spletnih brskalnikih, a dosega obetavne rezultate tudi na mobilnih napravah.
-
Uporaben je za testiranje uporabniških vmesnikov, avtomatizacijo delovnih tokov in inteligentne osebne pomočnike, ki lahko izvajajo naloge brez krhkih skript.
-
Vgrajeni so varnostni mehanizmi, kot so postopno preverjanje korakov in nadzor tveganih dejanj.
-
Zgodnji uporabniki poročajo o do 50 % hitrejši izvedbi in bistveno večji zanesljivosti pri zapletenih procesih.
Gre za pomemben korak proti resničnim digitalnim agentom, ki ne bodo le predlagali rešitev, ampak jih bodo tudi izvajali. Razkorak med tem, da AI “misli” in “deluje”, se hitro zapira – prihodnost bo v pametnejšem izvajanju, ne le v pametnejših odgovorih.