Googlejeva podatkovna prednost v tekmi za generativni AI

vir:
https://finance.yahoo.com/news/google-huge-edge-over-openai-110102636.html
https://x.com/glenngabe/status/2013680408924143842

  • Članek opisuje izjave izvršnega direktorja Cloudflarea Matthewa Princa, da ima Google zaradi dostopa do več podatkov ključno prednost pred OpenAI, Microsoftom in drugimi AI podjetji.​

  • Googlebot naj bi videl približno 3,2‑krat več spletnih strani kot sistemi OpenAI, kar pomeni bistveno večjo učno bazo za modele, ki temeljijo na spletnem indeksu.​

  • Po Princeu Google vidi tudi okoli 4,8‑krat več spleta kot Microsoft, pri čemer se ravni dostopa drugih igralcev (npr. Anthropic) približujejo Microsoftovim ali so še nižje.​

  • Ključni razlog za ta položaj je Googlov dolgoletni primat v iskanju, zaradi katerega so mu številna spletna mesta omogočila dostop tudi za del vsebin za paywallom ali v delih interneta, kamor drugi crawlerji ne pridejo.​

  • Prince trdi, da v dobi umetne inteligence »zmaga tisti, ki ima največ podatkov« in da uspeh Geminija pripisuje predvsem podatkovni prednosti, ne toliko čipom ali kadrom, ter odpira vprašanje regulacije tega podatkovnega privilegija.​

DEJSTVA

  1. Matthew Prince navaja, da Googlebot dostopa do 3,2‑krat več spletnih strani kot OpenAI, kar ustvarja izrazito podatkovno asimetrijo.​

  2. Google naj bi imel 4,8‑krat večji vpogled v splet kot Microsoft, pri čemer so Anthropic in drugi še dodatno omejeni.​

  3. Zgodovinska dominanca Googla v iskanju je razlog, da so mu številna spletna mesta odprla dostop tudi za vsebine za paywallom ali v manj javnih delih spleta.​

  4. Prince ocenjuje, da je v generativnem AI odločilna količina in raznolikost podatkov, zato podatkovna prednost neposredno vpliva na kakovost modelov, kot je Gemini.​

  5. Članek omenja širši kontekst: razprave o omejitvah za AI učenje, stroških infrastrukture velikih tehnoloških podjetij in potencialnih regulativnih posegih v podatkovni dostop.​

Perplexityjev AI iskalnik: od univerzalnih rezultatov do personaliziranih odgovorov

vir:
https://x.com/glenngabe/status/2013608836087550407
https://www.searchenginejournal.com/perplexity-ai-interview-explains-how-ai-search-works/565395/

  • Intervju pojasni, da AI iskanje prehaja iz “klasičnega” SEO v odgovorom prilagojeno optimizacijo (AEO), kjer ni več enega univerzalnega rezultata za vse uporabnike.​

  • Osebni kontekst (spomin sistema na uporabnika) povzroči, da lahko dva uporabnika za isto poizvedbo dobita različne odgovore in različne vire.​

  • Ključna tehnološka razlika je med indeksiranjem celotnih dokumentov (GEO) in indeksiranjem pod-dokumentnih fragmentov (snippets), ki jih AI nato sestavi v odgovor.​

  • Perplexity skuša maksimalno zapolniti kontekstno okno modela z najbolj relevantnimi fragmenti (okoli 130.000 tokenov), da zmanjša halucinacije in poveča natančnost odgovorov.​

  • Za SEOs še vedno veljajo klasične prakse (vsebina, povezave, avtoriteta), vendar se fokus seli na to, da je vsebina dovolj strukturirana in kakovostna, da jo sistem lahko učinkovito razbije in uporabi v pod-dokumentnem indeksu.​

DEJSTVA

  1. Perplexity uporablja osebni kontekst in “personal memory”, zato dva uporabnika lahko dobita različne odgovore na isto poizvedbo v komercialnem AI iskanju.​

  2. Tradicionalni pristop (GEO) najprej izbere 10–50 celih dokumentov, nato LLM iz njih zgenerira povzetek; to je še vedno “klasično” algoritmično iskanje z generativno plastjo na vrhu.​

  3. Nov pristop AEO temelji na pod-dokumentnem indeksiranju, kjer se shranjujejo in priklicujejo granularni “snippeti” (približno 5–7 tokenov, 2–4 besede), pretvorjeni v vektorje.​

  4. Sistem skuša zbrati toliko fragmentov, da zapolni celotno kontekstno okno modela (okoli 130.000 tokenov), s čimer zmanjša prostor, da bi model “izmišljeval” in poveča natančnost odgovorov.​

  5. Konkurenčna prednost Perplexityja je v plasti med indeksom in izborom fragmentov (npr. modulacija računske porabe, reformulacija poizvedb, lastni modeli nad indeksom), kar naj bi vodilo do bolj relevantnih in bogatejših odgovorov ter močnejšega iskalnega API-ja za razvijalce.​

Google local ne rangira, česar ne zna jasno opredeliti – ime podjetja in primarna kategorija sta glavni “vratar” za prikaz v Map Packu.

vir:https://searchengineland.com/local-seo-google-entity-467727

  • Google najprej odloči, kaj ste (entiteta), šele nato kako dobro ste (rangiranje); večina podjetij pade že na nivoju upravičenosti do prikaza, ne zaradi recenzij ali povezav.​

  • Kombinacija imena podjetja in primarne kategorije tvori enoten semantični signal (“entity boundary”), ki določa, za katere poizvedbe ste sploh lahko prikazani v lokalnih rezultatih.​

  • Preozko ime (npr. “Smoothie”, “Pizza”, “Steakhouse”) vas zaklene v nišo in oteži prikaz za širše poizvedbe (“restaurant”, “lunch near me”), ne glede na sekundarne signale (atributi, vsebina, recenzije).​

  • API‑leak (NlpSemanticParsingLocalBusinessType, LocalCategoryReliable, NavBoost, visitHistory, clickRadius50Percent) potrjuje, da Google uporablja semantično razvrščanje in vedenjske signale za validacijo entitete – a šele po tem, ko ste sploh označeni kot relevantni.​

  • Strategija za 2026: pravilno zasidrajte entiteto z imenom in primarno kategorijo, ustvarite vsebino in strani storitev za širše poizvedbe ter z vedenjskimi signali (kliki, obiski, “branded” demand) postopno razširite svoj entitetni obseg.​

DEJSTVA

  • Google uporablja model NlpSemanticParsingLocalBusinessType kot “možgane” za pred‑rangirno odločitev, ali je podjetje semantično primerno za dano lokalno poizvedbo.​

  • Ime podjetja deluje kot niz semantičnih žetonov, primarna kategorija pa kot strukturiran taksonomski signal (GCID) z višjo avtoriteto pri nejasnostih.​

  • Preozko zasidrana entiteta (npr. primarna kategorija “steakhouse”) lahko dominira v ozkih iskanjih (“steakhouse”), a je skoraj nevidna v širših (“halal restaurant”, “restaurant”), dokler se ne spremeni primarna kategorija.​

  • Vedenjski signali, kot so visitHistory, clickRadius50Percent in NavBoost (“good clicks”, “longest last clicks”), služijo kot validacijski sloj, ki lahko postopno razširi ali potrdi entitetne meje.​

  • Google obravnava upravičenost do prikaza kot poizvedbo‑specifično: vsako ciljno ključno besedo morate preveriti proti svojemu imenu in primarni kategoriji, sicer lahko vlagate v signale, ki jih algoritem sploh ne upošteva.​

Google AI pregledi pri zdravstvenih iskanjih bolj citirajo YouTube kot medicinske strani…

vir:
https://www.theguardian.com/technology/2026/jan/24/google-ai-overviews-youtube-medical-citations-study

https://seranking.com/blog/health-ai-overviews-youtube-vs-medical-sites/

Zdravstveni AI-pregledi v Nemčiji nesorazmerno zaupajo YouTubu in manj zanesljivim virom

  • SE Ranking je analiziral 50.807 nemških zdravstvenih poizvedb in 465.823 citiranih URL-jev v Google AI Overviews za zdravje.​

  • YouTube je najpogosteje citirana domena (4,43% vseh citatov), 3,5‑krat pogosteje kot največji nemški zdravstveni portal netdoktor.de.​

  • Le 34,45% citatov prihaja iz bolj zanesljivih zdravstvenih institucij, akademskih virov ali uradnih organov; okoli 65,55% iz komercialnih in manj reguliranih virov.​

  • Vladni in akademski viri skupaj predstavljajo približno 1% vseh citatov, čeprav ravno oni določajo smernice in standarde.​

  • AI Overviews pogosto uporabljajo URL-je, ki sploh niso v TOP 10 organskih rezultatov; samo 36% citiranih URL-jev je v TOP 10 za isto poizvedbo.

  • Nova nemška študija ugotavlja, da Google funkcija AI Overviews pri zdravstvenih poizvedbah najpogosteje kot vir navaja YouTube, več kot katerokoli medicinsko spletno stran.​

  • Analiza 50.807 zdravstvenih poizvedb iz Berlina je pokazala, da je bil YouTube vir 4,43% vseh citatov, pri čemer nobeno bolnišnično omrežje, vladni portal ali medicinska ustanova temu ni bilo blizu.​

  • Raziskovalci opozarjajo, da YouTube ni medicinski založnik, temveč splošna video platforma, kjer so prisotni tako zdravniki kot tudi vplivneži brez medicinske izobrazbe.​

  • Google trdi, da AI Overviews daje prednost kakovostnim in verodostojnim virom, pri čemer poudarja, da je večina najbolj citiranih domen uglednih, ter da večina 25 najpogosteje citiranih videov prihaja z medicinskih kanalov.​

  • Neodvisni strokovnjaki opozarjajo, da rezultati kažejo na strukturno tveganje: sistem preferira vidnost in popularnost (npr. YouTube) pred medicinsko zanesljivostjo, kar lahko ogrozi javno zdravje.​

DEJSTVA

  1. The Guardian je dokumentiral konkretne primere nevarnih ali zavajajočih zdravstvenih nasvetov v Google AI Overviews (npr. napačna dieta pri raku trebušne slinavke, napačna interpretacija jetrnih testov).​

  2. V Nemčiji več kot 82% zdravstvenih poizvedb sproži AI Overview, zato AI odgovori postajajo primarni sloj zdravstvenih informacij.​

  3. YouTube ima 20.621 citatov (4,43%), NDR 3,04%, MSD Manuals 2,08%, netdoktor.de 1,61%, praktischarzt.de 1,53%.​

  4. Vlada (nemške in mednarodne institucije) prispeva 0,74% citatov, akademske raziskave 0,48%, skupaj približno 1%.​

  5. Približno dve tretjini virov, ki jih AI uporabi za zdravstvene odgovore, nimata formalnih mehanizmov za medicinski nadzor ali dokazno utemeljenost.

  1. Študija SE Ranking je analizirala 50.807 zdravstvenih poizvedb v nemščini z lokacijo v Berlinu in popisala 465.823 citatov v AI Overviews.​

  2. YouTube je bil najpogosteje citirana domena z 20.621 citati (4,43%), sledila sta NDR.de (3,04%) in Msdmanuals.com (2,08%).​

  3. AI Overviews so se pojavili pri več kot 82% zdravstvenih iskanj v vzorcu.​

  4. Guardianova prejšnja preiskava je pokazala primere nevarno zavajajočih odgovorov AI Overviews pri razlagi jetrnih testov, zaradi česar je Google delno umaknil AI povzetke pri nekaterih zdravstvenih iskanjih.​

  5. Google navaja, da je 96% izmed 25 najpogosteje citiranih videov na YouTubu z zdravstvenih kanalov, raziskovalci pa opozarjajo, da ti predstavljajo manj kot 1% vseh citiranih YouTube povezav.​

Namen in kontekst članka

Članek izhaja iz razprave, ki jo je sprožila preiskava The Guardian o napačnih zdravstvenih nasvetih v Google AI Overviews, in postavlja širše vprašanje: od kod v resnici prihajajo AI-zdravstveni odgovori in kako zanesljivi so viri, na katere se opirajo. Avtorja uporabljata nemški trg kot testni primer, ker je zdravstveni sistem močno reguliran in teoretično naklonjen zanesljivim virom.​

Ključne ugotovitve o virih AI Overviews

  • YouTube je najpogosteje citirana domena v zdravstvenih AI Overviews v Nemčiji, z 4,43% vseh citatov (20.621 od 465.823).​

  • To je 3,5‑krat več kot netdoktor.de in več kot dvakrat več kot MSD Manuals, ki sta specializirani in strokovno nadzorovani zdravstveni platformi.​

  • Naslednje najbolj citirane domene so ndr.de (3,04%), msdmanuals.com (2,08%), netdoktor.de (1,61%) in praktischarzt.de (1,53%).​

  • V top 10 so še herzstiftung.de, stiftung‑gesundheitswissen.de, aok.de, gesundheitsinformation.de in barmer.de, pri čemer skupaj YouTube in NDR predstavljata 38,1% citatov, uradni vladni portal gesundheitsinformation.de pa le 6,4%.​

Avtorji poudarijo, da YouTube ni zdravstveni založnik, ampak odprta video platforma, kjer vsebino objavljajo tako bolnišnice in zdravniki kot tudi vplivneži brez formalne medicinske izobrazbe. S tem AI dejansko obravnava celoten nabor videov kot enako veljaven bazen za medicinske odgovore.​

Zanesljivost in struktura virov

SE Ranking deli vire na dve skupini: bolj zanesljive (institucije, zavarovalnice, certificirani zdravstveni portali, bolnišnice, akademski časopisi, vladne strani) in manj zanesljive (komercialna spletišča, splošni portali brez medicinskega nadzora, odprte platforme). Rezultat: samo 34,45% vseh citatov prihaja iz bolj zanesljive skupine, preostalih 65,55% pa iz virov, ki niso zasnovani za zagotavljanje medicinske točnosti ali dokazno utemeljenih standardov.​

Posebej nizki so deleži za “zlati standard” virov: akademske raziskave in medicinske revije pomenijo 0,48% citatov, nemške vladne zdravstvene institucije 0,39%, mednarodne vladne zdravstvene institucije (npr. NIH, CDC) pa 0,35%. Skupaj tako vladni in akademski viri predstavljajo približno 1% vseh citatov, čeprav ravno ti določajo smernice in standarde zdravstvene oskrbe.​

Primerjava AI Overviews z organskimi rezultati

Na ravni domen se 9 od 10 najpogosteje citiranih domen v AI Overviews pojavlja tudi med najpogostejšimi organskimi rezultati za iste poizvedbe. Izstopa pa YouTube: v AI Overviews je na 1. mestu, v organskih rezultatih (brez SERP funkcij) pa šele na 11. mestu. To kaže izrazito preferenco AI za video vsebino v primerjavi s klasičnim algoritmom, ki daje večjo težo tradicionalnim zdravstvenim portalom in institucijam.​

Na ravni URL-jev je slika še bolj problematična: le 36% URL-jev, ki jih AI Overviews citira, se pojavi v TOP 10 organskih rezultatov za isto poizvedbo, 54% v TOP 20 in 74% v TOP 100. To pomeni, da približno tretjina virov, na katere se AI opira, sploh ne bi bila vidna običajnemu uporabniku na prvi strani rezultatov.​

Vedenje uporabnikov in tveganja

Avtorji se sklicujejo na ankete v Nemčiji, ki kažejo, da 55% uporabnikov chatbotov zaupa AI pri zdravstvenih nasvetih, približno polovica meni, da jim AI bolje pomaga razumeti simptome kot klasično iskanje, 30% AI odgovore dojema kot drugo zdravniško mnenje, 16% pa je že ignoriralo zdravnikov nasvet zaradi AI. Sočasno je več kot 82% zdravstvenih poizvedb v Nemčiji takih, da sprožijo AI Overview, kar AI odgovore postavlja v vlogo primarnega sloja zdravstvenih informacij.​

V tem kontekstu primeri, ki jih je dokumentiral The Guardian (npr. napačni dietni nasveti pri raku trebušne slinavke, napačna interpretacija jetrnih testov), niso le anomalije, ampak simptom širšega problema vira podatkov. Če AI pri občutljivih YMYL temah črpa pretežno iz ne-akademskih in nereguliranih virov, se povečuje verjetnost zavajajočih ali nevarnih priporočil.​

Metodologija raziskave

Študija temelji na 50.807 zdravstvenih poizvedbah in promptih v nemškem jeziku, izvedenih decembra 2025 z lokacijo iskanja v Berlinu. Analiza je enkratni posnetek stanja; avtorji izrecno opozorijo, da se AI Overviews nenehno razvijajo in da se lahko vzorci virov skozi čas in med regijami spreminjajo. Kljub temu konsistentnost podatkov (median in povprečja so podobna) kaže, da ne gre za artefakte ali izjemne primere, ampak za sistemski vzorec.​

Zaključna teza članka

Avtorji zaključijo, da je glavni problem manj v tem, da AI v posameznih primerih poda napačen nasvet, in bolj v strukturi virov, na katere se AI opira. Pri vsakdanjih temah je uporaba manj reguliranih virov morda sprejemljiva, pri zdravstvenih YMYL temah pa bi morali imeti prednost vladni, akademski in strogo nadzorovani viri. Trenutni podatki kažejo nasprotno: AI Overviews pogosto privilegirajo YouTube, medije in komercialna spletišča pred institucijami, ki dejansko definirajo medicinske standarde.

Googlejeva nova metoda za razpoznavo uporabniške namere

Google je predstavil raziskavo o novi metodi za razpoznavo uporabniške namere, ki temelji na majhnih modelih, ki tečejo neposredno v brskalniku ali na mobilni napravi, brez pošiljanja surovih podatkov nazaj v podatkovni center. Raziskovalci so problem razdelili na dva podproblema in pokazali, da tak dvofazni pristop premaga osnovno zmogljivost večmodalnih velikih jezikovnih modelov (MLLM), ki tečejo v masivnih podatkovnih centrih. Cilj je omogočiti avtonomnim agentom na napravi, da iz serije interakcij v uporabniškem vmesniku zanesljivo sklepajo, kaj uporabnik poskuša doseči, ob hkratnem poudarku na zasebnosti in robustnosti.​  Razpoznavanje uporabniške namere (user intent extraction) v tem kontekstu ne temelji na klasičnem iskalnem poizvedovanju, temveč na analizi zaporedja interakcij uporabnika z mobilno ali spletno aplikacijo. Vsaka uporabniška pot, ki jo raziskava imenuje trajektorija, je opisana kot zaporedje korakov, kjer vsak korak sestavljata vizualno stanje zaslona (posnetek zaslona) in konkretno dejanje uporabnika (klik, vnos besedila, izbira elementa). Več:  https://aclanthology.org/2025.emnlp-main.949.pdf