History LLM

vir: https://github.com/DGoettlich/history-llms

Projekt History LLMs razvija velike zgodovinske jezikovne modele (LLM), ki so strogo časovno zaklenjeni na določena obdobja in ne poznajo dogodkov po izbranem letu, saj teh podatkov ni v učni množici. Modeli tako omogočajo analizo diskurzov, idej in vrednot »iz perspektive časa«, ne skozi prizmo kasnejšega zgodovinskega znanja.​

Projekt izvajata Univerza v Zürichu in Univerza v Kölnu, GitHub repozitorij pa služi kot informacijsko središče, ki povezuje opise modelov, metodologijo in prihodnje podatkovne ter modelne repozitorije. Jedro ekipe sestavljajo Daniel Göttlich, Dominik Loibner, Guohui Jiang in Hans‑Joachim Voth, kontakt pa poteka prek naslova history-llms@econ.uzh.ch.​

Osrednja inovacija je koncept time‑locked LLM‑jev: vsak model ima določen »knowledge cutoff« (npr. 1913, 1929, 1933, 1939, 1946), učni korpus pa se zaključi z besedili do tega leta. Primer je model Ranke‑4B‑1913, ki ne »ve« za prvo svetovno vojno in odgovarja na podlagi predvojnega intelektualnega in političnega sveta, zajetega v časopisih, knjigah in esejih.​

Jedro modelne družine predstavljajo Ranke‑4B modeli z okoli 4 milijardami parametrov, grajeni na arhitekturi Qwen3. Vsak od njih je treniran na 80 milijardah tokenov, izbranih iz skrbno kuriranega zgodovinskega korpusa z več kot 600 milijardami časovno označenih tokenov. Ekipa napoveduje objavo dodatnih repozitorijev (pretraining, data, posttraining, Hugging Face), kjer bodo modeli in podatki javno dostopni.​

Zgodovinski LLM‑ji so kompresirane reprezentacije velikih besedilnih zbirk in služijo kot orodje za analizo diskurznih struktur ter semantičnih vzorcev. Niso popoln odsev javnega mnenja, ker temeljijo na objavljenih, pogosto elitnih in dominantnih virih, ter podedujejo njihove pristranskosti. Namenjeni so dopolnjevanju, ne nadomeščanju, klasičnega arhivskega raziskovanja in kritičnega branja primarnih virov.​

Projekt se jasno razlikuje od pristopa »sodobnih LLM‑jev, ki se pretvarjajo, da so zgodovinski«, kjer model sicer simulira slog neke dobe, vendar pozna celotno kasnejšo zgodovino. To vodi do pojava »hindsight contamination«, ko odgovori neizogibno odražajo vednost o prihodnjih dogodkih, kar popači avtentičnost zgodovinskega diskurza. Time‑locked modeli ta problem zmanjšujejo, ker preprosto nimajo dostopa do poznejših podatkov.​

Ker izhajajo iz zgodovinskih virov, modeli reproducirajo tudi rasistične, antisemitske, mizogine in imperialistične vsebine, značilne za svoja obdobja. Ekipa to razume kot ključen raziskovalni vidik, ne kot normativno stališče, zato v modele namerno ne vgrajuje retroaktivnega »čiščenja« teh pogledov. Vzpostaviti namerava zaščitne mehanizme, da se prepreči zloraba takih vsebin v sodobnih kontekstih.​

Za raziskovalce in učitelje zgodovinski LLM‑ji odpirajo nove možnosti: analizo nacionalizma, kolonializma, rase ali spola v točno določenem času, primerjave med različnimi letnicami ter pedagoško uporabo modela kot »glasu obdobja«. Repozitorij vključuje tudi BibTeX zapis za standardizirano citiranje projekta kot tehničnega poročila iz leta 2025 z URL‑jem https://github.com/DGoettlich/history-llms.

»Seznam poletnega branja za leto 2025«. Chicago Sun-Times je vseboval neobstoječe knjige

vir: https://www.npr.org/2025/05/20/nx-s1-5405022/fake-summer-reading-list-ai

image

Marca je časopis Chicago Sun-Times objavil »Seznam poletnega branja za leto 2025«. Vseboval je 15 naslovov, med drugim tudi delo The Rainmakers avtorja Percivala Everetta, ki ga je časopis opisal kot zgodbo, ki se odvija v »bližnji prihodnosti na ameriškem zahodu, kjer je umetno povzročeno deževje postalo luksuzno blago«.

Problem? The Rainmakers, skupaj z devetimi drugimi knjigami s seznama, v resnici ne obstaja. Kot se je izkazalo, je avtor za sestavo seznama uporabil umetno inteligenco. Navedel je resnične objavljene avtorje, jim pa pripisal izmišljene naslove, skupaj z opisom, ki ga je izmislil. Včasih je fikcija bolj čudna od resnice.

Spletna baza odkritih pravnih halucinacij v ZDA: “AI Hallucination Cases”

vir: https://www.damiencharlotin.com/hallucinations/

Po podatkih iz baze pravnih halucinacij, ki spremlja to metriko, je bilo vsaj 671 primerov pravnih odločitev, v katerih je generativna umetna inteligenca ustvarila halucinacijske vsebine. Večina teh je bila lažnih citatov, vendar so bili tudi drugi tipi argumentov, ki jih je ustvarila umetna inteligenca. V enem od odmevnih primerov je bil odvetnik nedavno kaznovan z 10.000 dolarji, ker je vložil pritožbo, v kateri je navedel 21 lažnih primerov, ki jih je ustvaril ChatGPT.

Baza primerov halucinacij generativne umetne inteligence v pravnih odločbah sledi 693 dokumentiranim primerom iz 30+ jurisdikcij.

  • Damien Charlotin vzdržuje interaktivno zbirko primerov, kjer generativna AI ustvari lažne citate ali argumente v pravnih dokumentih.

  • Baza vključuje filtre po državah (npr. ZDA 471, Avstralija 43), straneh (odvetniki 282, pro se tožniki 390), vrstah halucinacij (izmišljene 548) in sankcijah.

  • Nedavni primeri iz decembra 2025 kažejo opozorila, globe (do 59.500 USD) in prepovedi vložitev.

  • Ponuja orodje PelAIkan za preverjanje referenc in CSV prenos; baza je citirana v medijih in sodnih odločbah.

  • Stran promovira Substack “Artificial Authority” za analize.

DEJSTVA

  1. Identificiranih 693 primerov iz 30+ držav, večinoma ZDA (471), Kanada (50), Izrael (33).

  2. Glavne vrste: izmišljene sodne odločbe (583), lažni citati (191), napačno predstavljene (302).

  3. Stranke: odvetniki (282), pro se tožniki (390), sodniki (8); orodja pogosto implicirana ali ChatGPT.

  4. Sankcije: monetarne globe (npr. 59.500 USD v Jordan v. CHA), prepovedi vložitev, napotitve na disciplinske odbore.

  5. Zadnji primeri (dec. 2025): Liza Gardner v. Combs (6.000 USD globe), Couvrette v. Wisnovsky (15.500 USD).

AI na PPC testu ni blestel – na splošno je odgovoril napačno v 20 % primerov

vir:  https://www.wordstream.com/blog/how-accurate-is-ai-for-ppc

Susie Marino je nedavno izvedla lasten test, v katerem je petim različnim AI orodjem zastavila 45 vprašanj o oglaševanju po sistemu plačila na klik (PPC). Na splošno so odgovorili napačno v 20 % primerov.

Izbrali so oglase PPC, ker so zelo priljubljena in učinkovita oglaševalska strategija, ki pa zahteva precejšnje učenje. Ljudje pogosto iščejo pomoč na spletu (izraz »oglaševanje PPC« ima več kot 330.000 mesečnih iskanj v Googlu).

Susie je ugotovila tudi, da večina AI orodij ni mogla dati kakovostnih predlogov ključnih besed, Meta AI in AIO so dajali zastarele informacije o strukturi računa Google Ads, vsa orodja razen Meta AI pa so napačno odgovorila na vprašanja o stroških in učinkovitosti oglasov Facebook Ads.

Test natančnosti AI orodij pri odgovarjanju na 45 vprašanj o PPC oglasovanju razkriva 20% netočnosti.

  • WordStream je testiral pet AI orodij (ChatGPT, Google AI Overviews, Perplexity, Google Gemini, Meta AI) z istimi 45 vprašanji o PPC najboljših praksah, platformah in trendih.

  • Povprečna natančnost je 80%; Google Gemini je bil najboljši (94%), Google AI Overviews najslabši (74%).​

  • Ključne ugotovitve kažejo na zastarele podatke, pristranskost k lastnim platformam in neučinkovitost pri naprednih nalogah kot so skripti ali ključne besede.​

DEJSTVA

  • Google AI Overviews: 26% napačnih odgovorov, največ napak pri PPC podatkih.

  • Google Gemini: le 6% napačnih odgovorov, najbolj zanesljiv za Google Ads vprašanja.

  • Meta AI: popolnoma natančen pri Facebook oglasih, a pristranski proti njim pri Google Ads.

  • ChatGPT: 22% napak, preveč “prijaznih” analiz slabe uspešnosti.

  • Perplexity: 13% napak, soliden pri stroških in uspešnosti Google Ads.​

Halucinacije: GPT-4o “ustvari” eno od petih navedb o duševnem zdravju

vir:  https://mental.jmir.org/2025/1/e80371

Nekatere napake umetne inteligence so precej smešne. Druge imajo resnejše posledice. Zlasti kadar se umetna inteligenca uporablja brez nadzora za izdelavo dokumentov, ki lahko vplivajo na politiko, določajo financiranje in podobno.

V tem primeru so raziskovalci preizkusili rezultate GPT-4o ( OpenAI) pri pisanju znanstvenih člankov. Umetno inteligenco so spodbudili, da ustvari šest pregledov literature o različnih temah duševnega zdravja, pri čemer so poskrbeli, da je imela dostop do razpoložljivih virov. V šestih promptih je GPT-4o ustvaril 176 navedb. Skoraj 20 % teh navedb je bilo popolnoma izmišljenih, več kot 45 % »resničnih« pa je vsebovalo napake.

Ne glede na to, kako natančen je bil prompt ali kako uveljavljena je bila znanstvena tema, je umetna inteligenca še vedno naredila napake in si stvari izmislila.

Vpliv znanosti teme in specifičnosti navodil na izmišljotine citatov pri uporabi velikih jezikovnih modelov v raziskavah duševnega zdravja: eksperimentalna študija

  • Študija analizira pogostost izmišljenih citatov v izhodih GPT-4o pri generiranju pregledov literature o duševnih motnjah z različno stopnjo javne prepoznavnosti.

  • Izdelava citatov je višja pri manj znanih motnjah (bulimija 28%, dismorfna motnja 29%) v primerjavi z depresijo (6%).

  • Med resničnimi citati je 45% napak, najpogosteje napačni DOI-ji, natančnost pa je odvisna od specifičnosti navodil.

  • Pri bulimiji specializirani pregledi kažejo 46% izmišljotin v primerjavi z 17% pri splošnih.

  • Rezultati opozarjajo na potrebo po človeški preverbi citatov v akademskih delih z LLM.

DEJSTVA

  • GPT-4o je generiral 176 citatov v 6 pregledih literature; 35 (19,9%) je izmišljenih.

  • Izdelava citatov: glavna depresivna motnja 4/68 (6%), motnja prenajedanja 17/60 (28%), dismorfna motnja telesa 14/48 (29%); χ²₂=13,7; P=.001.

  • Med 141 resničnimi citati je 77 (54,6%) popolnoma natančnih; največ napak pri DOI-jih (51/135, 37,8%).

  • Natančnost po motnjah: depresija 64%, bulimija 60%, dismorfna 29%; χ²₂=11,6; P=.003.

GPT-5.2: Daljši kontekst, boljše razpoznavanje slik, boljša izdelava zahtevnih xls datotek …

GPT-5.2 je decembrska izdaja 2025 OpenAI-jevega modela GPT-5, multimodalnega (besedilo, vizija, orodja), optimiziranega za strokovno delo, dolg kontekst, agentno uporabo orodij in programsko inženirstvo. Ponuja tri variante: Instant (hitra), Thinking (globoka analiza) in Pro (najvišja kakovost).

Ključne izboljšave

Model izboljšuje pet področij: večstopenjsko logiko in matematiko (npr. 92.4% na GPQA, 100% na AIME), dolg kontekst do 400k žetonov z visoko natančnostjo, vizualno razumevanje grafov in tabel, agentno klicanje orodij (98.7% na Tau2-Bench) ter programiranje (55.6% na SWE-Bench Pro).​

Razlike glede na GPT-5.1

GPT-5.2 ima boljšo verodostojnost razmišljanja, manj halucinacij (38% manj), višjo varnost in nove API parametre za raven razmišljanja (high, xhigh). Benchmarki kažejo napredek na GDPval, matematiki in kodiranju.

Pomembna lastnost LLM je velikost konteksta. V bistvu gre za njihov spomin, torej koliko vsebine si lahko zapomnijo in jo obdelajo in posledično kako dobro razumejo nalogo, ki jo opravljajo.

Posledica prevelike vnešene vsebine v premajhen spomin pa so seveda preskok pomembnih delov in halucinacije. GPT-5.2 je izboljšava na tem področju.

Lahko absorbira in pridobi 98 % informacij iz kontekstnega okna s 256.000 žetoni. Toda kaj to pomeni? Če naložite 700 strani PDF-datotek s čisto besedilom, si lahko zapomni 98 % od njih.

Predstavljajte si vpliv na odvetnike, zavarovalnice, pravne ekipe, zdravnike, direktorje, finančne direktorje – vse, ki morajo absorbirati velike količine besedila in se prepričati, da AI razume in si zapomni vse.

Kako dober je v primerjavi s prejšnjo različico? Prejšnja različica ChatGPT si je lahko zapomnila le 50 % 300-stranskega PDF-ja in manj kot 50 % 700-stranskega PDF-ja.

To pa ni vse. Novi GPT tudi veliko bolje “vidi”. Torej, novi GPT-5.2 je veliko pametnejši pri delovnih nalogah in lahko absorbira več besedil in bolje razume slike.

Zakaj je to pomembno? Veliko bolje razume slike, posnetke zaslona, Excelove datoteke, nadzorne plošče, PDF-datoteke ali karkoli drugega, kar naložite – testi kažejo 22-odstotno povečanje razumevanja.

Preizkusi naslednji poziv v GPT-5.2  –  test kreiranja zahtevne Excell datoteke: 


Na podlagi spodnjih predpostavk sestavi Excelovo datoteko (.xlsx).

Zavihki:

1) Vnosi (predpostavke + 3 scenariji: osnovni/negativni/pozitivni)
2) Model (mesečni za 12 mesecev)
3) Nadzorna plošča (3 grafi + 6 KPI)

Predpostavke:

– Začetni prihodki: 120.000 EUR MRR
– Rast: osnovna 8 % MoM, negativna 4 %, pozitivna 12 %
– Odhodi: osnovni 3 % MoM, negativni 5 %, pozitivni 2 %
– CAC: 35 € na novega naročnika
– ARPU: 6 €/mesec
– Fiksni stroški: 45.000 €/mesec
– Spremenljivi stroški: 6 % prihodkov

Pravila:

– Brez trajno vpisanih (hardcoded)  številk zunaj vnosov.
– Jasno prikaži formule.
– Izpiši datoteko .xlsx.


Preizkusi naslednji poziv v GPT-5.2 – test učinkovitosti razumevanja dolgega Word dokumenta : 


Vstavil bom dolg dokument.

Tvoja naloga:

1) Izvleci 12 točk dejanskega povzetka. Vsaka točka mora vsebovati natančen citat + vir (naslov poglavja ali bližnji tekst).

2) Navedi protislovja ali nejasne trditve (vsaj 8). Za vsako: navedite obe strani.

3) Napiši izčrpno poročilo o naslednjih dejstvih:

– Kaj vemo (samo dejstva)

– Kaj ne vemo (izrecno)

– Tveganja (5 najpomembnejših)

– Naslednji ukrepi (7 najpomembnejših, lastnik + roki)


Pravila:

– Če manjkajo podrobnost, napišite »Ni navedeno«.

– Ne ugibaj.

Si pripravljen? Reci: »Prilepi«.


Preizkusi naslednji poziv v GPT-5.2  – test prepoznave podatkov na sliki: 


Naložil bom ENO sliko zaslona nadzorne plošče, strani z analitičnimi podatki ali uporabniškega vmesnika.


Naredi naslednje:

1) V dveh stavkih mi povej, kaj vidim na sliki.

2) Izberi 10 najpomembnejših številk/oznak, ki jih lahko prebereš (dobesedno).

3) Opredeli 3 verjetne težave ali priložnosti (razvrščene po pomembnosti).

4) Predlagaj 7-stopenjski načrt, kaj je treba preveriti v naslednjem koraku.

5) Napiši 5-vrstično posodobitev Slack, ki jo lahko pošljem svojemu timu.


Pravila:

– Uporabi samo tisto, kar lahko vidiš. Če je nečitljivo, napiši „Ne morem prebrati“.

– Postavi največ 3 pojasnjevalna vprašanja, samo če je to res potrebno.

The Prompt Engineering Framework

vir:  Ali H. Salem

uporaba xml sintakse izboljša končni rezultat !

Role

Opredelite strokovno osebnost
Določite strokovno znanje AI, poznavanje ciljne skupine in komunikacijski pristop:

<role>
You are a [specific role/expert] with expertise in [domain].
Your audience: [description + knowledge level]
Communication style: [tone + specific requirements]
</role>


Primer

You are a senior business strategy consultant with expertise in competitive analysis. Your audience: C-suite executives with limited time for deep technical details. Communication style: Concise, data-driven, and actionable with a confident tone.


Task

Določite cilj
Jasno opredelite, kaj je treba doseči, z izrecnimi zahtevami:

<task>
[Action verb] + [specific objective]
Key requirements:
– [Requirement 1]
– [Requirement 2]
– [Requirement 3]
</task>

Primer

Analyze the competitive positioning of our SaaS product against three main competitors.
Key requirements:
Identify unique differentiators and vulnerabilities
Quantify market share implications where possible
Provide actionable recommendations for Q1 strategy

Context

Zagotovite ustrezne osnovne informacije

Zagotovite informacije, potrebne za razumevanje in izvedbo naloge:

<context>
[Paste relevant information, documents, data, or background details here]
</context>

Primer

Our product: Project management tool for remote teams, $49/month, 50K users
Competitor A: Asana – 100K users, extensive integrations
Competitor B: Monday.com – 80K users, visual interface focus
Competitor C: ClickUp – 60K users, feature-rich, lower price point ($35/month)
Recent customer feedback highlights our superior mobile experience but mentions lack of time-tracking features.

Example

Navedite primere izhodnih podatkov
Pojasnite, kakšni so dobri izhodni podatki:

<examples>
Example 1:
[Show what good output looks like for scenario 1]
Example 2..n:
[Show what good output looks like for scenario 2]
</examples>


Primer

Example 1:
“Our $49/month price point positions us as a premium option compared to ClickUp’s $35/month. This 40% price premium must be justified through: (1) superior mobile UX, (2) enterprise-grade security, (3) white-glove onboarding. Risk: Price-sensitive SMBs may churn to ClickUp unless we demonstrate clear ROI advantage.”

Output

Določite pričakovane rezultate
Določite format, dolžino in strukturo želenega izhoda:

<output>
Format: [specific format – e.g., “markdown table with 3 columns”]
Length: [constraint – e.g., “300-400 words”]
Structure: [if applicable – e.g., “Introduction → Analysis → Recommendations”]
</output>


Primer

Format: Executive summary (1 paragraph) + comparison table (4 columns: Feature/Us/Competitors/Impact) + 3 strategic recommendations
Length: 400-500 words total
Structure: Summary → Comparison → Recommendations

Constraints

Določite omejitve in smernice
Določite, kaj naj bo vključeno in kaj ne:

<constraints>
– [Specific do’s and don’ts]
– [Style requirements]
– [Any limitations or boundaries]
</constraints>


Primer

No jargon or technical implementation details
Focus only on strategic business implications
Avoid speculating on competitors’ future roadmaps
Do not recommend features that would take >6 months to build

Instructions

Vodite proces
Zagotovite meta-navodila o tem, kako pristopiti k nalogi:

<instructions>
For complex tasks: Think through your approach step-by-step, then provide the final answer in the requested format.
If information is missing or uncertain, state this explicitly rather than guessing.
</instructions>


Primer

For complex tasks: Think through your approach step-by-step, then provide the final answer in the requested format.
If information is missing or uncertain, state this explicitly rather than

Reverse Prompting

I want to [describe the task or goal].

Write the optimal prompt that would generate the best possible result for this task, following prompt-engineering best practices.

Then, execute that prompt and show me the final answer.

Chain of Verification (CoV)

Before providing your final response:

  • 1. Identify at least three potential gaps or uncertainties in your reasoning.

  • 2. Reference the evidence that supports or contradicts each.

  • 3. Revise your summary accordingly.

  • 4. Present only the final, verified version.