Kako je avtonomni agent v 2 urah kompromitiral McKinseyjev AI sistem Lilli

vir: https://codewall.ai/blog/how-we-hacked-mckinseys-ai-platform

Avtonomni AI agent CodeWall je v manj kot dveh urah brez prijave pridobil poln bralni in pisalni dostop do produkcijske baze Lilli prek neavtenticiranega SQL injectiona v API-ju.
Izpostavljenih je bilo 46,5 milijona klepetov, 728.000 datotek, 57.000 uporabniških računov ter celotna RAG baza in struktura AI pomočnikov ter delovnih prostorov.
Ranljivost je izvirala iz neavtenticiranega endpointa, ki je JSON ključe neposredno zlepil v SQL poizvedbo, kar je omogočilo blind SQL injection, ki ga klasična orodja niso zaznala.
Agent je presegel golo branje podatkov in dosegel plast promptov (system prompts), kar bi napadalcu omogočilo tiho zastrupljanje izhodov, odstranjevanje guardrailov in nevidno vztrajnost v sistemu.
Primer kaže, da so AI prompti in RAG znanje nova “kraljevska dragocenost” varnostne arhitekture ter da bodo avtonomni napadalni AI agenti postali običajen del grožbenega okolja.

DEJSTVA

McKinseyjev interni AI Lilli (43.000+ uporabnikov, 500.000+ promptov/mesec) je imel javno dostopno API dokumentacijo z več kot 200 endpointi, od tega 22 brez avtentikacije.
Nezaščiten endpoint je zapisoval uporabniška iskanja v bazo; vrednosti so bile parametrizirane, JSON ključi (imena polj) pa so se neposredno vgrajevali v SQL, kar je omogočilo SQL injection.
Agent je iz baze pridobil ~46,5 milijona klepetov, 728.000 datotek (vključno z ~192.000 PDF, 93.000 Excel, 93.000 PowerPoint, 58.000 Word) ter podatke o 57.000 uporabnikih.
Poleg baze je agent našel 95 konfiguracij sistemskih promptov za 12 tipov modelov, 3,68 milijona RAG chunkov, 1,1 milijona datotek in 217.000 agentskih sporočil v zunanjih AI API-jih ter izkoristil IDOR za dostop do iskalne zgodovine posameznikov.
Zapisljivo dostopni system prompti bi omogočili zastrupljeno svetovanje, eksfiltracijo podatkov prek odgovorov, odstranitev varnostnih omejitev in tiho vztrajanje brez logov ali sprememb kode.

Čas branja: približno 8–10 minut.

Ključni elementi članka

Lilli in kontekst
- McKinseyjev interni AI Lilli je bil uveden leta 2023 za 43.000+ zaposlenih; omogoča klepet, analizo dokumentov, RAG preko desetletij internih raziskav ter iskanje po 100.000+ internih dokumentih.
- Platformo uporablja več kot 70% podjetja, mesečno obdeluje 500.000+ promptov in je strateško orodje za projekte, strategijo, finance, M&A in notranje raziskave.
Vstopna točka in tehnična ranljivost
- Avtonomni CodeWall agent je najprej preslikal napadno površino in našel javno izpostavljeno API dokumentacijo z več kot 200 endpointi; 22 od njih ni zahtevalo avtentikacije.
- Eden od neavtenticiranih endpointov je zapisoval uporabniške iskalne poizvedbe v bazo; vrednosti so bile pravilno parametrizirane, vendar so bili JSON ključi direktno zlepljeni v SQL stavek.
- Agent je opazil, da se JSON ključi odražajo v SQL napakah, kar je razkrilo vektor SQL injectiona, ki ga orodja, kot je OWASP ZAP, niso zaznala.
- Z izvedbo ~15 blind iteracij je agent postopoma rekonstruiral obliko poizvedbe, dokler se niso začeli vračati realni produkcijski podatki, vključno z identifikatorji zaposlenih.
Obseg kompromitiranih podatkov
- 46,5 milijona klepetnih sporočil v plaintextu, ki vsebujejo strateške razprave, podatke o strankah, financah, M&A aktivnostih in internih raziskavah.
- 728.000 datotek: približno 192.000 PDF, 93.000 Excelov, 93.000 PowerPointov, 58.000 Word dokumentov; že imena datotek so bila občutljiva, neposredni URL-ji pa so omogočali prenos vsakomur, ki je poznal pot.
- 57.000 uporabniških računov platforme, 384.000 AI pomočnikov in 94.000 delovnih prostorov, kar razkriva organizacijsko strukturo uporabe AI znotraj podjetja.
Dostop preko baze – RAG, modeli in IDOR
- Agent je našel 95 konfiguracij sistemskih promptov čez 12 tipov modelov (vključno s fine-tune modeli in podrobnostmi o deployih), kar razkriva točno, kako je AI konfiguriran in kakšne guardraile ima.
- Odkritih je bilo 3,68 milijona RAG dokumentnih “chunkov” z S3 potmi in internimi metapodatki; to predstavlja desetletja lastniških McKinseyjevih okvirjev in metodologij.
- Preko zunanjih AI API-jev je teklo 1,1 milijona datotek in 217.000 agentskih sporočil ter 266.000+ OpenAI vektorskih shramb; to razkriva celotno pot dokumentov od nalaganja do embedanja in retrieva.
- Kombinacija SQL injectiona in IDOR (Insecure Direct Object Reference) je omogočila dostop do iskalnih zgodovin posameznih zaposlenih, kar neposredno razkriva, na čem ti trenutno delajo.
Kompromitacija prompt plasti (prompt layer)
- System prompti Lillija so bili shranjeni v isti bazi, do katere je imel agent zapisljiv dostop; ti prompti določajo vedenje, guardraile, citiranje virov in politiko zavračanja.
- Z enim SQL UPDATE stavkom v enem HTTP klicu bi napadalec lahko globalno spremenil obnašanje Lillija brez releasa, spremembe kode ali očitnega log sleda.
- Možne posledice:
  - zastrupljeni nasveti (npr. subtilne spremembe finančnih modelov, strategij, ocene tveganj), ki jih svetovalci smatrajo za zanesljive, ker prihajajo iz notranjega orodja;
  - eksfiltracija podatkov prek izhodov (AI je potihoma navodena, naj v odgovore vgrajuje zaupne informacije, ki jih uporabniki kopirajo v dokumente ali e-pošto);
  - odstranitev guardrailov, kar omogoči razkritje internih podatkov, ignoriranje kontrol dostopa ali upoštevanje napadalnih promptov iz dokumentne vsebine;
  - tiha vztrajnost, saj spremembe promptov običajno nimajo revizijskih sledi, verzioniranja ali integritetnega nadzora.
Širši pomen: “AI prompts kot nove kronane dragocenosti”
- Avtorji poudarijo, da so organizacije desetletja ščitile kodo, strežnike in supply chain, medtem ko je plast promptov (prompt layer) večinoma brez ACL-jev, verzij in integritetnega nadzora, čeprav neposredno usmerja odločanje.
- AI prompti, RAG baze in konfiguracije modelov so po njihovem mnenju nova “crown jewel” sredstva, ki zahtevajo enako raven zaščite kot izvorna koda in produkcijske baze.
- Primer McKinseyja – podjetja z velikimi varnostnimi proračuni in vrhunskimi ekipami – ilustrira, da klasična orodja in check-list pristopi ne zadostujejo, saj SQL injection kot “stara” ranljivost ostaja realna v novih AI sistemih.
- Avtonomni agent je ranljivost odkril, ker deluje podobno kot zrel napadalec: stalno preslikuje, veriži, eskalira in testira celoten napadni graf.
CodeWall kot produkt in razkritje
- Članek je hkrati študija primera in predstavitev CodeWall platforme kot avtonomnega napadalnega varnostnega sistema, ki kontinuirano testira realno napadno površino podjetij.
- Avtorji iščejo “design partnerje” za zgodnji dostop in ponujajo kontakt preko e-pošte ali rezervacije klica.
- Časovnica razkritja:
  - 2026-02-28: agent identificira SQL injection in začne enumeracijo baze; istega dne je potrjena celotna veriga (unauthenticated SQLi, IDOR, 27 ugotovitev);
  - 2026-03-01: poslano odgovorno razkritje McKinseyjevi varnostni ekipi;
  - 2026-03-02: CISO potrdi prejem, zahteva podrobnosti, McKinsey zakrpa vse neavtenticirane endpointe, izklopi razvojno okolje in blokira javno API dokumentacijo;
  - 2026-03-09: javna objava raziskave.

Kako je avtonomni agent v 2 urah kompromitiral McKinseyjev AI sistem Lilli

Zadnje objave