vir: https://codewall.ai/blog/how-we-hacked-mckinseys-ai-platform

  • Avtonomni AI agent CodeWall je v manj kot dveh urah brez prijave pridobil poln bralni in pisalni dostop do produkcijske baze Lilli prek neavtenticiranega SQL injectiona v API-ju.​

  • Izpostavljenih je bilo 46,5 milijona klepetov, 728.000 datotek, 57.000 uporabniških računov ter celotna RAG baza in struktura AI pomočnikov ter delovnih prostorov.​

  • Ranljivost je izvirala iz neavtenticiranega endpointa, ki je JSON ključe neposredno zlepil v SQL poizvedbo, kar je omogočilo blind SQL injection, ki ga klasična orodja niso zaznala.​

  • Agent je presegel golo branje podatkov in dosegel plast promptov (system prompts), kar bi napadalcu omogočilo tiho zastrupljanje izhodov, odstranjevanje guardrailov in nevidno vztrajnost v sistemu.​

  • Primer kaže, da so AI prompti in RAG znanje nova “kraljevska dragocenost” varnostne arhitekture ter da bodo avtonomni napadalni AI agenti postali običajen del grožbenega okolja.​

DEJSTVA

  1. McKinseyjev interni AI Lilli (43.000+ uporabnikov, 500.000+ promptov/mesec) je imel javno dostopno API dokumentacijo z več kot 200 endpointi, od tega 22 brez avtentikacije.​

  2. Nezaščiten endpoint je zapisoval uporabniška iskanja v bazo; vrednosti so bile parametrizirane, JSON ključi (imena polj) pa so se neposredno vgrajevali v SQL, kar je omogočilo SQL injection.​

  3. Agent je iz baze pridobil ~46,5 milijona klepetov, 728.000 datotek (vključno z ~192.000 PDF, 93.000 Excel, 93.000 PowerPoint, 58.000 Word) ter podatke o 57.000 uporabnikih.​

  4. Poleg baze je agent našel 95 konfiguracij sistemskih promptov za 12 tipov modelov, 3,68 milijona RAG chunkov, 1,1 milijona datotek in 217.000 agentskih sporočil v zunanjih AI API-jih ter izkoristil IDOR za dostop do iskalne zgodovine posameznikov.​

  5. Zapisljivo dostopni system prompti bi omogočili zastrupljeno svetovanje, eksfiltracijo podatkov prek odgovorov, odstranitev varnostnih omejitev in tiho vztrajanje brez logov ali sprememb kode.​

Čas branja: približno 8–10 minut.​

Ključni elementi članka

  • Lilli in kontekst

    • McKinseyjev interni AI Lilli je bil uveden leta 2023 za 43.000+ zaposlenih; omogoča klepet, analizo dokumentov, RAG preko desetletij internih raziskav ter iskanje po 100.000+ internih dokumentih.​

    • Platformo uporablja več kot 70% podjetja, mesečno obdeluje 500.000+ promptov in je strateško orodje za projekte, strategijo, finance, M&A in notranje raziskave.​

  • Vstopna točka in tehnična ranljivost

    • Avtonomni CodeWall agent je najprej preslikal napadno površino in našel javno izpostavljeno API dokumentacijo z več kot 200 endpointi; 22 od njih ni zahtevalo avtentikacije.​

    • Eden od neavtenticiranih endpointov je zapisoval uporabniške iskalne poizvedbe v bazo; vrednosti so bile pravilno parametrizirane, vendar so bili JSON ključi direktno zlepljeni v SQL stavek.​

    • Agent je opazil, da se JSON ključi odražajo v SQL napakah, kar je razkrilo vektor SQL injectiona, ki ga orodja, kot je OWASP ZAP, niso zaznala.​

    • Z izvedbo ~15 blind iteracij je agent postopoma rekonstruiral obliko poizvedbe, dokler se niso začeli vračati realni produkcijski podatki, vključno z identifikatorji zaposlenih.​

  • Obseg kompromitiranih podatkov

    • 46,5 milijona klepetnih sporočil v plaintextu, ki vsebujejo strateške razprave, podatke o strankah, financah, M&A aktivnostih in internih raziskavah.​

    • 728.000 datotek: približno 192.000 PDF, 93.000 Excelov, 93.000 PowerPointov, 58.000 Word dokumentov; že imena datotek so bila občutljiva, neposredni URL-ji pa so omogočali prenos vsakomur, ki je poznal pot.​

    • 57.000 uporabniških računov platforme, 384.000 AI pomočnikov in 94.000 delovnih prostorov, kar razkriva organizacijsko strukturo uporabe AI znotraj podjetja.​

  • Dostop preko baze – RAG, modeli in IDOR

    • Agent je našel 95 konfiguracij sistemskih promptov čez 12 tipov modelov (vključno s fine-tune modeli in podrobnostmi o deployih), kar razkriva točno, kako je AI konfiguriran in kakšne guardraile ima.​

    • Odkritih je bilo 3,68 milijona RAG dokumentnih “chunkov” z S3 potmi in internimi metapodatki; to predstavlja desetletja lastniških McKinseyjevih okvirjev in metodologij.​

    • Preko zunanjih AI API-jev je teklo 1,1 milijona datotek in 217.000 agentskih sporočil ter 266.000+ OpenAI vektorskih shramb; to razkriva celotno pot dokumentov od nalaganja do embedanja in retrieva.​

    • Kombinacija SQL injectiona in IDOR (Insecure Direct Object Reference) je omogočila dostop do iskalnih zgodovin posameznih zaposlenih, kar neposredno razkriva, na čem ti trenutno delajo.​

  • Kompromitacija prompt plasti (prompt layer)

    • System prompti Lillija so bili shranjeni v isti bazi, do katere je imel agent zapisljiv dostop; ti prompti določajo vedenje, guardraile, citiranje virov in politiko zavračanja.​

    • Z enim SQL UPDATE stavkom v enem HTTP klicu bi napadalec lahko globalno spremenil obnašanje Lillija brez releasa, spremembe kode ali očitnega log sleda.​

    • Možne posledice:

      • zastrupljeni nasveti (npr. subtilne spremembe finančnih modelov, strategij, ocene tveganj), ki jih svetovalci smatrajo za zanesljive, ker prihajajo iz notranjega orodja;​

      • eksfiltracija podatkov prek izhodov (AI je potihoma navodena, naj v odgovore vgrajuje zaupne informacije, ki jih uporabniki kopirajo v dokumente ali e-pošto);​

      • odstranitev guardrailov, kar omogoči razkritje internih podatkov, ignoriranje kontrol dostopa ali upoštevanje napadalnih promptov iz dokumentne vsebine;​

      • tiha vztrajnost, saj spremembe promptov običajno nimajo revizijskih sledi, verzioniranja ali integritetnega nadzora.​

  • Širši pomen: “AI prompts kot nove kronane dragocenosti”

    • Avtorji poudarijo, da so organizacije desetletja ščitile kodo, strežnike in supply chain, medtem ko je plast promptov (prompt layer) večinoma brez ACL-jev, verzij in integritetnega nadzora, čeprav neposredno usmerja odločanje.​

    • AI prompti, RAG baze in konfiguracije modelov so po njihovem mnenju nova “crown jewel” sredstva, ki zahtevajo enako raven zaščite kot izvorna koda in produkcijske baze.​

    • Primer McKinseyja – podjetja z velikimi varnostnimi proračuni in vrhunskimi ekipami – ilustrira, da klasična orodja in check-list pristopi ne zadostujejo, saj SQL injection kot “stara” ranljivost ostaja realna v novih AI sistemih.​

    • Avtonomni agent je ranljivost odkril, ker deluje podobno kot zrel napadalec: stalno preslikuje, veriži, eskalira in testira celoten napadni graf.​

  • CodeWall kot produkt in razkritje

    • Članek je hkrati študija primera in predstavitev CodeWall platforme kot avtonomnega napadalnega varnostnega sistema, ki kontinuirano testira realno napadno površino podjetij.​

    • Avtorji iščejo “design partnerje” za zgodnji dostop in ponujajo kontakt preko e-pošte ali rezervacije klica.​

    • Časovnica razkritja:

      • 2026-02-28: agent identificira SQL injection in začne enumeracijo baze; istega dne je potrjena celotna veriga (unauthenticated SQLi, IDOR, 27 ugotovitev);​

      • 2026-03-01: poslano odgovorno razkritje McKinseyjevi varnostni ekipi;​

      • 2026-03-02: CISO potrdi prejem, zahteva podrobnosti, McKinsey zakrpa vse neavtenticirane endpointe, izklopi razvojno okolje in blokira javno API dokumentacijo;​

      • 2026-03-09: javna objava raziskave.​