2025-12-09
KROP: Når kulturelle referanser blir en sikkerhetstrussel
Foredrag: HiddenLayer/ Kenneth Yeung & Kasimir Schulz
KROP, eller Knowledge Return Oriented Prompting, er en nyere type sikkerhetstrussel mot AI
som utnytter hvordan språkmodeller forstår og kobler sammen data. I stedet for å bruke
eksplisitte, farlige instruksjoner, bygger angripere prompts av kulturelle referanser, kjente
eksempler og historisk innhold modellen allerede har sett i treningsdataene.Teknikken utnytter
altså at LLM-er er trent på enorme mengder internettdata, inkludert popkultur, memes og
kulturelle referanser.
Et klassisk og dokumentert eksempel handler om “Little Bobby Tables” barnet hvis navn er en
SQL-injection « Robert'); DROP TABLE Students;--» (ref https://xkcd.com/327/)
Siden denne tegneseriestripen har sirkulert på nettet i mange år, «forstår» en LLM både
referansen og konteksten. Spør du modellen om “Little Bobby Tables sitt fulle navn” og bytter ut Students med ditt faktiske tabellnavn, kan den generere en SQL-injection som glir rett forbi filtre
som kun leter etter eksplisitte skadelige kommandoer.
Det er dette KROP utnytter: modellen rekonstruerer farlig logikk ut fra tilsynelatende ufarlige
hint. Ikke fordi noe er “feil” med filtrene, men fordi LLM-er alltid vil følge mønstre de kjenner
fra treningsdataene - ikke intensjonen brukeren hadde. Dermed kan selv sterke safeguards som
prompt-filtre og alignment-teknikker omgås når input trigger interne koblinger modellen
oppfatter som legitime.
For virksomheter betyr dette at sikkerhet for LLM-er må ta høyde for hvordan modellene faktisk
resonnerer, ikke bare hva som uttrykkelig står i prompten. Man må vurdere hvilke referanser
modellen kan knytte sammen, hvilke typer indirekte angrep som er realistiske, og hvordan AI
inngår i eksisterende systemer og beslutningskjeder.
Dette er et område som er nytt for mange, men kritisk i praksis. Vi hjelper virksomheter med å
forstå hvordan slike angrep fungerer, hvilke risikoer som er relevante hos dere, og hvordan dere
kan bruke AI trygt uten å introdusere nye angrepsflater.
Skrevet av: Lilia Amundsen
Kontakt