Ein Finanzdienstleistungsunternehmen setzte ein KI-System zur Dokumentenverarbeitung ein, um Daten aus Rechnungen zu extrahieren. Innerhalb von zwei Wochen hatte ein Lieferant entdeckt, dass versteckter Text in Rechnungsbildern das System dazu bringen konnte, falsche Beträge zu extrahieren. Niemand schrieb eine SQL-Injection-Payload. Niemand nutzte einen Speicherpuffer aus. Der Angriff funktionierte, indem er ausnutzte, wie das Modell selbst Bilddaten verarbeitete.

Das ist die Kernherausforderung der KI-Sicherheit. Die Angriffsfläche umfasst nicht nur die umgebende Infrastruktur, sondern das Modell, die Trainingsdaten, die Prompts, die das Verhalten steuern, und die Ausgaben, die nachgelagerte Systeme speisen. Traditionelle Cybersicherheit schützt Software. KI-Sicherheit schützt die KI selbst.

Warum sich KI-Sicherheit von traditioneller Cybersicherheit unterscheidet

Traditionelle Software-Sicherheit schützt vor Angreifern, die Code ausnutzen: Buffer Overflows, Injection-Angriffe, Authentifizierungsumgehungen. Diese Angriffe funktionieren, weil sich der Code deterministisch verhält und ein Angreifer, der eine Eingabe findet, die unerwartete Codepfade auslöst, vorhersehbaren Schaden anrichten kann.

KI-Systeme führen eine andere Art von Schwachstelle ein. Modelle werden auf Daten trainiert, und dieser Trainingsprozess kann manipuliert werden. Modelle reagieren auf Eingaben auf eine Weise, die durch sorgfältig erstellte adversarielle Beispiele beeinflusst werden kann, die für Menschen normal aussehen. Modelle, die Text verarbeiten, können Anweisungen erhalten, die in ihre Eingaben eingebettet sind und ihr beabsichtigtes Verhalten außer Kraft setzen. Und die Modelle selbst, die erheblichen kommerziellen Wert repräsentieren, können gestohlen oder repliziert werden.

Keiner dieser Angriffe erfordert das Auffinden eines Fehlers im Code. Sie nutzen Eigenschaften der Funktionsweise von Machine Learning aus.

Das bedeutet nicht, dass traditionelle Sicherheit für KI-Systeme irrelevant ist. Infrastruktur-Sicherheit, Zugangskontrollen und sichere Softwareentwicklung gelten weiterhin. Aber sie reichen nicht aus. KI-Sicherheit fügt eine Schicht von Bedenken hinzu, die spezifisch für Modellverhalten, Trainingsintegrität und Manipulation zur Inferenzzeit sind.

Die wichtigsten Bedrohungskategorien der KI-Sicherheit

Adversarielle Angriffe manipulieren Eingaben, um Modelle zur Erzeugung falscher Ausgaben zu veranlassen. Im Computer Vision-Bereich bedeutet das, sorgfältig berechnetes Rauschen auf Pixelebene zu einem Bild hinzuzufügen, das für einen Menschen normal aussieht, aber ein Klassifikationsmodell dazu bringt, ein völlig falsches Label mit hoher Konfidenz zurückzugeben. Bei Textsystemen erstellen adversarielle Angriffe Eingaben, die spezifische Schwächen in der Art und Weise ausnutzen, wie Modelle Sprache repräsentieren. Diese Angriffe sind für jedes KI-System relevant, das folgenreiche Entscheidungen auf der Grundlage seiner Eingaben trifft: von der Betrugserkennung über Content-Moderation bis hin zur medizinischen Bildgebung.

Datenvergiftung korrumpiert den Trainingsprozess. Wenn ein Angreifer beeinflussen kann, auf welchen Daten ein Modell trainiert wird, kann er eine "Hintertür" schaffen: ein spezifisches Muster, das das Modell dazu bringt, sich falsch zu verhalten, wann immer es in der Produktion erscheint, während es ansonsten normal funktioniert. Ein Modell, das auf web-gescrapten Daten trainiert wird, ist für alle Inhalte anfällig, die im Web platziert werden können. Supply-Chain-Angriffe auf Trainingsdatensätze sind ein wachsendes Problem, insbesondere für Organisationen, die öffentlich verfügbare Daten oder Drittanbieter-Datenprovider nutzen.

Prompt Injection zielt auf Large Language Models und andere Systeme ab, die natürlichsprachlichen Anweisungen folgen. Ein Angreifer bettet Anweisungen in Inhalte ein, die die KI verarbeiten wird, und diese eingebetteten Anweisungen überschreiben das beabsichtigte Verhalten des Systems. Ein Kundenservice-Bot, der angewiesen wird, "dieses Dokument zusammenzufassen", kann ein Dokument mit versteckten Anweisungen erhalten, die ihn dazu veranlassen, stattdessen seinen System-Prompt preiszugeben, seine Content-Filter zu ignorieren oder Informationen zu exfiltrieren. Da KI-Systeme immer mehr agentische Workflows mit Zugang zu Tools und Datenbanken übernehmen, wird Prompt Injection zu einer ernsthaften Sicherheitsbedrohung: Eine erfolgreich injizierte Anweisung kann den Agenten dazu veranlassen, Aktionen auszuführen, die seine Betreiber nie beabsichtigt haben.

Modelldiebstahl und -extraktion zielen auf das Modell selbst als wertvolles Asset ab. Durch wiederholte Abfragen kann ein Angreifer eine Annäherung an das Verhalten eines proprietären Modells rekonstruieren und damit das im Modell enthaltene geistige Eigentum stehlen, ohne jemals auf die Modellgewichte zuzugreifen. Organisationen, die Millionen in das Training oder Fine-Tuning von Modellen investiert haben, sind einem echten IP-Diebstahlrisiko durch gut ausgestattete Gegner ausgesetzt.

Model Inversion extrahiert Informationen über Trainingsdaten. In einigen Fällen können Angreifer ein Modell auf eine Weise abfragen, die Details darüber preisgibt, womit es trainiert wurde, einschließlich potenziell sensibler Daten von Personen, deren Informationen im Trainingssatz enthalten waren. Dies schafft ein Datenschutzrisiko, das sich von Datenverletzungen unterscheidet: Die sensiblen Informationen werden nicht aus einer Datenbank gestohlen, sondern aus einem Modell extrahiert.

Wie sich KI-Sicherheit von KI-Safety unterscheidet

Die Begriffe werden oft verwechselt, aber sie befassen sich mit unterschiedlichen Bedrohungen.

KI-Safety befasst sich damit, dass KI-Systeme aufgrund von Fehlanpassungen, Grenzfällen oder Fähigkeitsversagen unbeabsichtigt handeln. Safety fragt: Was passiert, wenn die KI ohne adversarielle Absicht etwas falsch macht? Beispiele sind ein Empfehlungssystem, das auf Kosten des Nutzerwohlbefindens auf Engagement optimiert, ein Robustheitsversagen, wenn ein Modell auf Out-of-Distribution-Eingaben trifft, oder ein agentischer Workflow, der sein Ziel auf eine Weise erreicht, die seine Designer nicht erwartet haben.

KI-Sicherheit befasst sich mit vorsätzlichen Angriffen. Sicherheit fragt: Was kann ein Gegner tun, um die KI so zu manipulieren, dass sie sich zum Vorteil des Angreifers verhält? Dieselben zugrundeliegenden technischen Konzepte, wie adversarielle Eingaben, erscheinen manchmal in beiden Bereichen. Aber Safety-Forschung konzentriert sich auf unbeabsichtigte Ausfälle, während Sicherheitsforschung sich auf vorsätzliche Exploitation konzentriert.

Beides ist wichtig. Ein produktives KI-System benötigt sowohl Safety Engineering zur Handhabung unerwarteter Eingaben als auch Security Engineering zur Handhabung vorsätzlicher Angriffe.

KI-Sicherheit in der Unternehmenspraxis

Für Organisationen, die KI einsetzen, lassen sich Sicherheitsüberlegungen in konkrete Praktiken übersetzen.

Bedrohungsmodellierung vor dem Einsatz. Bevor ein Modell in die Produktion geht, sollten die spezifischen Angriffsflächen durchgearbeitet werden. Wer hat die Möglichkeit, ihm Eingaben zu senden? Welche Aktionen kann es ausführen? Was würde ein motivierter Angreifer durch seine Manipulation gewinnen? Diese Analyse bestimmt, in welche Sicherheitskontrollen sich die Investition lohnt.

Eingabevalidierung und -bereinigung. Für Systeme, die nutzerseitig bereitgestellte Inhalte verarbeiten, sollten Filter für Eingaben implementiert werden, bevor sie das Modell erreichen. Bei LLM-basierten Systemen bedeutet das das Screening auf Prompt-Injection-Muster, obwohl kein Filter gegenüber einem entschlossenen Angreifer vollständig ist. Bei Dokumentenverarbeitungssystemen sollte jedes Dokument als potenziell adversariell behandelt werden.

Prompt-Injection-Abwehr für agentische Systeme. KI-Agenten mit Tool-Zugang erfordern besondere Aufmerksamkeit. Architektonische Kontrollen, wie die Trennung des Anweisungsraums vom Inhaltsraum, die Begrenzung der Tools, auf die ein Agent zugreifen kann, und die Anforderung menschlicher Bestätigung für sensible Aktionen, reduzieren den Explosionsradius einer erfolgreichen Injection. Defense-in-Depth ist das richtige Konzept: Keine einzelne Kontrolle ist ausreichend.

Output-Monitoring und Anomalieerkennung. KI-Observability-Tools, die verfolgen, was Modelle in der Produktion produzieren, können anomales Verhalten erkennen, das auf einen laufenden Angriff hinweisen könnte. Ungewöhnliche Ausgabemuster, unerwartete Tool-Aufrufe in agentischen Systemen oder statistischer Drift in Ausgaben sind alles Signale, die es zu überwachen gilt.

Zugriffskontrollen auf Modell-APIs. Modell-Endpunkte sollten als sensible Assets behandelt werden. Rate Limiting reduziert die Durchführbarkeit von Extraktionsangriffen. Authentifizierung stellt sicher, dass nur autorisierte Clients das Modell abfragen können. Logging erstellt einen Audit-Trail für forensische Analysen.

Supply-Chain-Sicherheit für Trainingsdaten. Organisationen, die auf externen Daten trainieren, sollten die gleiche Sorgfaltspflicht auf die Herkunft von Trainingsdaten anwenden, die sie auf Software-Abhängigkeiten anwenden. Kuratierte, verifizierte Datensätze sind sicherer als große undifferenzierte Web-Scrapes. Wenn Drittanbieter-Daten unvermeidlich sind, ist periodisches Red-Teaming auf Backdoor-Verhalten die Investition wert.

Die regulatorische Dimension

KI-Sicherheit wird zu einem Compliance-Thema, nicht nur zu einem technischen. Der EU AI Act verlangt, dass Hochrisiko-KI-Systeme geeignete Sicherheitsmaßnahmen implementieren, einschließlich Schutz vor adversariellen Angriffen. Das NIST AI Risk Management Framework enthält Sicherheit als Kernkomponente verantwortungsvoller KI-Governance. Organisationen in regulierten Branchen wie Finanzdienstleistungen, Gesundheitswesen und kritischer Infrastruktur werden zunehmend erwartet, nachzuweisen, dass ihre KI-Systeme sicher und nicht nur funktionsfähig sind.

Dieser regulatorische Druck erhöht die Anforderungen an die KI-Sicherheitsdokumentation. KI-Modellkarten und KI-Audit-Trails müssen zunehmend ansprechen, wie Modelle sicherheitstechnisch getestet wurden, welche bekannten Schwachstellen bestehen und welche Gegenmaßnahmen ergriffen wurden.

KI-Sicherheitskompetenz aufbauen

Für die meisten Organisationen baut KI-Sicherheitskompetenz auf bestehenden Sicherheitsgrundlagen auf. Sicherheitsteams verstehen bereits Bedrohungsmodellierung, sichere Architektur und Incident Response. Was sie zusätzlich benötigen, ist Kenntnis der KI-spezifischen Bedrohungskategorien und der Techniken, die zu ihrer Prüfung verwendet werden.

KI-Red-Teaming ist der direkteste Weg, sowohl Kenntnisse als auch Abwehrmechanismen zu entwickeln. Red-Team-Übungen gegen produktive KI-Systeme decken tatsächliche Schwachstellen in tatsächlichen Einsatzkontexten auf, statt abstrakte Bedrohungsszenarien. Organisationen, die regelmäßig KI-Red-Teaming durchführen, entwickeln sowohl die Abwehrmechanismen als auch die organisatorischen Fähigkeiten, diese aufrechtzuerhalten.

Die Alternative, von KI-Sicherheitsschwächen nach einem Produktionsvorfall zu erfahren, ist erheblich teurer.

Externe Ressourcen

NIST AI Risk Management Framework - US-Regierungsrahmen für KI-Sicherheitsanforderungen
OWASP Top 10 for LLM Applications - Die kanonische Liste der LLM-Schwachstellen der Sicherheitsgemeinschaft, einschließlich Prompt Injection
MITRE ATLAS - Adversarielle Bedrohungslandschaft für KI-Systeme mit Fallstudien aus der Praxis

FAQ

Häufig gestellte Fragen zur KI-Sicherheit

Was ist KI-Sicherheit?

KI-Sicherheit ist die Disziplin zum Schutz von Machine-Learning-Modellen und KI-Pipelines vor vorsätzlichen Angriffen, einschließlich adversarieller Eingaben, die falsche Ausgaben verursachen, vergifteter Trainingsdaten, Prompt-Injection-Angriffen auf Sprachmodelle und Modelldiebstahl. Sie erweitert traditionelle Cybersicherheit, um Angriffsflächen abzudecken, die spezifisch für die Funktionsweise von KI-Systemen sind.

Wie unterscheidet sich KI-Sicherheit von KI-Safety?

KI-Safety befasst sich mit unbeabsichtigten Ausfällen: Fällen, in denen ein KI-System ohne adversarielle Intervention schädliche Ausgaben produziert oder sich unbeabsichtigt verhält. KI-Sicherheit befasst sich mit vorsätzlichen Angriffen von Gegnern, die versuchen, die KI zu ihrem Vorteil auszunutzen. Beides ist wichtig, und beide erfordern unterschiedliche Abwehrmaßnahmen, obwohl sie sich an Stellen überschneiden.

Was ist Prompt Injection und warum ist es ein ernstes Risiko?

Prompt Injection bettet schädliche Anweisungen in Inhalte ein, die eine KI verarbeiten wird, und veranlasst die KI, diesen Anweisungen statt ihrer beabsichtigten Programmierung zu folgen. Es ist ein ernstes Risiko, weil KI-Systeme zunehmend Aktionen in der Welt ausführen, wie Datenbanken abfragen, Nachrichten senden oder Code ausführen. Eine erfolgreich injizierte Anweisung kann einen KI-Agenten dazu bringen, Aktionen auszuführen, die seine Betreiber nie autorisiert haben.

Was sollte eine Organisation zuerst tun, um die KI-Sicherheit zu verbessern?

Beginnen Sie mit der Bedrohungsmodellierung für jedes KI-System in der Produktion: Identifizieren Sie, wer ihm Eingaben senden kann, welche Aktionen es ausführen kann und was ein Angreifer durch seine Manipulation gewinnt. Diese Analyse zeigt, welche Angriffe tatsächlich für Ihre Systeme relevant sind, und fokussiert Ihre Investitionen auf die Kontrollen, die am wichtigsten sind.

Victor Hoang

Co-Founder & CMO, Rework

AI Terms

Was ist KI-Sicherheit? KI-Systeme vor Angriffen schützen