AI Terms

Ein Händler trainiert über sechs Monate ein Modell zur Nachfrageprognose. Data Scientists validieren es. Die Führungsebene genehmigt es. Das Modell ist bereit. Dann geht es in Produktion und muss täglich Tausende von Anfragen beantworten, jede in unter 200 Millisekunden, über Monate oder Jahre hinweg. Das ist Inference: der live, kontinuierliche Prozess, ein trainiertes Modell auf echten Daten auszuführen, um echte Ausgaben zu generieren.

Training bekommt den größten Teil der Aufmerksamkeit in der AI-Berichterstattung. Inference ist der Ort, an dem der Geschäftswert tatsächlich entsteht.

Training vs. Inference: Der grundlegende Unterschied

Um Inference zu verstehen, muss man verstehen, was es nicht ist. Training ist der Prozess, ein Modell zu lehren, indem es großen Datenmengen ausgesetzt wird und seine Parameter so angepasst werden, bis es genaue Ausgaben produziert. Training ist rechenintensiv, teuer und wird relativ selten durchgeführt.

Inference ist das Gegenteil von all dem. Es ist der Prozess, ein Modell, dessen Parameter bereits festgelegt sind, auf neuen Eingaben auszuführen, um Vorhersagen zu generieren. Inference findet statt, wenn:

Ein Kunde eine Frage in einen Chatbot tippt und eine Antwort erhält
Ein Betrugserkennungssystem eine Transaktion in Echtzeit bewertet
Eine Dokumentenverarbeitungs-Pipeline Daten aus einer hochgeladenen Rechnung extrahiert
Eine Empfehlungsmaschine entscheidet, was einem Nutzer als nächstes angezeigt werden soll

Training findet einmal (oder periodisch) statt. Inference findet kontinuierlich statt, in welchem Volumen auch immer das Produktionssystem verlangt. Für die meisten Unternehmen stammen nahezu alle laufenden Computing-Kosten von AI im Produktionsbetrieb aus der Inference.

Wie Inference funktioniert

Während der Inference empfängt das trainierte Modell eine Eingabe, ob Text, ein Bild, strukturierte Daten oder Audio, und führt sie durch seine erlernten Parameter, um eine Ausgabe zu produzieren. Bei einem Large Language Model bedeutet das, dass die Eingabe in Tokens umgewandelt wird, das Modell diese Tokens durch seine Transformer-Architektur mit den erlernten Attention-Mechanismen verarbeitet und die Ausgabe-Tokens sequenziell generiert werden, bis die Antwort vollständig ist.

Die Parameter des Modells ändern sich während der Inference nicht. Das Modell lernt nicht aus der Anfrage; es wendet das, was es bereits gelernt hat, auf die neue Eingabe an. Dieser Unterschied ist praktisch bedeutsam: Er bedeutet, dass dasselbe Modell Tausende gleichzeitiger Nutzer bedienen kann, ohne dass einer den anderen beeinflusst.

Die Kosten der Inference entstehen durch die Berechnung, die erforderlich ist, um Eingaben durch ein Modell zu verarbeiten, das möglicherweise Milliarden oder Hunderte von Milliarden von Parametern hat. Mehr Parameter bedeuten im Allgemeinen mehr Fähigkeiten und mehr Berechnung pro Inference-Aufruf.

Die zwei wichtigsten Leistungsdimensionen

Latenz ist die Zeit, die ein einzelner Inference-Aufruf von der Eingabe bis zur Ausgabe benötigt. Nutzer, die auf eine Chatbot-Antwort warten, erleben Latenz. Medizinische Bildgebungs-AI braucht niedrige Latenz, wenn ein Radiologe auf eine Diagnose wartet. Dokumentenverarbeitung, die über Nacht im Batch-Betrieb stattfindet, kann höhere Latenz tolerieren.

Throughput ist die Anzahl der Inference-Aufrufe, die ein System pro Zeiteinheit verarbeiten kann. Eine E-Commerce-Empfehlungsmaschine, die Millionen von Käufern bedient, benötigt hohen Throughput. Ein Rechtsanalyse-Tool, das von einem Team aus 20 Analysten genutzt wird, hat wesentlich geringere Throughput-Anforderungen.

Diese zwei Dimensionen stehen oft in einem Zielkonflikt zueinander. Das Bündeln mehrerer Inference-Anfragen erhöht beispielsweise den Throughput, da die Hardware viele Eingaben parallel verarbeitet, erhöht aber die Latenz für jede einzelne Anfrage, da diese auf das Füllen des Batches wartet. Die richtige Balance hängt vom Anwendungsfall ab.

Inference-Optimierung ist das technische Fachgebiet, das sich der Verbesserung beider Dimensionen widmet: Modelle schneller und kostengünstiger zu machen, ohne Qualitätseinbußen.

Inference im Kontext des vollständigen AI-Stacks

Inference sitzt an der Spitze des AI-Stacks. Foundation Models werden einmalig von AI-Laboren mithilfe massiver Rechencluster trainiert. Unternehmen rufen diese Modelle entweder über API auf (wobei die Inference auf der Infrastruktur des Anbieters läuft) oder setzen Modelle lokal auf ihrer eigenen Hardware oder Cloud-Instanzen ein.

Die Wahl zwischen API-Inference und lokalem Deployment umfasst Kompromisse: API-Inference ist einfacher zu starten, skaliert automatisch und hält die Kosten variabel mit der Nutzung. Lokales Deployment gibt mehr Kontrolle über den Datenschutz, kann bei sehr hohen Volumina günstiger sein, ermöglicht Anpassung durch Fine-Tuning und entfernt die Abhängigkeit von einem externen Anbieter.

MLOps-Praktiken regeln, wie Inference im Produktionsbetrieb verwaltet wird: wie Modelle versioniert und eingesetzt werden, wie die Performance überwacht wird, wie ein Rollback bei unerwartetem Modellverhalten erfolgt und wann ein Retraining nötig ist. Model Monitoring ist die fortlaufende Praxis, Inference-Ausgaben und Performance-Kennzahlen zu beobachten, um Degradation zu erkennen, bevor sie geschäftliche Auswirkungen hat.

Die Geschäftskosten der Inference

Für Organisationen, die AI in großem Maßstab einsetzen, sind Inference-Kosten eine materielle Budgetposition. Kostentreiber umfassen:

Die Modellgröße. Größere Modelle erfordern mehr Berechnung pro Inference-Aufruf. Ein 70-Milliarden-Parameter-Modell kostet beim Betrieb etwa 10-mal mehr als ein 7-Milliarden-Parameter-Modell, obwohl Qualitätsunterschiede die Kosten für manche Anwendungsfälle rechtfertigen können.

Das Anfragevolumen. Inference-Kosten skalieren mit der Nutzung. Ein System, das 10 Millionen tägliche Inference-Aufrufe verarbeitet, kostet proportional mehr zu betreiben als eines mit 10.000.

Die Hardware. GPU-Inference ist schneller, aber teurer als CPU-Inference. Spezialisierte Inference-Chips (wie Googles TPUs oder AWS Inferentia) können die Kosteneffizienz für spezifische Workloads verbessern.

Die Größe des Context Windows. Bei Sprachmodellen kosten längere Eingaben mehr zu verarbeiten, da die Inference-Kosten mit der Token-Anzahl skalieren. Systeme, die bei jedem Aufruf große Kontextmengen übergeben, stehen vor proportional höheren Kosten.

Quantisierung, Destillation, Caching und Batching sind die wichtigsten technischen Hebel zur Reduzierung der Inference-Kosten, ohne zu einem grundlegend anderen Modell zu wechseln.

Echtzeit- vs. Batch-Inference

Nicht alle Inference findet in Echtzeit statt. Viele wertvolle AI-Anwendungen laufen nach einem Batch-Zeitplan statt auf Live-Anfragen zu reagieren.

Echtzeit-Inference behandelt Anfragen, sobald sie eintreffen, mit Millisekunden bis Sekunden Latenz. Chatbots, Betrugserkennung, Echtzeit-Personalisierung und Sprachassistenten erfordern diesen Modus.

Batch-Inference verarbeitet große Datensätze nach einem Zeitplan, oft über Nacht oder auf Anfrage. CRM-Anreicherung, die jeden Abend alle Leads bewertet, Dokumentenverarbeitung, die durch eine Warteschlange hochgeladener Dateien arbeitet, oder Analyse-Workloads, die wöchentliche Berichte generieren, passen alle zum Batch-Muster. Batch-Inference ist im Allgemeinen günstiger pro Inference-Aufruf, da sie effiziente Batching-Strategien nutzen kann, ohne die Einschränkung nutzerseitiger Latenzanforderungen.

Die Wahl zwischen den Modi ist eine Produkt- und Architekturentscheidung, nicht nur eine technische. Viele Anwendungsfälle, die zunächst Echtzeit-Inference zu erfordern scheinen, können als Nahezu-Echtzeit oder Batch umgestaltet werden, ohne dass ein wesentlicher Verlust an Geschäftswert entsteht, und das bei deutlich niedrigeren Kosten.

Was Führungskräfte verstehen müssen

Die AI-Begriffe, die die meiste Aufmerksamkeit erhalten, Trainingsdaten, Modellarchitektur, Benchmark-Ergebnisse, beziehen sich alle auf das Potenzial eines Modells. Inference ist der Ort, an dem sich dieses Potenzial entweder in Geschäftsergebnisse übersetzt oder nicht.

Führungskräfte, die AI-Investitionsentscheidungen treffen, müssen von Anfang an über Inference-Wirtschaftlichkeit nachdenken. Ein Modell, das in Tests hervorragend funktioniert, aber im Produktionsbetrieb 10-mal mehr als das prognostizierte Budget kostet, ist kein Erfolg. Ein Modell mit etwas niedrigerer Genauigkeit, aber Inference-Latenz, die Nutzer engagiert hält, kann mehr Wert liefern.

Wenn Sie AI-Anbieter oder Build-Optionen evaluieren, fragen Sie nach den Inference-Kosten pro Aufruf, der Latenz bei Produktionsvolumen, wie die Inference-Kosten mit der Nutzung skalieren und welchen Ansatz der Anbieter zur Inference-Optimierung verfolgt. Das sind die Zahlen, die bestimmen, ob AI-Anwendungsfälle wirtschaftlich nachhaltig sind.

Externe Ressourcen

NVIDIA Inference Platform - Branchenstandard-Infrastruktur für groß angelegte Modell-Inference
Hugging Face Inference Endpoints - Leitfaden zu Produktionsmodell-Serving und Inference-Kompromissen
Google AI Inference Best Practices - Praktischer Leitfaden zu Inference-Architektur und -Optimierung

FAQ

Victor Hoang

Co-Founder & CMO, Rework