AI Terms

Ein KI-Modell zu trainieren ist ein Forschungsproblem. Es zuverlässig auf Tausende von Anfragen pro Sekunde mit konsistenter Latency, hoher Verfügbarkeit und vorhersehbaren Kosten antworten zu lassen, ist ein Engineering-Problem anderer Art. Model Serving ist die Infrastrukturschicht, die die Lücke zwischen einem trainierten Modell und einem Produktionssystem überbrückt, auf das Unternehmen sich verlassen können.

Für Technologie- und Betriebsführungskräfte ist Model Serving der Bereich, in dem die meisten realen KI-Deployments erfolgreich sind oder scheitern. Das Modell mag ausgezeichnet sein. Wenn aber die Serving-Infrastruktur keine Last bewältigen, keine Betriebszeit aufrechterhalten oder Kosten nicht im Griff halten kann, materialisiert sich der Geschäftswert nie.

Was Model Serving ist

Model Serving ist die Gesamtheit von Software und Infrastruktur, die ein trainiertes Machine-Learning-Modell als aufrufbaren Service bereitstellt. Wenn Ihre Anwendung eine Nutzeranfrage an einen KI-Assistenten sendet, ist Model Serving die Schicht, die die Anfrage empfängt, sie an eine laufende Modellinstanz weiterleitet, das Modell ausführt und das Ergebnis zurückgibt.

In seiner einfachsten Form umfasst Model Serving:

Eine laufende Instanz des Modells (im GPU- oder CPU-Speicher geladen)
Einen API-Endpoint, der Anfragen annimmt
Logik zur Verwaltung von Gleichzeitigkeit (Handling mehrerer simultaner Anfragen)
Einen Mechanismus zur Rückgabe von Ergebnissen an den Aufrufer

In der Praxis ist produktives Model Serving erheblich komplexer. Es umfasst Autoscaling (automatisches Hochfahren weiterer Modellinstanzen unter Last und Herunterskalieren zur Kostenreduzierung), Load Balancing (Verteilen von Anfragen auf Instanzen), Health Checks (Erkennung und Ersatz ausgefallener Instanzen), Versionierung (gleichzeitiges Betreiben mehrerer Modellversionen während eines Rollouts) und Monitoring (Tracking von Latency, Fehlerraten und Ressourcennutzung).

Wie sich Model Serving von verwandten Begriffen unterscheidet

Diese Begriffe werden oft lose verwendet, und die Unterschiede sind für die Entscheidungsfindung relevant.

Inference ist der Vorgang, ein Modell auf einer Eingabe auszuführen, um eine Ausgabe zu erzeugen. Es ist eine rechnerische Operation. Model Serving ist die Infrastruktur, die Inference als zuverlässigen Service verfügbar macht.

Inference-Optimierung bezieht sich auf Techniken, die Inference schneller oder günstiger machen: Quantisierung, Batching, Caching, Kernel-Optimierung. Optimierung ist eine Eigenschaft des Modells und der Laufzeitumgebung. Serving ist das System, das das optimierte Modell hostet und bereitstellt.

MLOps ist die umfassendere Praxis der Operationalisierung von Machine Learning, einschließlich Trainingspipelines, Experiment-Tracking, Model Registry, Deployment-Automatisierung und Monitoring. Model Serving ist eine Komponente innerhalb des MLOps-Lebenszyklus, speziell die Deployment- und Laufzeitschicht.

Model Deployment wird manchmal synonym mit Model Serving verwendet, aber Deployment bezieht sich präziser auf den Akt der Bereitstellung eines Modells (das Übergangsereignis), während Serving den laufenden Betriebszustand dieser Verfügbarkeit bezeichnet.

Die Architektur eines produktiven Serving-Systems

Ein produktives Model-Serving-System hat typischerweise mehrere Schichten:

Model Registry. Ein versionierter Speicher für trainierte Modell-Artefakte. Bevor ein Modell bereitgestellt werden kann, muss es registriert werden (zusammen mit Metadaten: Trainingsdatum, Performance-Benchmarks, Abhängigkeiten).

Serving-Runtime. Die Software, die das Modell lädt und Inference ausführt. Gängige Optionen sind TensorFlow Serving, TorchServe, NVIDIA Triton Inference Server und anbieterverwaltete Laufzeiten wie AWS SageMaker oder Azure ML Endpoints. Für Large Language Models speziell sind Frameworks wie vLLM, TGI (Text Generation Inference) und Ollama weit verbreitet.

API-Gateway. Leitet eingehende Anfragen weiter, setzt Authentifizierung und Rate Limits durch und stellt eine stabile Endpoint-Adresse bereit, die sich nicht ändert, wenn die zugrunde liegende Serving-Infrastruktur skaliert oder aktualisiert wird.

Autoscaler. Überwacht das Anfragevolumen und die Ressourcennutzung und fügt dann Modellinstanzen hinzu oder entfernt sie, um die Last anzupassen. Dies ist der Mechanismus, der es einem System ermöglicht, 10-fache Verkehrsspitzen zu bewältigen, ohne immer für die Spitzenkapazität vorzuprovisionieren.

Model Monitoring. Verfolgt Latency, Fehlerraten und Ausgabequalität in der Produktion. Warnt, wenn das Verhalten des Modells von der Baseline abweicht.

Die Geschäftsentscheidungen im Model Serving

Model Serving ist der Bereich, in dem die Kosten- und Zuverlässigkeitstradeoffs Ihrer KI-Investition konkret werden. Führungskräfte beeinflussen typischerweise mehrere wichtige Entscheidungen.

Managed versus selbst gehostet. Cloud-Anbieter (AWS, Azure, Google Cloud) bieten verwaltete Model-Serving-Plattformen an, bei denen der Anbieter Skalierung, Hardware und Laufzeit-Management übernimmt. Selbst gehostetes Serving (auf der eigenen Cloud-Infrastruktur oder On-Premises) bietet mehr Kontrolle und potenziell geringere Kosten im großen Maßstab, erfordert aber Engineering-Investitionen für den Betrieb.

Die meisten mittelgroßen Unternehmen beginnen mit verwaltetem Serving bei einem großen Anbieter und wechseln zu selbst gehostetem Serving in größerem Maßstab oder wenn die Kostenökonomie den Engineering-Aufwand rechtfertigt.

Shared versus dedizierte Endpoints. Die meisten KI-APIs laufen auf gemeinsamer Infrastruktur, bei der Ihre Anfragen neben denen anderer Kunden in der Warteschlange stehen. Dedizierte Endpoints reservieren Kapazität für Sie und garantieren Latency und Verfügbarkeit, aber zu höheren Kosten. Für latenzempfindliche Produktionsanwendungen sind die Kosten eines dedizierten Endpoints oft gerechtfertigt.

Latency versus Kostentradeoffs. Schnellere, höherrangige Hardware kostet mehr. Das Batching von Anfragen zusammen (warten, bis sich mehrere angesammelt haben, bevor sie zusammen verarbeitet werden) verbessert die Hardware-Auslastung und reduziert die Kosten, fügt aber Latency hinzu. Der richtige Tradeoff hängt von der Reaktionszeitempfindlichkeit Ihres Anwendungsfalls ab.

Skalierungskonfiguration. Wie viele Modellinstanzen müssen mindestens laufen (null bedeutet Cold-Start-Verzögerungen bei Wiederaufnahme des Traffics; nicht null bedeutet immer für Idle-Kapazität zu zahlen)? Wie viele sind maximal? Wie aggressiv soll der Autoscaler Kapazität hinzufügen?

Diese Entscheidungen haben direkte Kostenauswirkungen. Ein überprovisioniertes Serving-Deployment kann Zehntausende von Dollar pro Monat verschwenden. Ein unterprovisioniertes verschlechtert das Nutzererlebnis während Spitzen.

Model Serving für Large Language Models

Large Language Models bringen Serving-Herausforderungen mit sich, die kleinere Modelle nicht haben, vor allem aufgrund ihrer Größe.

Ein GPT-4-Klasse-Modell benötigt bereits zum Laden Dutzende oder Hunderte von Gigabyte GPU-Speicher. Die meisten produktiven LLM-Deployments erfordern Multi-GPU-Serving, bei dem das Modell auf mehrere GPUs aufgeteilt wird. Dies nennt sich Tensor-Parallelismus oder Pipeline-Parallelismus, und das Serving-Framework muss es orchestrieren.

Key-Value (KV) Cache-Management ist ein wesentliches operatives Anliegen beim LLM Serving. Bei der Token-für-Token-Generierung einer Antwort speichert das Modell Zwischenberechnungen aus vorherigen Tokens (der KV-Cache), um deren Neuberechnung zu vermeiden. Dieser Cache befindet sich im GPU-Speicher und wächst mit der Kontextlänge. Ein Serving-System muss diesen Speicher bei gleichzeitigen Anfragen sorgfältig verwalten.

Continuous Batching ist eine LLM-spezifische Optimierung, bei der das Serving-System neue eingehende Anfragen mit bereits laufenden Anfragen zusammenfasst und so die GPU-Auslastung hoch hält, anstatt zu warten, bis Batches abgeschlossen sind, bevor neue gestartet werden. Systeme wie vLLM haben diesen Ansatz pioniert.

Für Edge-AI-Deployments erfordert Model Serving auf eingeschränkter Hardware (Laptops, Telefone, eingebettete Geräte) zusätzliche Optimierung: kleinere Modellgrößen, Inference mit niedrigerer Präzision und Serving-Frameworks, die für CPU- oder mobile GPU-Umgebungen konzipiert sind, anstatt für Rechenzentrum-GPUs.

Anzeichen dafür, dass ein Serving-Problem den Geschäftswert beeinträchtigt

Model-Serving-Probleme kündigen sich nicht immer als Infrastrukturausfälle an. Häufiger erscheinen sie als:

Nutzer berichten, dass die KI sich "langsam anfühlt", ohne einen klaren technischen Alert
Die Adoption sinkt nach einem ersten Launch-Spike, ohne offensichtliche Qualitätsprobleme
Kosten wachsen unverhältnismäßig zur Nutzung
Inkonsistente Antwortzeiten (manchmal schnell, manchmal langsam), die das Feature unzuverlässig erscheinen lassen
Fehlerraten steigen unter Last, obwohl das Modell unter normalen Bedingungen einwandfrei funktioniert

Wenn Sie diese Symptome beobachten, liegt das Problem in der Regel nicht beim Modell selbst. Es liegt an der Serving-Schicht.

Wichtige Fakten

Model Serving ist die Infrastruktur, die ein trainiertes KI-Modell als produktiven Service verfügbar macht, unterschieden von Inference (der Berechnung) und MLOps (der umfassenderen operativen Praxis).
Produktive Serving-Systeme umfassen Model Registry, Serving-Runtime, API-Gateway, Autoscaler und Monitoring.
Wichtige Geschäftsentscheidungen: Managed versus selbst gehostet, Shared versus dedizierte Endpoints, Latency versus Kostentradeoff, Skalierungskonfiguration.
Large Language Models bringen spezifische Serving-Herausforderungen mit: Multi-GPU-Speicherverwaltung, KV-Cache und Continuous Batching.
Die meisten Serving-Probleme zeigen sich als Degradation der Nutzererfahrung (Langsamkeit, Inkonsistenz) statt als harte Ausfälle.

Victor Hoang

Co-Founder & CMO, Rework