Post-Sale Management

Ein SaaS-Unternehmen verfolgte die Kundengesundheit mit einem simplen Modell: Grün, wenn jemand diesen Monat eingeloggt war. Gelb, wenn nicht. Rot nach zwei Monaten ohne Login.

Das Problem: Die Churn-Rate lag bei 15 %, aber das Unternehmen prognostizierte nur 40 % der abgewanderten Kunden korrekt. Noch schlimmer: 30 % der als „grün" eingestuften Kunden churned trotzdem.

Der VP of Customer Success fragte: „Warum ist unser Health Score so schlecht darin, irgendetwas vorherzusagen?"

Sie analysierten die Daten und stellten fest:

Die Login-Häufigkeit allein war im Grunde nutzlos für die Vorhersage von Kundenbindung
Engagement-Qualität, Beziehungstiefe und tatsächliche Wertwahrnehmung wurden gar nicht gemessen
Jedes Signal wurde gleich gewichtet, obwohl manche deutlich aussagekräftiger waren
Abnehmende Trends wurden übersehen, weil nur der aktuelle Monat betrachtet wurde
Ein Einheitsmodell bedeutete, dass Enterprise- und SMB-Kunden identisch bewertet wurden

Also bauten sie ihr Health Score-Modell von Grund auf neu:

Mehrere Dimensionen: Nutzung, Engagement, Sentiment, Beziehung, Wert
Gewichtetes Scoring auf Basis dessen, was tatsächlich Kundenbindung vorhersagt (Nutzung 35 %, Engagement 20 % usw.)
Trending- und Momentum-Tracking – weil die Richtung genauso wichtig ist wie der Score selbst
Unterschiedliche Modelle für verschiedene Segmente (Enterprise und SMB haben andere „gesunde" Baselines)
Vierteljährliche Validierung gegen tatsächliche Erneuerungsergebnisse

Sechs Monate später:

Sie prognostizierten 82 % der abgewanderten Kunden korrekt (vorher: 40 %)
Falsch-positive Ergebnisse sanken um 60 % (deutlich weniger gesunde Accounts fälschlicherweise als gefährdet eingestuft)
Die Interventionserfolgsrate stieg um 45 % (weil auf echte Signale reagiert wurde, nicht auf Rauschen)
Sie identifizierten 25 Expansionsmöglichkeiten, die ihnen zuvor entgangen wären

Die Erkenntnis: Nicht alle Health Scores sind gleich. Ein wirklich funktionierendes Modell zu bauen erfordert durchdachtes Design, kontinuierliche Validierung und die Bereitschaft, es stetig weiterzuentwickeln.

Health Score Fundamentals

Zweck und Anwendungsfälle

Was Health Scores wirklich leisten: Ein Customer Health Score quantifiziert die Wahrscheinlichkeit, dass ein Kunde seine Ziele erreicht, langfristig bleibt und die Beziehung zu Ihnen ausbaut. Das ist die Theorie. In der Praxis ist er Ihre Antwort auf die Frage: „Sollte ich mir bei diesem Account Sorgen machen?"

So werden Health Scores tatsächlich eingesetzt:

CSM-Priorisierung:

Bei welchen Accounts muss ich alles stehen und liegen lassen und sofort anrufen?
Wo sollte ich heute meine begrenzte Zeit investieren?
Welche Accounts kommen mit einem Quartalsgespräch aus?

Risikomanagement:

Welche Kunden könnten churnen, wenn ich nichts unternehme?
Wie ernst ist die Lage – gelbe oder rote Warnstufe?
Muss ich diese Woche eingreifen oder kann es noch warten?

Identifikation von Chancen:

Welche Accounts sind bereit für ein Expansionsgespräch?
Wo kann ich tiefere Nutzung anstoßen, ohne aufdringlich zu wirken?
Wer ist zufrieden genug, um als Referenzkunde aufzutreten?

Forecasting:

Wie entwickelt sich unsere Retention-Rate im nächsten Quartal?
Wie viel Umsatz könnte verloren gehen?
Was steckt realistisch in unserer Expansions-Pipeline?

Executive Reporting:

Gesamtgesundheit des Portfolios (das Dashboard, das Führungskräfte tatsächlich ansehen)
Monatliche Trendentwicklung
Ob Initiativen wirken oder wir nur beschäftigt sind

Arten von Health Scores

Es gibt drei grundlegende Varianten von Health Scores, die in ihrer Komplexität aufeinander aufbauen.

Deskriptive Health Scores: Diese zeigen den aktuellen Stand. „Dieser Kunde ist gesund" oder „dieser ist gefährdet." Sie betrachten aktuelles Verhalten und gegenwärtige Kennzahlen. Damit fangen die meisten Unternehmen an – und viele bleiben auch dabei.

Beispiel: Account XYZ hat 75 % aktive Nutzer, hat am letzten QBR teilgenommen und einen NPS von 8 gegeben. Health Score: 78 (Gesund). Einfacher Snapshot des aktuellen Zustands.

Prädiktive Health Scores: Diese versuchen vorherzusagen, wohin es geht. „Dieser Kunde wird wahrscheinlich in 90 Tagen churnen, basierend auf der aktuellen Entwicklung." Sie analysieren Muster und Trends über Zeit. Dafür brauchen Sie ausreichend historische Daten.

Beispiel: Die Nutzung von Account XYZ sinkt monatlich um 30 %. Aktuell liegt er bei einem moderaten Score von 65 – aber wenn Sie die Zahlen durchrechnen, wird er in 90 Tagen bei 42 (Gefährdet) angelangt sein. Die Erkenntnis: Jetzt eingreifen, solange die Beziehung noch trägt, und nicht erst wenn der Kunde bereits mit einem Bein draußen ist.

Präskriptive Health Scores: Diese sagen Ihnen, was zu tun ist. „Dieser Kunde braucht Re-Onboarding, hier ist das Playbook." Sie vergleichen Muster aus ähnlichen Accounts und empfehlen konkrete Maßnahmen. Das ist der ausgefeilteste Ansatz und erfordert in der Regel Machine Learning oder ein starkes Data-Science-Team.

Beispiel: Account XYZ hat einen Health Score von 58. Das System erkennt, dass Accounts mit ähnlichen Mustern nach einer gezielten Feature-Adoption-Kampagne um 12–15 Punkte zugelegt haben. Empfohlene Maßnahme: Dasselbe Playbook für diesen Account starten.

Welchen sollten Sie aufbauen? Beginnen Sie mit dem deskriptiven – er ist Ihr Fundament. Fügen Sie Prädiktives hinzu, sobald Sie genug historische Daten haben, um Muster zu erkennen. Bauen Sie Präskriptives nur, wenn Sie die Data-Science-Ressourcen und genug Accounts haben, damit die Muster aussagekräftig werden.

Score-Komponenten und Dimensionen

Hier sind die Dimensionen, die die meisten Unternehmen verfolgen, grob geordnet nach ihrer Bedeutung:

1. Produktnutzung und Adoption (30–40 % Gewichtung)

Aktive Nutzer (Rohzahl und Prozentsatz der bezahlten Lizenzen)
Login-Häufigkeit
Feature-Breite (wie viele Features tatsächlich genutzt werden)
Feature-Tiefe (Power-User oder nur oberflächliche Nutzung?)
Nutzungstrend (wachsend, konstant oder sinkend)

Warum das wichtig ist: Nutzung sagt Kundenbindung besser voraus als alles andere. Kunden, die Ihr Produkt nutzen, bleiben. Kunden, die es nicht nutzen, sind bereits halb raus.

2. Engagement und Aktivität (15–25 % Gewichtung)

Wie oft Ihr CSM mit ihnen spricht
Ob sie an QBRs teilnehmen
Training- und Webinar-Teilnahme
Community-Beteiligung
E-Mail-Engagement (Öffnungen, Klicks, Antworten)
Wie schnell sie reagieren, wenn Sie sich melden

Warum das wichtig ist: Engagierte Kunden haben Zeit und Energie in die Beziehung investiert. Desengagierte Kunden sind eine wettbewerbsfähige E-Mail vom Wechsel entfernt.

3. Beziehung und Sentiment (15–25 % Gewichtung)

Gibt es einen Executive Sponsor?
Ist ein Champion identifiziert, und ist dieser noch aktiv?
NPS- und CSAT-Werte
Feedback-Sentiment (zufrieden oder frustriert?)
Beziehungsstärke (das Bauchgefühl des CSM, quantifiziert)
Stakeholder-Abdeckung (wie viele Personen kennen Sie dort?)

Warum das wichtig ist: Starke Beziehungen überstehen Produktfehler und Preiserhöhungen. Schwache Beziehungen überstehen kaum etwas.

4. Support und Problemlösung (10–15 % Gewichtung)

Support-Ticket-Volumen
Schweregrad der Probleme (P1-Notfälle gegenüber Kleinigkeiten)
Wie lange Probleme zur Lösung brauchen
Support-Zufriedenheitsbewertungen
Eskalationen

Warum das wichtig ist: Viele schwerwiegende Tickets bedeuten entweder, das Produkt passt nicht oder es gibt Qualitätsprobleme. Eine saubere Support-Historie bedeutet meist ruhiges Fahrwasser.

5. Business-Outcomes und Wert (10–20 % Gewichtung)

Erreichte Ziele (die im Verkaufsprozess genannten)
Nachgewiesener ROI (können sie auf konkreten Impact verweisen?)
Erweiterte Use Cases (begann mit Vertrieb, jetzt nutzt auch Marketing)
Erreichte Value Milestones
Geschäftliche KPIs, die sie wirklich interessieren

Warum das wichtig ist: Kunden, die klaren Mehrwert sehen, verlängern. Kunden, die keinen ROI artikulieren können, sind beim Renewal anfällig.

6. Finanzielles und Vertragliches (5–10 % Gewichtung)

Zahlungsverhalten (pünktlich oder regelmäßig zu spät)
Vertragsstatus
Expansionshistorie
Budget-Signale (gab es gerade eine Entlassungswelle?)

Warum das wichtig ist: Späte Zahlungen kündigen oft Churn an. Vergangene Expansion signalisiert in der Regel Zufriedenheit.

Gewichtung und Berechnungsmethoden

Wie Sie die richtigen Gewichtungen bestimmen:

Raten Sie nicht einfach. So gehen Sie es richtig an:

Schritt 1: Historische Daten analysieren Führen Sie eine Korrelationsanalyse zwischen jeder Dimension und der tatsächlichen Kundenbindung durch. Das zeigt Ihnen, was wirklich vorhersagt, ob Kunden bleiben.

Beispielanalyse:

Korrelation der Nutzungsdimension mit Retention: 0,72 (starker Prädiktor)
Korrelation der Engagement-Dimension: 0,48 (moderater Prädiktor)
Korrelation der Sentiment-Dimension: 0,35 (schwacher bis moderater Prädiktor)
Korrelation der Finanzdimension: 0,18 (schwacher Prädiktor)

Schritt 2: Gewichtung nach Vorhersagekraft Geben Sie den Dimensionen die höchste Gewichtung, die Kundenbindung tatsächlich vorhersagen. Behandeln Sie nicht alles gleich, nur weil es fair wirkt.

Beispielgewichtung:

Nutzung: 35 % (stärkster Prädiktor erhält das höchste Gewicht)
Engagement: 25 %
Wert: 20 %
Beziehung: 15 %
Finanziell: 5 % (schwacher Prädiktor erhält minimale Gewichtung)

Schritt 3: Testen und anpassen Führen Sie Ihr gewichtetes Modell gegen historische Ergebnisse aus. Wenn es nicht genau genug ist, anpassen und erneut testen. Das ist keine einmalige Übung.

Berechnungsbeispiel:

Dimension	Gewichtung	Rohwert (0–100)	Gewichteter Wert
Nutzung	35 %	80	28,0
Engagement	25 %	70	17,5
Wert	20 %	75	15,0
Beziehung	15 %	60	9,0
Finanziell	5 %	90	4,5
Gesamt	100 %	—	74,0

Endgültiger Health Score: 74 (Moderat)

Score-Bereiche und Schwellenwerte festlegen

Standard Health Score-Bereiche:

Gesund (75–100):

Starke Nutzung und Engagement
Positives Sentiment
Retention sieht solide aus
Wahrscheinlich bereit für Expansionsgespräche
Was zu tun ist: Beziehung warm halten, Expansionsmöglichkeiten suchen, nach Empfehlungen fragen

Moderat (50–74):

Akzeptabel, aber verbesserungswürdig
Einige Lücken in Nutzung oder Engagement, die Aufmerksamkeit brauchen
Wird wahrscheinlich verlängern, aber nicht sicher
Was zu tun ist: Proaktive Verbesserungsinitiativen starten, konkrete Lücken schließen

Gefährdet (25–49):

Geringe oder sinkende Nutzung
Schwaches Engagement oder schwache Beziehung
Retention ist hier ernsthaft bedroht
Was zu tun ist: Alles stehen und liegen lassen, jetzt eingreifen, Save-Plan erstellen, bei Bedarf eskalieren

Kritisch (0–24):

Kaum Nutzung oder vollständige Inaktivität
Null Engagement
Wird wahrscheinlich churnen, außer Sie vollbringen ein Wunder
Was zu tun ist: Executive-Eskalation, alle Kräfte bündeln

Unterschiedliche Segmente brauchen unterschiedliche Schwellenwerte:

Nicht alle Kunden sind gleich. Was für einen Enterprise-Kunden „gesund" ist, könnte bei einem SMB-Kunden besorgniserregend sein.

Enterprise-Kunden:

Gesund: 70+ (komplexe Produkte brauchen lange für den Rollout)
Gefährdet: <50
Warum: Enterprise-Kunden haben lange Adoption-Kurven. Geringe Nutzung in der Anfangsphase bedeutet nicht Unzufriedenheit – es bedeutet, dass noch fünf Abteilungen einen Workflow abstimmen müssen.

SMB-Kunden:

Gesund: 80+ (einfachere Produkte, schnellere Adoption)
Gefährdet: <60
Warum: SMB-Kunden sollten schnell einsatzbereit sein. Wenn nicht, stimmt etwas nicht.

Ihre Schwellenwerte sollten Ihre tatsächlichen Daten und das Verhalten verschiedener Segmente widerspiegeln.

Ihr Health Score-Modell entwerfen

Zu prognostizierende Ergebnisse identifizieren

Beginnen Sie mit dem Wesentlichen: Retention

Wird dieser Kunde tatsächlich verlängern?
Zu welchem Vertragswert?
Wie hoch wird die Renewal-Rate sein?

Dann sekundäre Ergebnisse hinzufügen:

Churn-Risiko:

Werden sie in den nächsten 90 Tagen churnen?
Welche Art von Churn? (Haben sie sich aktiv entschieden zu gehen, oder haben sie schlicht vergessen zu zahlen?)

Expansion:

Werden sie expandieren?
Um wie viel?
Wann ist der richtige Zeitpunkt für dieses Gespräch?

Advocacy:

Werden sie Referenzkunde?
Könnten sie andere Kunden empfehlen?
Werden sie ein Testimonial für Ihre Website hinterlassen?

Fangen Sie einfach an: Konzentrieren Sie sich auf die Vorhersage von Retention versus Churn. Das ist das Entscheidende. Expansion und Advocacy-Vorhersage können Sie später hinzufügen, sobald Ihr Retention-Modell wirklich funktioniert.

Health Score-Dimensionen auswählen

So wählen Sie die richtigen Dimensionen:

Schritt 1: Alle denkbaren Signale brainstormen

Produktnutzungs-Metriken
Engagement-Indikatoren
Beziehungsindikatoren
Finanzsignale
Support-Ticket-Muster
Sentiment-Daten
Externe Signale (wachsen sie? Wurden sie gerade finanziert? Gibt es Entlassungen?)

Schritt 2: Herausfinden, was tatsächlich messbar ist Seien Sie ehrlich über Ihre Datenlage:

Sind diese Daten aktuell verfügbar?
Können Sie sie integrieren, ohne ein halbjähriges Engineering-Projekt?
Ist die Datenqualität gut genug, um ihr zu vertrauen?

Schritt 3: Testen, was Retention tatsächlich vorhersagt Korrelationsanalyse mit tatsächlichen Ergebnissen durchführen:

Hohe Korrelation (>0,5): Einbeziehen
Moderate Korrelation (0,3–0,5): Erwägen
Geringe Korrelation (<0,3): Wahrscheinlich weglassen, außer es gibt strategische Gründe

Schritt 4: Nicht übertreiben

Zu wenige Dimensionen: Wichtige Signale werden übersehen
Zu viele Dimensionen: Überwältigende Komplexität und Wartungsaufwand
Optimaler Bereich: 4–6 Dimensionen

Mit diesen vier anfangen:

Nutzung (immer einbeziehen – mit Abstand der stärkste Prädiktor)
Engagement (wie sehr sie in die Beziehung investiert sind)
Sentiment (NPS, CSAT, wie sie sich fühlen)
Beziehung (gibt es einen Executive Sponsor? Einen aktiven Champion?)

Weitere ergänzen, wenn Ihre Daten und Systeme reifen: Wertrealisierung, Support-Qualität, finanzielle Gesundheit.

Dateneingaben und Metriken bestimmen

Für jede Dimension konkrete Metriken definieren:

Eingaben der Nutzungsdimension:

% der Lizenzen mit aktiven Nutzern (letzte 30 Tage)
Durchschnittliche Logins pro Nutzer pro Woche
Anzahl genutzter Core-Features (Breite)
Nutzungstiefe innerhalb wichtiger Features
Nutzungstrend (monatliche prozentuale Veränderung)

Eingaben der Engagement-Dimension:

CSM-Kontaktpunkte pro Quartal
QBR-Teilnahme (J/N)
Besuchte Trainings
E-Mail-Öffnungs- und Klickraten
Community-Beiträge oder -Beteiligung

Eingaben der Sentiment-Dimension:

Neuester NPS-Wert
Support-CSAT-Durchschnitt (letzte 3 Monate)
Qualitatives Feedback-Sentiment
CSM-Beziehungsbewertung (Skala 1–5)

Eingaben der Beziehungsdimension:

Executive Sponsor identifiziert (J/N)
Champion aktiv (J/N)
Anzahl der Kontakte im CRM
Anzahl der Abteilungen, die das Produkt nutzen
Beziehungstiefe-Score (CSM-Einschätzung)

Eingaben der Finanzdimension:

Zahlungsstatus (aktuell, verspätet, überfällig)
Expansion in den letzten 12 Monaten (J/N)
Vertragswert (ARR)

Datenquellen-Mapping: Dokumentieren Sie, woher jede Metrik kommt:

Produktanalyse-Plattform
CRM-System
Support-Ticketing-System
Umfrage-Tools
Abrechnungssystem

Gewichtungsmethodik festlegen

Datenbasierte Gewichtungszuweisung:

Methode 1: Korrelationsanalyse

Korrelationskoeffizient zwischen jeder Dimension und Retention berechnen
Gewichtungen proportional zur Korrelationsstärke zuweisen

Beispiel:

Nutzungskorrelation: 0,70 → Gewichtung: 35 %
Engagement-Korrelation: 0,50 → Gewichtung: 25 %
Sentiment-Korrelation: 0,40 → Gewichtung: 20 %
Beziehungskorrelation: 0,30 → Gewichtung: 15 %
Finanzkorrelation: 0,10 → Gewichtung: 5 %

Methode 2: Regressionsanalyse

Logistische Regression mit Churn als Ergebnis durchführen
Koeffizientenwerte zur Gewichtungsfindung nutzen
Ausgefeilter als einfache Korrelation

Methode 3: Expertenurteil (bei begrenzten Daten)

CSM-Team nach Vorhersagekraft jeder Dimension befragen
Auf Basis von Konsens gewichten
Gegen Ergebnisse validieren, sobald Daten vorliegen

Methode 4: Gleiche Gewichtung (Ausgangspunkt)

Alle Dimensionen gleich gewichtet
Basierend auf Performance anpassen
Schnell zu implementieren, aber weniger genau

Best Practice: Mit Korrelationsanalyse beginnen (wenn Daten vorhanden) oder Expertenurteil nutzen. Gewichtungen vierteljährlich auf Basis der Prognosegenauigkeit verfeinern.

Datenbasierte Modellentwicklung

Historische Datenmuster analysieren

Schritte der historischen Analyse:

Schritt 1: Retention-Daten sammeln

Kundendaten der letzten 12–24 Monate
Renewal-Ergebnisse (verlängert vs. abgewandert)
Finale Health Scores vor der Verlängerung
Dimensionswerte

Schritt 2: Segmentanalyse

Retention-Rate nach Health Score-Bereich
Retention-Rate nach Dimensionswert
Segmentspezifische Muster (Enterprise vs. SMB)

Beispielanalyse:

Health Score-Bereich	Retention-Rate	Stichprobengröße
90–100	98 %	45
80–89	95 %	112
70–79	88 %	134
60–69	75 %	87
50–59	58 %	56
<50	35 %	41

Erkenntnis: Klarer Schwellenwert bei 60, ab dem die Retention deutlich abfällt.

Schritt 3: Muster identifizieren

Welche abgewanderten Kunden hatten hohe Scores? (Falsch-Negative)
Welche verlängernden Kunden hatten niedrige Scores? (Falsch-Positive)
Welche Signale haben wir übersehen?

Schritt 4: Modell verfeinern

Gewichtungen anpassen
Fehlende Dimensionen hinzufügen
Schwellenwerte neu kalibrieren

Korrelationsanalyse mit Ergebnissen

Korrelationsanalyse durchführen:

Für jede Dimension: Korrelationskoeffizient mit Retention berechnen (0 bis 1, höher = stärkere Beziehung)

Beispielergebnisse:

Korrelation des Nutzungs-Scores mit Retention: 0,72
Korrelation des Engagement-Scores: 0,48
Korrelation des Sentiment-Scores: 0,35
Korrelation des Beziehungs-Scores: 0,52
Korrelation des Finanz-Scores: 0,21

Interpretation:

Starke Prädiktoren (>0,6): Nutzung
Moderate Prädiktoren (0,4–0,6): Engagement, Beziehung
Schwache Prädiktoren (<0,4): Sentiment, Finanziell

Maßnahmen:

Gewichtung für starke Prädiktoren erhöhen (Nutzung)
Moderate Gewichtungen für moderate Prädiktoren beibehalten
Gewichtung schwacher Prädiktoren reduzieren oder entfernen (außer strategischem Wert)

Multivariate Analyse: Manche Dimensionen können in Kombination prädiktiv sein, aber nicht einzeln. Kombinationen testen:

Geringe Nutzung + geringes Engagement = sehr hohes Churn-Risiko
Geringe Nutzung + hohes Engagement = Re-Onboarding-Möglichkeit

Prädiktive versus Vanity-Metriken identifizieren

Prädiktive Metriken: Diese sagen tatsächlich vorher, was passieren wird. Wenn sich diese Zahlen bewegen, bewegt sich auch die Retention.

Beispiele:

Prozentsatz aktiver Nutzer (echter Prädiktor für Retention)
Login-Häufigkeit (Nutzer, die regelmäßig einloggen, bleiben)
QBR-Teilnahme (engagierte Kunden erscheinen)
Feature-Adoption-Tiefe (Power-User churnen nicht)

Vanity-Metriken: Diese sehen gut in einem Dashboard aus, sagen aber wenig über Retention aus. Sie mögen mit Gesundheit korrelieren, verursachen sie aber nicht.

Beispiele:

Gesamtzahl registrierter Nutzer (bedeutungslos, wenn sie nicht aktiv sind)
Gesamt gespeicherte Daten (außer Speicher treibt für Ihr Produkt echten Wert)
Produktseitenaufrufe (Browsen ist nicht dasselbe wie Nutzen)
Gesendete E-Mails (E-Mails zu senden bedeutet nichts, wenn niemand sie öffnet)

Wie Sie den Unterschied erkennen:

Test 1: Korreliert es mit Retention? Rechnen Sie nach. Wenn sich die Metrik bewegt, aber die Retention nicht, ist es Vanity.

Korreliert → Potenziell prädiktiv
Korreliert nicht → Wahrscheinlich Vanity

Test 2: Verbessert seine Steigerung tatsächlich die Retention? Das ist der Kausalitätstest.

Ja → Prädiktiv
Nein → Vanity

Test 3: Ändert es sich vor oder nach dem Churn? Timing ist entscheidend.

Ändert sich vor dem Churn → Leading Indicator (nützlich!)
Ändert sich nach dem Churn → Lagging Indicator (zu spät zum Helfen)

Bauen Sie Ihren Health Score auf prädiktive, führende Indikatoren auf. Die Vanity-Metriken gehören in Ihre Marketing-Präsentationen.

Modelle testen und validieren

So validieren Sie Ihr Modell:

Schritt 1: Gegen historische Daten testen

Führen Sie Ihr Health Score-Modell auf vergangenen Kundendaten aus
Vergleichen Sie Vorhersagen des Modells mit dem, was tatsächlich passiert ist
Berechnen Sie Ihre Genauigkeitsmetriken

Schritt 2: Genauigkeit messen

True Positive Rate (Haben Sie die abwandernden Kunden identifiziert?): Von den Kunden, die tatsächlich gechurnt sind: Wie viele haben Sie als gefährdet markiert?

Formel: True Positives / (True Positives + False Negatives)
Ziel: >75 %

True Negative Rate (Haben Sie die gesunden Kunden korrekt erkannt?): Von den Kunden, die verlängert haben: Wie viele haben Sie korrekt als gesund markiert?

Formel: True Negatives / (True Negatives + False Positives)
Ziel: >85 %

Gesamtgenauigkeit: Von allen Prognosen: Wie viele waren richtig?

Formel: (True Positives + True Negatives) / Gesamtkunden
Ziel: >80 %

Schritt 3: Herausfinden, warum Sie falsch lagen

False Positives (als gefährdet markiert, aber verlängert):

Warum dachte das Modell, sie seien gefährdet? (Geringe Nutzung)
Warum haben sie dennoch verlängert? (Sahen noch Mehrwert, Executive Champion)
Erkenntnis: Executive Sponsor-Dimension hinzufügen, Beziehungsgewicht erhöhen

False Negatives (als gesund markiert, aber abgewandert):

Welche Signale wurden vollständig übersehen? (Neuer Wettbewerber, Budgetkürzung)
Welche Dimension sollte das erfassen? (Wettbewerbs-Intelligence, Finanziell)
Erkenntnis: Wettbewerbsmonitoring hinzufügen, Gewicht bei Stakeholder-Änderungen erhöhen

Schritt 4: Modell verbessern

Gewichtungen auf Basis der Erkenntnisse anpassen
Fehlende Dimensionen hinzufügen
Schwellenwerte neu kalibrieren
Erneut gegen historische Daten testen

Schritt 5: Weiter beobachten

Genauigkeit im Live-Betrieb verfolgen
Vorhersagen monatlich mit tatsächlichen Renewal-Ergebnissen vergleichen
Vierteljährlich weiter verfeinern

Iteration auf Basis von Ergebnissen

Kontinuierlicher Verbesserungszyklus:

Monatliche Überprüfung:

Welche als gefährdet eingestuften Accounts sind tatsächlich abgewandert?
Gab es gesunde Accounts, die dennoch abgewandert sind? (Fehleinschätzungen)
Falsch-positive Rate (als gefährdet markierte Accounts, die verlängert haben)
CSM-Feedback zur Score-Genauigkeit

Vierteljährliche Verfeinerung:

Vollständige Modellvalidierung
Gewichtungsanpassungen
Schwellenwert-Neukalibrierung
Dimensionen hinzufügen/entfernen

Jährliche Überarbeitung:

Umfangreiche Modellüberarbeitung bei Bedarf
Neue Datenquellen einbeziehen
Neue Methoden adoptieren (ML usw.)

Beispiel-Iteration:

Quartal 1:

Modellgenauigkeit: 73 %
False-Negative-Rate: 32 % (zu viele gesunde Kunden abgewandert)
Analyse: Nutzungsdimension nicht stark genug gewichtet
Maßnahme: Nutzungsgewicht von 30 % auf 40 % erhöhen

Quartal 2:

Modellgenauigkeit: 79 %
False-Negative-Rate: 24 %
Verbesserung: Mehr gefährdete Kunden erkannt
Neues Problem: Falsch-positive erhöht
Maßnahme: Gefährdet-Schwellenwert von <60 auf <55 anpassen

Quartal 3:

Modellgenauigkeit: 84 %
Ausgewogene Falsch-Positive und Falsch-Negative
CSM-Feedback: Scores wirken genau
Maßnahme: Aktuelles Modell beibehalten, Monitoring fortsetzen

Score-Berechnungsmethoden

Einfacher gewichteter Durchschnitt

Das nutzen die meisten Unternehmen: Scores für jede Dimension berechnen, Gewichtungen anwenden, addieren. Fertig.

So funktioniert es:

Schritt 1: Jede Dimension bewerten (0–100)

Nutzung: 75 (basierend auf aktiven Nutzern, Login-Häufigkeit, genutzten Features)
Engagement: 80 (Kontaktpunkte, QBR-Teilnahme, Trainingsteilnahme)
Sentiment: 70 (NPS, CSAT-Werte)
Beziehung: 60 (es gibt einen Champion, aber noch keinen Executive Sponsor)

Schritt 2: Gewichtungen anwenden

Nutzung: 75 × 0,40 = 30,0
Engagement: 80 × 0,25 = 20,0
Sentiment: 70 × 0,20 = 14,0
Beziehung: 60 × 0,15 = 9,0

Schritt 3: Addieren Gesamt-Health-Score = 30,0 + 20,0 + 14,0 + 9,0 = 73

Warum das funktioniert:

Einfach genug, damit jeder es versteht
Leicht gegenüber Stakeholdern zu erklären
Der Beitrag jeder Dimension ist klar sichtbar
Flexibel – Gewichtungen lassen sich leicht anpassen

Die Nachteile:

Linear, erfasst also keine komplexen Wechselwirkungen zwischen Dimensionen
Benötigt Daten für alle Dimensionen, sonst stimmt die Rechnung nicht

Rot/Gelb/Grün kategorisch

Der Ampel-Ansatz: Statt einer numerischen Bewertung einfach eine Farbe zuweisen. So einfach ist das.

So funktioniert es:

Definieren, was für jede Farbe qualifiziert
Prüfen, wo der Account einzuordnen ist
Farbe zuweisen

Beispielkriterien:

Grün (Gesund):

≥70 % Lizenzen aktiv UND
Am letzten QBR teilgenommen UND
NPS ≥7 UND
Executive Sponsor ist aktiv

Gelb (Moderat):

50–69 % Lizenzen aktiv ODER
Letztes QBR verpasst ODER
NPS 5–6 ODER
Kein Executive Sponsor

Rot (Gefährdet):

<50 % Lizenzen aktiv ODER
Keine Kontaktpunkte in 60 Tagen ODER
NPS <5 ODER
Mehrere offene P1-Support-Tickets

Warum das funktioniert:

Extrem einfach
Klare Handlungskategorien (Grün = pflegen, Gelb = verbessern, Rot = retten)
Nichttechnische Stakeholder verstehen es sofort

Die Nachteile:

Nicht sehr differenziert – nur 3 Zustände
Schwer zu priorisieren, wenn 50 gelbe Accounts vorliegen
Kein Trending sichtbar (verbessert oder verschlechtert sich)
Die Schwellenwerte sind willkürlich (70 % Nutzung = Grün, 69 % = Gelb – wirklich?)

Nutzen Sie das, wenn: Sie ein kleines Team, ein einfaches Produkt haben oder gerade erst mit dem Gesundheitsmonitoring beginnen.

Punktebasiertes Scoring

Methode: Für bestimmte Verhaltensweisen oder Eigenschaften Punkte vergeben. Punkte summieren zum Gesamtscore.

Beispiel:

Kriterium	Punkte
≥80 % Lizenzauslastung	20
60–79 % Lizenzauslastung	15
<60 % Lizenzauslastung	5
Am letzten QBR teilgenommen	15
Executive Sponsor identifiziert	15
Champion aktiv	10
NPS 9–10	15
NPS 7–8	10
NPS 0–6	0
Keine Support-Tickets	10
Feature Adoption ≥70 %	10
Maximal mögliche Punkte	100

Kunde A:

75 % Auslastung: 15 Punkte
Am QBR teilgenommen: 15 Punkte
Hat Executive Sponsor: 15 Punkte
Kein Champion: 0 Punkte
NPS 8: 10 Punkte
2 Support-Tickets: 0 Punkte
80 % Feature Adoption: 10 Punkte
Gesamt: 65 Punkte (Moderat)

Vorteile:

Einfach aufzubauen und anzupassen
Klare Punktevergabe
Flexibel (Kriterien leicht hinzufügen/entfernen)

Nachteile:

Kann komplex werden (zu viele Kriterien)
Punktwerte etwas willkürlich
Spiegelt möglicherweise keine echten prädiktiven Gewichtungen wider

Perzentil-Ranking

Methode: Accounts relativ zueinander einordnen, Health Score basierend auf Perzentil vergeben.

Beispiel:

Top 20 % der Accounts: 90–100 (Gesund)
20–50 %: 70–89 (Gut)
50–80 %: 50–69 (Moderat)
Untere 20 %: 0–49 (Gefährdet)

Vorteile:

Relativer Vergleich (zeigt, wo der Account im Verhältnis zu Vergleichsgruppen steht)
Passt sich automatisch an, wenn das Portfolio besser wird
Nützlich für Benchmarking

Nachteile:

Score hängt von der Kohorte ab (gleiches Verhalten = anderer Score in anderen Kohorten)
Die untersten 20 % sind immer „gefährdet", selbst wenn alle Accounts gesund sind
Kein absolutes Maß

Am besten für: Reife Portfolios mit großen Kundenstämmen, Benchmarking, Priorisierung.

Machine Learning-Modelle

Der fortgeschrittene (und komplizierte) Ansatz: ML-Algorithmen verwenden, um Churn-Wahrscheinlichkeit auf Basis historischer Muster vorherzusagen. Das ist die ausgefeilte Option.

Gängige Algorithmen:

Logistische Regression (sagt Churn-Wahrscheinlichkeit von 0 bis 1 voraus)
Random Forest (Ensemble aus Entscheidungsbäumen)
Gradient Boosting (XGBoost, LightGBM)
Neuronale Netze (bei sehr großen Datensätzen)

So funktioniert es:

Eingabe: Alle Kundendaten (Nutzung, Engagement, alles)
Das Modell trainiert sich auf historischen Churn-Daten
Ausgabe: Churn-Wahrscheinlichkeit (0–100 %)
Ihr Health Score = 100 – Churn-Wahrscheinlichkeit

Warum das großartig sein kann:

Genaueste Methode (wenn genug Daten vorhanden)
Erfasst komplexe Wechselwirkungen zwischen Dimensionen
Findet Muster, die Menschen nie entdecken würden
Wird mit mehr Daten immer besser

Warum das zum Albtraum werden kann:

Erfordert ernsthaftes Data-Science-Know-how
Benötigt massive historische Daten (denken Sie: 1.000+ Kunden, mindestens 2 Jahre)
„Black Box"-Problem – schwer zu erklären, warum ein Score so ist wie er ist
Infrastruktur- und Wartungskosten summieren sich schnell

Nutzen Sie das, wenn: Sie ein großes SaaS-Unternehmen mit einem Datenteam und reifen Datensätzen sind. Wenn Sie noch dabei sind, Ihr grundlegendes Health Scoring zu klären, überspringen Sie das vorerst.

Modellsegmentierung

Segmentspezifische Modelle

Warum segmentieren: Unterschiedliche Kundensegmente haben unterschiedliche Verhaltensweisen, Adoption-Muster und Gesundheitsprofile.

Gängige Segmentierungsansätze:

Nach Unternehmensgröße:

Enterprise (1.000+ Mitarbeiter)
Mid-Market (100–999)
SMB (<100)

Unterschiede:

Enterprise: Langsamere Adoption, komplexe Implementierungen, längere Vertriebszyklen
SMB: Schnelle Adoption, einfachere Nutzung, höhere Churn-Raten

Nach Produkt oder Plan:

Starter/Basic-Tier
Professional-Tier
Enterprise-Tier

Unterschiede:

Enterprise-Pläne: Mehr Features, höheres Engagement erwartet
Starter-Pläne: Begrenzte Features, geringeres Engagement trotzdem gesund

Nach Branche:

Gesundheitswesen
Finanzdienstleistungen
Technologie
Fertigung

Unterschiede:

Branchenspezifische Nutzungsmuster
Regulatorische Anforderungen beeinflussen Engagement
Unterschiedliche Value Drivers

Nach Use Case:

Vertriebsteams
Marketingteams
Engineering-Teams

Unterschiede:

Unterschiedliche Feature-Nutzung
Unterschiedliche Adoption-Kurven
Unterschiedliche Erfolgskennzahlen

Berücksichtigung der Customer Journey-Phasen

Health Score nach Customer Lifecycle-Phase:

Onboarding (0–90 Tage):

Geringere Basis-Nutzung erwartet (noch im Hochlauf)
Fokus auf Aktivierungs-Milestones
Engagement wichtiger als Nutzung
Schwellenwert: Moderat = 40+, Gesund = 60+

Adoption (90 Tage – 12 Monate):

Nutzung nimmt zu
Feature-Breite erweitert sich
Standardmäßige Health-Schwellenwerte gelten
Schwellenwert: Moderat = 50+, Gesund = 70+

Reife (12+ Monate):

Volle Nutzung und Engagement erwartet
Höhere Schwellenwerte für gesund
Nach Expansionssignalen Ausschau halten
Schwellenwert: Moderat = 60+, Gesund = 75+

Renewal-Periode (60 Tage vor Verlängerung):

Kritische Phase
Geringere Toleranz für Gefährdetes
Besondere Aufmerksamkeit auf Beziehung und Sentiment
Schwellenwert: Gefährdet wenn <65, auch wenn normalerweise moderat

Health Scoring und Schwellenwerte je nach Customer Journey-Phase anpassen.

Wann universelle vs. segmentspezifische Modelle nutzen

Universelles Modell (ein Modell für alle):

Vorteile:

Einfacher aufzubauen und zu warten
Konsistent über das gesamte Portfolio
Accounts leichter zu vergleichen

Nachteile:

Weniger genau (berücksichtigt keine Segmentunterschiede)
Kann segmentspezifische Muster verpassen
Einheitsbeschränkungen

Nutzen Sie das, wenn:

Kleiner Kundenstamm (<200 Kunden)
Homogene Kundensegmente
Frühes Stadium der Health Scoring-Reife
Begrenzte Daten oder Ressourcen

Segmentspezifische Modelle:

Vorteile:

Genauere Vorhersagen
Berücksichtigt Segmentverhalten
Bessere Schwellenwert-Kalibrierung
Ermöglicht Segment-Benchmarking

Nachteile:

Komplexer aufzubauen und zu warten
Erfordert ausreichend Daten pro Segment
Segmentübergreifende Vergleiche schwieriger

Nutzen Sie das, wenn:

Großer Kundenstamm (>500 Kunden)
Diverse Kundensegmente
Reifes Health Scoring-Programm
Ausreichend Daten pro Segment (>100 Kunden)

Hybridansatz:

Mit universellem Modell beginnen
Segmentanpassungen hinzufügen (segmentspezifische Schwellenwerte)
Schrittweise zu vollständig getrennten Modellen übergehen, sobald Daten es erlauben

Implementierung und Operationalisierung

Technologie und Infrastruktur

Die Build-vs.-Buy-Entscheidung:

Kaufen: Customer Success-Plattform

Tools wie Gainsight, Totango, ChurnZero, Catalyst
Vorteile: Schnell einsatzbereit, bewährte Funktionalität, Updates inklusive
Nachteile: Kostet 50.000–200.000 $ pro Jahr, weniger flexibel, Anbieterabhängigkeit
Nutzen Sie das, wenn: Sie ein mittelgroßes bis großes CS-Team mit Budget haben und Geschwindigkeit wollen

Selbst bauen: Custom-System

Stack: Eigenes Data Warehouse + BI-Tool + Custom Scoring Engine
Vorteile: Volle Kontrolle, exakt auf Ihre Bedürfnisse zugeschnitten, langfristig günstiger
Nachteile: Frisst Engineering-Zeit, Sie verantworten alle Wartung, langsamer Launch
Nutzen Sie das, wenn: Sie ein technisches Team, einzigartige Anforderungen und Engineering-Ressourcen haben

Hybrid: Das Beste aus beiden Welten

Kern: CS-Plattform für Scoring und Alerts nutzen
Custom: Eigenes Data Warehouse für komplexe Analysen aufbauen
Integrationen: Alles verbinden (Produktanalyse, CRM, Support)
Nutzen Sie das, wenn: Sie wie die meisten Unternehmen eine Balance aus Geschwindigkeit und Flexibilität wollen

Was Sie wirklich brauchen:

Datenintegrations-Layer (zieht Daten aus all Ihren Systemen)
Scoring Engine (berechnet Health Scores)
Visualisierungs-Layer (Dashboards, die die Leute wirklich ansehen)
Alerting-System (Benachrichtigungen und automatisierte Workflows)
Historische Datenbank (damit Sie Trends über Zeit verfolgen können)

Datenpipeline und Automatisierung

Automatisierter Datenfluss:

Produkt-DB → ETL → Data Warehouse → Scoring Engine → Dashboard
CRM → API → Data Warehouse → Scoring Engine → Dashboard
Support → API → Data Warehouse → Scoring Engine → Dashboard
Umfrage → Webhook → Data Warehouse → Scoring Engine → Dashboard

Pipeline-Schritte:

1. Extrahieren:

Daten aus Quellsystemen ziehen (Produktanalyse, CRM, Support)
Zeitplan: Täglich für die meisten Metriken, Echtzeit für kritische Alerts
API-Rate-Limits und Fehler behandeln

2. Transformieren:

Datenformate normalisieren
Abgeleitete Metriken berechnen (% aktive Nutzer, Nutzungstrends)
Auf Account-Ebene aggregieren
Daten aus mehreren Quellen zusammenführen

3. Laden:

Im Data Warehouse speichern
Health Scores berechnen
Dashboards aktualisieren
Alerts auslösen, wenn Schwellenwerte überschritten

4. Archivieren:

Historische Scores für Trending speichern
Jahresvergleiche ermöglichen

Automatisierungs-Best-Practices:

Pipeline-Gesundheit überwachen (bei Ausfällen alarmieren)
Datenqualität validieren (auf Anomalien prüfen)
Datenquellen und Transformationen dokumentieren
Scoring-Logik versionieren

Score-Aktualisierungsfrequenz

Wie oft neu berechnen:

Echtzeit (kontinuierlich):

Nutzen für: Kritische Alerts (P1-Tickets, Zahlungsausfälle)
Erfordert: Streaming-Datenpipeline, höhere Infrastrukturkosten
Beispiel: Zahlung überfällig → sofortiger Alert

Täglich:

Nutzen für: Standard-Health-Scores, die meisten Accounts
Erfordert: Nächtlicher Batch-Job, moderate Infrastruktur
Beispiel: Nutzungsdaten jeden Morgen aktualisiert

Wöchentlich:

Nutzen für: Low-Touch-Accounts, weniger kritische Metriken
Erfordert: Wöchentlicher Batch-Job, einfache Infrastruktur
Beispiel: SMB-Accounts mit stabilen Mustern

Überlegungen:

Häufiger = aktueller, aber höhere Kosten
Seltener = für die meisten Zwecke ausreichend, einfacher
Hybrid: Echtzeit für kritische, täglich für Standard

Empfehlung: Tägliche Aktualisierung der Health Scores, Echtzeit für kritische Alerts.

Warum Trending genauso wichtig ist wie der Score selbst:

Die Richtung, in die ein Account sich bewegt, ist genauso wichtig wie der aktuelle Standort. Ein Score von 70, der steigt, sieht völlig anders aus als ein Score von 70, der schnell fällt.

Was Trending Ihnen sagt:

Probleme früh erkennen, bevor sie kritisch werden
Wissen, ob Ihre Interventionen tatsächlich wirken
Saisonale Muster erkennen, die Sie berücksichtigen müssen

Relevante Zeitfenster:

30-Tage-Veränderung (kurzfristig):

Zeigt schnelle Gewinne oder neue Probleme
Alert bei Rückgang um mehr als 10 Punkte
Gut für das Erkennen unmittelbarer Probleme

90-Tage-Veränderung (mittelfristig):

Zeigt anhaltende Verbesserung oder Rückgang
Relevantester Zeitraum für Interventionen
Hier sollte Ihr Fokus liegen

12-Monats-Veränderung (langfristig):

Enthüllt Customer Lifecycle-Muster
Gut für Kohortenanalyse
Hilft zu verstehen, was „normal" aussieht

Momentum-Indikatoren nutzen:

Verbesserung: ↑ (Score steigt)
Stabil: → (Score konstant, innerhalb ±5 Punkte)
Rückgang: ↓ (Score sinkt)

Warum das wichtig ist:

Account A:

Aktueller Score: 70
30-Tage-Veränderung: +8
90-Tage-Veränderung: +15
Status: Moderat, aber verbessernd ↑
Was zu tun ist: Was Sie tun, funktioniert – machen Sie weiter so

Account B:

Aktueller Score: 72
30-Tage-Veränderung: -12
90-Tage-Veränderung: -18
Status: Moderat, aber abnehmend ↓
Was zu tun ist: Etwas stimmt nicht – jetzt untersuchen und eingreifen

Gleicher Score, völlig unterschiedliche Situationen, vollständig andere Maßnahmen erforderlich.

Integration in Workflows

Health Scores operationalisieren:

Täglicher CSM-Workflow:

Dashboard auf Alerts prüfen
Accounts mit sinkender Gesundheit überprüfen
Auf gefährdete Accounts konzentrieren (Score <50)
Success Plans basierend auf Scores aktualisieren

Automatisierte Playbooks:

Gesundheit sinkt auf gefährdet → Save-Playbook auslösen
Gesundheit verbessert sich auf gesund → Expansions-Playbook auslösen
30 Tage bis Renewal + moderater Gesundheitszustand → Renewal-Vorbereitungs-Playbook auslösen

CRM-Integration:

Health Scores mit CRM synchronisieren (Salesforce, HubSpot)
Auf der Account-Seite anzeigen
In Reporting und Forecasting nutzen
Vertriebsteam-Alerts auslösen (Executive-Eskalation)

Kommunikationsintegration:

E-Mail-Alerts an CSMs (täglicher Digest gefährdeter Accounts)
Slack-Benachrichtigungen (kritische Alerts)
Automatisierte Kundenkorrespondenz (basierend auf Gesundheitsveränderungen)

Meeting-Vorbereitung:

Health Score vor dem QBR abrufen
Gesprächspunkte vorbereiten (Erfolge und Bedenken)
Agenda basierend auf Gesundheitseinblicken festlegen

Modellvalidierung und -verfeinerung

Genauigkeitsmessung und -tracking

Wichtige Genauigkeitsmetriken:

Prognosegenauigkeit: Von allen Prognosen: Wie viele waren richtig?

Formel: (True Positives + True Negatives) / Gesamt
Benchmark: >80 % ist gut, >85 % ist ausgezeichnet

Präzision (Positive Predictive Value): Von als gefährdet markierten Kunden: Wie viele haben tatsächlich gechurnt?

Formel: True Positives / (True Positives + False Positives)
Benchmark: >60 % (einige False Positives akzeptabel, um alle Risiken zu erfassen)

Recall (Sensitivität): Von Kunden, die gechurnt sind: Wie viele wurden als gefährdet markiert?

Formel: True Positives / (True Positives + False Negatives)
Benchmark: >75 % (entscheidend, den meisten Churn zu erfassen)

F1-Score: Balance aus Präzision und Recall

Formel: 2 × (Präzision × Recall) / (Präzision + Recall)
Benchmark: >0,70

Monatliches Tracking: Diese Metriken monatlich berechnen, wenn Renewals eintreten, und Vorhersagen mit Tatsachen vergleichen.

False-Positive/Negative-Analyse

False Positives (Typ-I-Fehler): Als gefährdet markiert, aber verlängert.

Auswirkung:

Verschwendete CSM-Zeit
Unnötige Interventionen
Alert-Müdigkeit
Geringeres Vertrauen in Scores

Beispiel: Account als gefährdet markiert (Score 45), aber zu 100 % verlängert.

Analyse:

Warum hielt das Modell ihn für gefährdet? (Geringe Nutzung)
Warum hat er dennoch verlängert? (Sah noch Mehrwert, Executive Champion)
Erkenntnis: Executive Sponsor-Dimension hinzufügen, Beziehungsgewicht erhöhen

False Negatives (Typ-II-Fehler): Als gesund markiert, aber abgewandert.

Auswirkung:

Verpasste Interventionsmöglichkeit
Verlorener Umsatz
Gefährlicher als False Positives
Untergräbt das Vertrauen in das Modell

Beispiel: Account als gesund markiert (Score 78), aber abgewandert.

Analyse:

Welche Signale wurden komplett übersehen? (Neuer Wettbewerber, Budgetkürzung)
Welche Dimension sollte das erfassen? (Wettbewerbs-Intelligence, Finanziell)
Erkenntnis: Wettbewerbsmonitoring hinzufügen, Gewicht bei Stakeholder-Änderungen erhöhen

Monatlicher Überprüfungsprozess:

Alle False Positives und False Negatives identifizieren
Grundursachen analysieren
Modellverbesserungen identifizieren
Änderungen implementieren
Gegen historische Daten validieren

Modelldrift-Erkennung

Was ist Modelldrift: Die Genauigkeit Ihres Modells nimmt mit der Zeit ab, weil sich Ihre Kunden, Ihr Produkt oder Ihr Markt verändern. Was vor sechs Monaten Retention vorhersagte, funktioniert möglicherweise heute nicht mehr.

Zeichen, dass Ihr Modell driftet:

Genauigkeit sinkt Monat für Monat
Mehr False Positives oder False Negatives als zuvor
CSMs sagen: „Diese Scores fühlen sich nicht mehr richtig an"
Neue Muster, die Ihr Modell nicht erfasst

Was Drift verursacht:

Produktveränderungen (Sie haben neue Features gestartet oder die UI redesigned)
Kundenverhalten entwickelt sich (Nutzungsmuster verschieben sich mit der Zeit)
Marktdynamik ändert sich (neuer Wettbewerber taucht auf)
Ihre Datenqualität verschlechtert sich

So erkennen Sie es:

Genauigkeitstrends verfolgen (wenn sie über 3+ Monate sinken, haben Sie Drift)
Aktuelle Genauigkeit mit historischer vergleichen
Auf Verschiebungen in Ihrer Prognoseverteilung achten

So beheben Sie es:

Modell auf aktuellen Daten neu trainieren
Neue Dimensionen hinzufügen, die neue Muster erfassen
Gewichtungen anpassen, um aktuelle Relevanz zu reflektieren
Schwellenwerte basierend auf aktuellem Verhalten aktualisieren

So verhindern Sie es:

Modell vierteljährlich validieren
Genauigkeit kontinuierlich verfolgen
Regelmäßiges Feedback vom CSM-Team einholen
Produkt- oder Go-to-Market-Änderungen dokumentieren

Regelmäßige Überprüfung und Aktualisierungen

Modellwartungsplan:

Wöchentlich:

Alert-Volumen und Reaktionen überwachen
CSM-Feedback zu Scores verfolgen
Datenqualitätsprobleme identifizieren

Monatlich:

Genauigkeitsmetriken berechnen
False Positives/Negatives überprüfen
Schnelle Gewinne identifizieren (Schwellenwertanpassungen)

Vierteljährlich:

Vollständige Modellvalidierung
Gewichtungsanpassungen
Dimensionen hinzufügen/entfernen
Backtest auf aktuellen Daten
Verfeinerungen implementieren

Jährlich:

Umfassende Modellüberprüfung
Größere Neugestaltung erwägen, wenn nötig
Neue Methoden adoptieren (ML usw.)
Mit Branchenstandards benchmarken
Mit strategischen Prioritäten abgleichen

Dokumentation:

Alle Modellveränderungen verfolgen
Begründung dokumentieren
Impact messen
Erkenntnisse mit Team teilen

A/B-Test von Modellvarianten

Modellveränderungen vor dem vollständigen Rollout testen:

Beispiel-A/B-Test:

Kontrollgruppe (aktuelles Modell):

Nutzung: 35 %
Engagement: 25 %
Wert: 20 %
Beziehung: 15 %
Finanziell: 5 %

Variante (vorgeschlagenes Modell):

Nutzung: 40 % (erhöht)
Engagement: 25 %
Wert: 15 % (verringert)
Beziehung: 20 % (erhöht)
Finanziell: 0 % (entfernt)

Testaufbau:

Beide Modelle auf die letzten 6 Monate historischer Daten anwenden
Genauigkeitsmetriken vergleichen
Bestimmen, welches Modell besser vorhersagt

Ergebnisse:

Metrik	Aktuelles Modell	Neues Modell
Genauigkeit	78 %	84 %
Präzision	65 %	72 %
Recall	73 %	81 %
F1-Score	0,69	0,76

Entscheidung: Neues Modell performt besser über alle Metriken. Implementieren.

Shadow Mode-Testing:

Neues Modell parallel zum aktuellen laufen lassen
Noch nicht auf Basis neuer Modell-Scores handeln
Vorhersagen über 1–2 Monate mit tatsächlichen Ergebnissen vergleichen
Wenn neues Modell genauer ist, wechseln

Vorteile:

Verbesserungen vor dem Rollout validieren
Risiko einer Modellverschlechterung reduzieren
Datenbasierte Entscheidungsfindung
Vertrauen in Veränderungen aufbauen

Health Scores effektiv nutzen

CSM-Priorisierung und Fokus

Accounts nach Gesundheit priorisieren:

Tier 1: Kritisch (Score <40)

Sofortige Maßnahmen erforderlich
Tägliches Monitoring
Save-Pläne, Eskalation
Zeitallokation: 40 % der CSM-Zeit

Tier 2: Gefährdet (Score 40–60)

Proaktive Intervention
Wöchentliche Kontaktpunkte
Verbesserungsinitiativen
Zeitallokation: 30 % der CSM-Zeit

Tier 3: Moderat (Score 60–75)

Pflegen und verbessern
Zweiwöchentliche Kontaktpunkte
Standard-Kadenz
Zeitallokation: 20 % der CSM-Zeit

Tier 4: Gesund (Score 75+)

Pflegen und wachsen
Monatliche Kontaktpunkte
Expansionsgespräche
Zeitallokation: 10 % der CSM-Zeit

Dynamische Priorisierung: Täglich neu priorisieren, wenn sich Health Scores verändern. Ein Account, der von gesund auf gefährdet fällt, steigt sofort auf der Prioritätenliste nach oben.

Interventionen und Playbooks auslösen

Health Score-Schwellenwerte lösen Maßnahmen aus:

Score fällt unter 50:

Playbook: At-Risk-Intervention
Maßnahmen: Root-Cause-Analyse, Save-Plan, wöchentliche Check-ins, Eskalationspfad

Score fällt in 30 Tagen um 15+ Punkte:

Playbook: Rapid Decline Investigation
Maßnahmen: Notfall-CSM-Anruf, Ursache identifizieren, sofortige Intervention

Score verbessert sich auf 80+:

Playbook: Expansionsmöglichkeit
Maßnahmen: Expansionssignale identifizieren, Expansionsgespräch planen, Angebot erstellen

60 Tage bis Renewal + Score <70:

Playbook: Renewal-Risiko
Maßnahmen: Renewal-Vorbereitung, Value-Reporting, Stakeholder-Mapping, Verhandlungsstrategie

Automatisierte Playbook-Auslöser: Health Scores mit CS-Plattform integrieren, um automatisch Playbooks zu starten, wenn Schwellenwerte überschritten werden.

Executive Reporting

Monatliches Executive Dashboard:

Portfolio-Gesundheits-Zusammenfassung:

Gesamtkunden: 487
Gesund (75+): 312 (64 %)
Moderat (50–74): 130 (27 %)
Gefährdet (<50): 45 (9 %)
Gefährdeter ARR: 2,3 Mio. $

Trends:

Gesundheit verbessert sich: 78 Accounts (16 %)
Gesundheit verschlechtert sich: 52 Accounts (11 %)
Nettotrend: Positiv

Schwerpunktbereiche:

Top 10 gefährdete Accounts (nach ARR)
Accounts kurz vor dem Renewal
Erfolgsgeschichten von Interventionen

Maßnahmen:

Diesen Monat gerettete Kunden: 8 (450.000 $ ARR)
Expansionsmöglichkeiten: 15 (780.000 $ Potenzial)

Kundenorientierte Gesundheitsberichte

Gesundheitseinblicke mit Kunden teilen:

Was einbeziehen:

Nutzungsmetriken (aktive Nutzer, Feature Adoption)
Entwicklung über Zeit (Wachstum feiern)
Benchmarks (im Vergleich zu ähnlichen Unternehmen)
Empfehlungen (Verbesserungsbereiche)

Was weglassen:

Den tatsächlichen Gesundheits-„Score" oder „Note" (wirkt wertend)
„Gefährdet"- oder „Churn"-Sprache (negative Rahmung)
Interne Scoring-Methodik

Format:

Teil der QBR-Präsentation
Monatlicher E-Mail-Digest
Self-Service-Dashboard

Beispielhafte kundenorientierte Formulierung:

„Ihre Adoption ist dieses Quartal um 18 % gewachsen! Sie haben jetzt 78 aktive Nutzer und nutzen 6 von 8 Core-Features. Unternehmen auf Ihrem Adoptionsniveau berichten von 2,3-fachen Produktivitätssteigerungen.

Um noch mehr Mehrwert zu erzielen: - Reporting-Adoption auf Manager ausweiten (40 % Zeitersparnis) - Integrationen aktivieren (60 % Nutzungssteigerung) - Pilot mit dem Marketingteam (ähnlich wie [Kunde X])"

Ton: Positiv, hilfreich, kooperativ (nicht wertend oder strafend)

Über-Optimierung vermeiden

Vorsicht vor dem Goodhart'schen Gesetz: „Wenn eine Kennzahl zum Ziel wird, hört sie auf, eine gute Kennzahl zu sein." Anders gesagt: In dem Moment, in dem Sie beginnen, den Health Score selbst zu optimieren, hört er auf, nützlich zu sein.

Was schief gehen kann:

Metriken manipulieren:

CSMs beginnen, sich auf die Verbesserung von Scores zu konzentrieren statt auf tatsächlichen Customer Success
Sie optimieren für Metriken statt für Ergebnisse
Beispiel: Sie bringen Kunden dazu, sich häufiger einzuloggen (verbessert die Metrik), ohne ihnen wirklich zu helfen, Mehrwert zu erzielen (das Ergebnis, das zählt)

Falsche Sicherheit:

Hohe Scores machen Sie selbstgefällig
Sie übersehen wichtigen Kontext, den der Score nicht erfasst
Beispiel: Account hat einen Score von 85, aber der Executive Champion hat das Unternehmen gerade verlassen – Ihr Modell verfolgt das nicht

Tunnelblick:

Sie achten nur noch auf das, was gemessen wird
Wichtige qualitative Signale werden ignoriert
Beispiel: Kunde ist sichtlich frustriert, nutzt das Produkt aber weiter aus Notwendigkeit (Nutzung hoch, tatsächliches Sentiment schrecklich)

So vermeiden Sie diese Fallen:

Scores mit menschlichem Urteilsvermögen in Einklang bringen:

CSMs dürfen Scores überschreiben, wenn sie guten Grund haben
Regelmäßige qualitative Check-ins weiterführen
Dem Bauchgefühl des CSM vertrauen, wenn es dem Score widerspricht

Ergebnisse verfolgen, nicht nur Scores:

Was zählt, ist die Retention-Rate, nicht Health Scores
Kundenzufriedenheit messen, nicht nur Nutzungszahlen
Auf Wertrealisierung fokussieren, nicht nur auf Engagement-Aktivitäten

Mehrere Metriken nutzen:

Sich nicht auf einen einzigen Health Score für alles verlassen
Expansion, Advocacy und Zufriedenheit separat verfolgen
Ein ganzheitliches Bild von dem bekommen, was wirklich passiert

Modell regelmäßig überprüfen:

Sicherstellen, dass Scores tatsächliche Ergebnisse noch vorhersagen
Anpassen, wenn sich Kundenverhaltensmuster ändern
Neue Signale hinzufügen, wenn Lücken entdeckt werden

Das Fazit

Nicht alle Health Scores sind gleich. Der Unterschied zwischen einem guten Health Score und einem nutzlosen liegt in durchdachtem Design, kontinuierlicher Validierung und der Bereitschaft, ihn stetig weiterzuentwickeln.

Wenn Sie ein Health Score-Modell bauen, das wirklich funktioniert, erhalten Sie:

Churn-Vorhersage mit >80 % Genauigkeit (ja, das ist erreichbar)
4–6 Wochen Vorlaufzeit zum Eingreifen, bevor Kunden churnen
CSM-Zeit, die für Accounts aufgewendet wird, die sie wirklich brauchen
Datenbasierte Entscheidungen statt Bauchgefühl
Proaktiver Customer Success statt ständiger Reaktion auf Brände

Ein funktionierendes Health Score-Modell hat diese Komponenten:

Mehrdimensionales Scoring (Nutzung, Engagement, Beziehung, Sentiment – nicht nur eine Sache)
Datenbasierte Gewichtung (auf Basis dessen, was in Ihrem Unternehmen tatsächlich Retention vorhersagt)
Segmentspezifische Modelle (weil Enterprise- und SMB-Kunden sich völlig unterschiedlich verhalten)
Historisches Trending (Momentum ist genauso wichtig wie der aktuelle Score)
Kontinuierliche Validierung (Genauigkeit monatlich gegen tatsächliche Ergebnisse prüfen)
Regelmäßige Verfeinerung (Modell vierteljährlich aktualisieren, wenn Sie lernen, was funktioniert)

Fangen Sie einfach an, testen Sie gegen echte Ergebnisse und verbessern Sie kontinuierlich. Ihr Health Score-Modell ist nie „fertig" – es muss sich weiterentwickeln, wie Ihr Produkt, Ihre Kunden und Ihr Markt sich entwickeln.

Bauen Sie ein Modell, das Ergebnisse wirklich vorhersagt – nicht eines, das nur im Dashboard beeindruckend aussieht.

Bereit, Ihr Health Score-Modell zu bauen? Beginnen Sie mit Customer Health Monitoring, implementieren Sie Early Warning Systems und verfolgen Sie Retention-Metriken.

Mehr erfahren:

Tara Minh

Senior Operations & Growth Strategist

Post-Sale Management

Health Score Models: Effektive Customer Health Scoring-Modelle entwickeln

Health Score Fundamentals

Zweck und Anwendungsfälle

Arten von Health Scores

Score-Komponenten und Dimensionen

Gewichtung und Berechnungsmethoden

Score-Bereiche und Schwellenwerte festlegen

Ihr Health Score-Modell entwerfen

Zu prognostizierende Ergebnisse identifizieren

Health Score-Dimensionen auswählen

Dateneingaben und Metriken bestimmen

Gewichtungsmethodik festlegen

Datenbasierte Modellentwicklung

Historische Datenmuster analysieren

Korrelationsanalyse mit Ergebnissen

Prädiktive versus Vanity-Metriken identifizieren

Modelle testen und validieren

Iteration auf Basis von Ergebnissen

Score-Berechnungsmethoden

Einfacher gewichteter Durchschnitt

Rot/Gelb/Grün kategorisch

Punktebasiertes Scoring

Perzentil-Ranking

Machine Learning-Modelle

Modellsegmentierung

Segmentspezifische Modelle

Berücksichtigung der Customer Journey-Phasen

Wann universelle vs. segmentspezifische Modelle nutzen

Implementierung und Operationalisierung

Technologie und Infrastruktur

Datenpipeline und Automatisierung

Score-Aktualisierungsfrequenz

Historisches Trending und Veränderungen

Integration in Workflows

Modellvalidierung und -verfeinerung

Genauigkeitsmessung und -tracking

False-Positive/Negative-Analyse

Modelldrift-Erkennung

Regelmäßige Überprüfung und Aktualisierungen

A/B-Test von Modellvarianten

Health Scores effektiv nutzen

CSM-Priorisierung und Fokus

Interventionen und Playbooks auslösen

Executive Reporting

Kundenorientierte Gesundheitsberichte

Über-Optimierung vermeiden

Das Fazit

On this page