Post-Sale Management
Health Score Models: Effektive Customer Health Scoring-Modelle entwickeln

Ein SaaS-Unternehmen verfolgte die Kundengesundheit mit einem simplen Modell: Grün, wenn jemand diesen Monat eingeloggt war. Gelb, wenn nicht. Rot nach zwei Monaten ohne Login.
Das Problem: Die Churn-Rate lag bei 15 %, aber das Unternehmen prognostizierte nur 40 % der abgewanderten Kunden korrekt. Noch schlimmer: 30 % der als „grün" eingestuften Kunden churned trotzdem.
Der VP of Customer Success fragte: „Warum ist unser Health Score so schlecht darin, irgendetwas vorherzusagen?"
Sie analysierten die Daten und stellten fest:
- Die Login-Häufigkeit allein war im Grunde nutzlos für die Vorhersage von Kundenbindung
- Engagement-Qualität, Beziehungstiefe und tatsächliche Wertwahrnehmung wurden gar nicht gemessen
- Jedes Signal wurde gleich gewichtet, obwohl manche deutlich aussagekräftiger waren
- Abnehmende Trends wurden übersehen, weil nur der aktuelle Monat betrachtet wurde
- Ein Einheitsmodell bedeutete, dass Enterprise- und SMB-Kunden identisch bewertet wurden
Also bauten sie ihr Health Score-Modell von Grund auf neu:
- Mehrere Dimensionen: Nutzung, Engagement, Sentiment, Beziehung, Wert
- Gewichtetes Scoring auf Basis dessen, was tatsächlich Kundenbindung vorhersagt (Nutzung 35 %, Engagement 20 % usw.)
- Trending- und Momentum-Tracking – weil die Richtung genauso wichtig ist wie der Score selbst
- Unterschiedliche Modelle für verschiedene Segmente (Enterprise und SMB haben andere „gesunde" Baselines)
- Vierteljährliche Validierung gegen tatsächliche Erneuerungsergebnisse
Sechs Monate später:
- Sie prognostizierten 82 % der abgewanderten Kunden korrekt (vorher: 40 %)
- Falsch-positive Ergebnisse sanken um 60 % (deutlich weniger gesunde Accounts fälschlicherweise als gefährdet eingestuft)
- Die Interventionserfolgsrate stieg um 45 % (weil auf echte Signale reagiert wurde, nicht auf Rauschen)
- Sie identifizierten 25 Expansionsmöglichkeiten, die ihnen zuvor entgangen wären
Die Erkenntnis: Nicht alle Health Scores sind gleich. Ein wirklich funktionierendes Modell zu bauen erfordert durchdachtes Design, kontinuierliche Validierung und die Bereitschaft, es stetig weiterzuentwickeln.
Health Score Fundamentals
Zweck und Anwendungsfälle
Was Health Scores wirklich leisten: Ein Customer Health Score quantifiziert die Wahrscheinlichkeit, dass ein Kunde seine Ziele erreicht, langfristig bleibt und die Beziehung zu Ihnen ausbaut. Das ist die Theorie. In der Praxis ist er Ihre Antwort auf die Frage: „Sollte ich mir bei diesem Account Sorgen machen?"
So werden Health Scores tatsächlich eingesetzt:
CSM-Priorisierung:
- Bei welchen Accounts muss ich alles stehen und liegen lassen und sofort anrufen?
- Wo sollte ich heute meine begrenzte Zeit investieren?
- Welche Accounts kommen mit einem Quartalsgespräch aus?
Risikomanagement:
- Welche Kunden könnten churnen, wenn ich nichts unternehme?
- Wie ernst ist die Lage – gelbe oder rote Warnstufe?
- Muss ich diese Woche eingreifen oder kann es noch warten?
Identifikation von Chancen:
- Welche Accounts sind bereit für ein Expansionsgespräch?
- Wo kann ich tiefere Nutzung anstoßen, ohne aufdringlich zu wirken?
- Wer ist zufrieden genug, um als Referenzkunde aufzutreten?
Forecasting:
- Wie entwickelt sich unsere Retention-Rate im nächsten Quartal?
- Wie viel Umsatz könnte verloren gehen?
- Was steckt realistisch in unserer Expansions-Pipeline?
Executive Reporting:
- Gesamtgesundheit des Portfolios (das Dashboard, das Führungskräfte tatsächlich ansehen)
- Monatliche Trendentwicklung
- Ob Initiativen wirken oder wir nur beschäftigt sind
Arten von Health Scores
Es gibt drei grundlegende Varianten von Health Scores, die in ihrer Komplexität aufeinander aufbauen.
Deskriptive Health Scores: Diese zeigen den aktuellen Stand. „Dieser Kunde ist gesund" oder „dieser ist gefährdet." Sie betrachten aktuelles Verhalten und gegenwärtige Kennzahlen. Damit fangen die meisten Unternehmen an – und viele bleiben auch dabei.
Beispiel: Account XYZ hat 75 % aktive Nutzer, hat am letzten QBR teilgenommen und einen NPS von 8 gegeben. Health Score: 78 (Gesund). Einfacher Snapshot des aktuellen Zustands.
Prädiktive Health Scores: Diese versuchen vorherzusagen, wohin es geht. „Dieser Kunde wird wahrscheinlich in 90 Tagen churnen, basierend auf der aktuellen Entwicklung." Sie analysieren Muster und Trends über Zeit. Dafür brauchen Sie ausreichend historische Daten.
Beispiel: Die Nutzung von Account XYZ sinkt monatlich um 30 %. Aktuell liegt er bei einem moderaten Score von 65 – aber wenn Sie die Zahlen durchrechnen, wird er in 90 Tagen bei 42 (Gefährdet) angelangt sein. Die Erkenntnis: Jetzt eingreifen, solange die Beziehung noch trägt, und nicht erst wenn der Kunde bereits mit einem Bein draußen ist.
Präskriptive Health Scores: Diese sagen Ihnen, was zu tun ist. „Dieser Kunde braucht Re-Onboarding, hier ist das Playbook." Sie vergleichen Muster aus ähnlichen Accounts und empfehlen konkrete Maßnahmen. Das ist der ausgefeilteste Ansatz und erfordert in der Regel Machine Learning oder ein starkes Data-Science-Team.
Beispiel: Account XYZ hat einen Health Score von 58. Das System erkennt, dass Accounts mit ähnlichen Mustern nach einer gezielten Feature-Adoption-Kampagne um 12–15 Punkte zugelegt haben. Empfohlene Maßnahme: Dasselbe Playbook für diesen Account starten.
Welchen sollten Sie aufbauen? Beginnen Sie mit dem deskriptiven – er ist Ihr Fundament. Fügen Sie Prädiktives hinzu, sobald Sie genug historische Daten haben, um Muster zu erkennen. Bauen Sie Präskriptives nur, wenn Sie die Data-Science-Ressourcen und genug Accounts haben, damit die Muster aussagekräftig werden.
Score-Komponenten und Dimensionen
Hier sind die Dimensionen, die die meisten Unternehmen verfolgen, grob geordnet nach ihrer Bedeutung:
1. Produktnutzung und Adoption (30–40 % Gewichtung)
- Aktive Nutzer (Rohzahl und Prozentsatz der bezahlten Lizenzen)
- Login-Häufigkeit
- Feature-Breite (wie viele Features tatsächlich genutzt werden)
- Feature-Tiefe (Power-User oder nur oberflächliche Nutzung?)
- Nutzungstrend (wachsend, konstant oder sinkend)
Warum das wichtig ist: Nutzung sagt Kundenbindung besser voraus als alles andere. Kunden, die Ihr Produkt nutzen, bleiben. Kunden, die es nicht nutzen, sind bereits halb raus.
2. Engagement und Aktivität (15–25 % Gewichtung)
- Wie oft Ihr CSM mit ihnen spricht
- Ob sie an QBRs teilnehmen
- Training- und Webinar-Teilnahme
- Community-Beteiligung
- E-Mail-Engagement (Öffnungen, Klicks, Antworten)
- Wie schnell sie reagieren, wenn Sie sich melden
Warum das wichtig ist: Engagierte Kunden haben Zeit und Energie in die Beziehung investiert. Desengagierte Kunden sind eine wettbewerbsfähige E-Mail vom Wechsel entfernt.
3. Beziehung und Sentiment (15–25 % Gewichtung)
- Gibt es einen Executive Sponsor?
- Ist ein Champion identifiziert, und ist dieser noch aktiv?
- NPS- und CSAT-Werte
- Feedback-Sentiment (zufrieden oder frustriert?)
- Beziehungsstärke (das Bauchgefühl des CSM, quantifiziert)
- Stakeholder-Abdeckung (wie viele Personen kennen Sie dort?)
Warum das wichtig ist: Starke Beziehungen überstehen Produktfehler und Preiserhöhungen. Schwache Beziehungen überstehen kaum etwas.
4. Support und Problemlösung (10–15 % Gewichtung)
- Support-Ticket-Volumen
- Schweregrad der Probleme (P1-Notfälle gegenüber Kleinigkeiten)
- Wie lange Probleme zur Lösung brauchen
- Support-Zufriedenheitsbewertungen
- Eskalationen
Warum das wichtig ist: Viele schwerwiegende Tickets bedeuten entweder, das Produkt passt nicht oder es gibt Qualitätsprobleme. Eine saubere Support-Historie bedeutet meist ruhiges Fahrwasser.
5. Business-Outcomes und Wert (10–20 % Gewichtung)
- Erreichte Ziele (die im Verkaufsprozess genannten)
- Nachgewiesener ROI (können sie auf konkreten Impact verweisen?)
- Erweiterte Use Cases (begann mit Vertrieb, jetzt nutzt auch Marketing)
- Erreichte Value Milestones
- Geschäftliche KPIs, die sie wirklich interessieren
Warum das wichtig ist: Kunden, die klaren Mehrwert sehen, verlängern. Kunden, die keinen ROI artikulieren können, sind beim Renewal anfällig.
6. Finanzielles und Vertragliches (5–10 % Gewichtung)
- Zahlungsverhalten (pünktlich oder regelmäßig zu spät)
- Vertragsstatus
- Expansionshistorie
- Budget-Signale (gab es gerade eine Entlassungswelle?)
Warum das wichtig ist: Späte Zahlungen kündigen oft Churn an. Vergangene Expansion signalisiert in der Regel Zufriedenheit.
Gewichtung und Berechnungsmethoden
Wie Sie die richtigen Gewichtungen bestimmen:
Raten Sie nicht einfach. So gehen Sie es richtig an:
Schritt 1: Historische Daten analysieren Führen Sie eine Korrelationsanalyse zwischen jeder Dimension und der tatsächlichen Kundenbindung durch. Das zeigt Ihnen, was wirklich vorhersagt, ob Kunden bleiben.
Beispielanalyse:
- Korrelation der Nutzungsdimension mit Retention: 0,72 (starker Prädiktor)
- Korrelation der Engagement-Dimension: 0,48 (moderater Prädiktor)
- Korrelation der Sentiment-Dimension: 0,35 (schwacher bis moderater Prädiktor)
- Korrelation der Finanzdimension: 0,18 (schwacher Prädiktor)
Schritt 2: Gewichtung nach Vorhersagekraft Geben Sie den Dimensionen die höchste Gewichtung, die Kundenbindung tatsächlich vorhersagen. Behandeln Sie nicht alles gleich, nur weil es fair wirkt.
Beispielgewichtung:
- Nutzung: 35 % (stärkster Prädiktor erhält das höchste Gewicht)
- Engagement: 25 %
- Wert: 20 %
- Beziehung: 15 %
- Finanziell: 5 % (schwacher Prädiktor erhält minimale Gewichtung)
Schritt 3: Testen und anpassen Führen Sie Ihr gewichtetes Modell gegen historische Ergebnisse aus. Wenn es nicht genau genug ist, anpassen und erneut testen. Das ist keine einmalige Übung.
Berechnungsbeispiel:
| Dimension | Gewichtung | Rohwert (0–100) | Gewichteter Wert |
|---|---|---|---|
| Nutzung | 35 % | 80 | 28,0 |
| Engagement | 25 % | 70 | 17,5 |
| Wert | 20 % | 75 | 15,0 |
| Beziehung | 15 % | 60 | 9,0 |
| Finanziell | 5 % | 90 | 4,5 |
| Gesamt | 100 % | — | 74,0 |
Endgültiger Health Score: 74 (Moderat)
Score-Bereiche und Schwellenwerte festlegen
Standard Health Score-Bereiche:
Gesund (75–100):
- Starke Nutzung und Engagement
- Positives Sentiment
- Retention sieht solide aus
- Wahrscheinlich bereit für Expansionsgespräche
- Was zu tun ist: Beziehung warm halten, Expansionsmöglichkeiten suchen, nach Empfehlungen fragen
Moderat (50–74):
- Akzeptabel, aber verbesserungswürdig
- Einige Lücken in Nutzung oder Engagement, die Aufmerksamkeit brauchen
- Wird wahrscheinlich verlängern, aber nicht sicher
- Was zu tun ist: Proaktive Verbesserungsinitiativen starten, konkrete Lücken schließen
Gefährdet (25–49):
- Geringe oder sinkende Nutzung
- Schwaches Engagement oder schwache Beziehung
- Retention ist hier ernsthaft bedroht
- Was zu tun ist: Alles stehen und liegen lassen, jetzt eingreifen, Save-Plan erstellen, bei Bedarf eskalieren
Kritisch (0–24):
- Kaum Nutzung oder vollständige Inaktivität
- Null Engagement
- Wird wahrscheinlich churnen, außer Sie vollbringen ein Wunder
- Was zu tun ist: Executive-Eskalation, alle Kräfte bündeln
Unterschiedliche Segmente brauchen unterschiedliche Schwellenwerte:
Nicht alle Kunden sind gleich. Was für einen Enterprise-Kunden „gesund" ist, könnte bei einem SMB-Kunden besorgniserregend sein.
Enterprise-Kunden:
- Gesund: 70+ (komplexe Produkte brauchen lange für den Rollout)
- Gefährdet: <50
- Warum: Enterprise-Kunden haben lange Adoption-Kurven. Geringe Nutzung in der Anfangsphase bedeutet nicht Unzufriedenheit – es bedeutet, dass noch fünf Abteilungen einen Workflow abstimmen müssen.
SMB-Kunden:
- Gesund: 80+ (einfachere Produkte, schnellere Adoption)
- Gefährdet: <60
- Warum: SMB-Kunden sollten schnell einsatzbereit sein. Wenn nicht, stimmt etwas nicht.
Ihre Schwellenwerte sollten Ihre tatsächlichen Daten und das Verhalten verschiedener Segmente widerspiegeln.
Ihr Health Score-Modell entwerfen
Zu prognostizierende Ergebnisse identifizieren
Beginnen Sie mit dem Wesentlichen: Retention
- Wird dieser Kunde tatsächlich verlängern?
- Zu welchem Vertragswert?
- Wie hoch wird die Renewal-Rate sein?
Dann sekundäre Ergebnisse hinzufügen:
Churn-Risiko:
- Werden sie in den nächsten 90 Tagen churnen?
- Welche Art von Churn? (Haben sie sich aktiv entschieden zu gehen, oder haben sie schlicht vergessen zu zahlen?)
Expansion:
- Werden sie expandieren?
- Um wie viel?
- Wann ist der richtige Zeitpunkt für dieses Gespräch?
Advocacy:
- Werden sie Referenzkunde?
- Könnten sie andere Kunden empfehlen?
- Werden sie ein Testimonial für Ihre Website hinterlassen?
Fangen Sie einfach an: Konzentrieren Sie sich auf die Vorhersage von Retention versus Churn. Das ist das Entscheidende. Expansion und Advocacy-Vorhersage können Sie später hinzufügen, sobald Ihr Retention-Modell wirklich funktioniert.
Health Score-Dimensionen auswählen
So wählen Sie die richtigen Dimensionen:
Schritt 1: Alle denkbaren Signale brainstormen
- Produktnutzungs-Metriken
- Engagement-Indikatoren
- Beziehungsindikatoren
- Finanzsignale
- Support-Ticket-Muster
- Sentiment-Daten
- Externe Signale (wachsen sie? Wurden sie gerade finanziert? Gibt es Entlassungen?)
Schritt 2: Herausfinden, was tatsächlich messbar ist Seien Sie ehrlich über Ihre Datenlage:
- Sind diese Daten aktuell verfügbar?
- Können Sie sie integrieren, ohne ein halbjähriges Engineering-Projekt?
- Ist die Datenqualität gut genug, um ihr zu vertrauen?
Schritt 3: Testen, was Retention tatsächlich vorhersagt Korrelationsanalyse mit tatsächlichen Ergebnissen durchführen:
- Hohe Korrelation (>0,5): Einbeziehen
- Moderate Korrelation (0,3–0,5): Erwägen
- Geringe Korrelation (<0,3): Wahrscheinlich weglassen, außer es gibt strategische Gründe
Schritt 4: Nicht übertreiben
- Zu wenige Dimensionen: Wichtige Signale werden übersehen
- Zu viele Dimensionen: Überwältigende Komplexität und Wartungsaufwand
- Optimaler Bereich: 4–6 Dimensionen
Mit diesen vier anfangen:
- Nutzung (immer einbeziehen – mit Abstand der stärkste Prädiktor)
- Engagement (wie sehr sie in die Beziehung investiert sind)
- Sentiment (NPS, CSAT, wie sie sich fühlen)
- Beziehung (gibt es einen Executive Sponsor? Einen aktiven Champion?)
Weitere ergänzen, wenn Ihre Daten und Systeme reifen: Wertrealisierung, Support-Qualität, finanzielle Gesundheit.
Dateneingaben und Metriken bestimmen
Für jede Dimension konkrete Metriken definieren:
Eingaben der Nutzungsdimension:
- % der Lizenzen mit aktiven Nutzern (letzte 30 Tage)
- Durchschnittliche Logins pro Nutzer pro Woche
- Anzahl genutzter Core-Features (Breite)
- Nutzungstiefe innerhalb wichtiger Features
- Nutzungstrend (monatliche prozentuale Veränderung)
Eingaben der Engagement-Dimension:
- CSM-Kontaktpunkte pro Quartal
- QBR-Teilnahme (J/N)
- Besuchte Trainings
- E-Mail-Öffnungs- und Klickraten
- Community-Beiträge oder -Beteiligung
Eingaben der Sentiment-Dimension:
- Neuester NPS-Wert
- Support-CSAT-Durchschnitt (letzte 3 Monate)
- Qualitatives Feedback-Sentiment
- CSM-Beziehungsbewertung (Skala 1–5)
Eingaben der Beziehungsdimension:
- Executive Sponsor identifiziert (J/N)
- Champion aktiv (J/N)
- Anzahl der Kontakte im CRM
- Anzahl der Abteilungen, die das Produkt nutzen
- Beziehungstiefe-Score (CSM-Einschätzung)
Eingaben der Finanzdimension:
- Zahlungsstatus (aktuell, verspätet, überfällig)
- Expansion in den letzten 12 Monaten (J/N)
- Vertragswert (ARR)
Datenquellen-Mapping: Dokumentieren Sie, woher jede Metrik kommt:
- Produktanalyse-Plattform
- CRM-System
- Support-Ticketing-System
- Umfrage-Tools
- Abrechnungssystem
Gewichtungsmethodik festlegen
Datenbasierte Gewichtungszuweisung:
Methode 1: Korrelationsanalyse
- Korrelationskoeffizient zwischen jeder Dimension und Retention berechnen
- Gewichtungen proportional zur Korrelationsstärke zuweisen
Beispiel:
- Nutzungskorrelation: 0,70 → Gewichtung: 35 %
- Engagement-Korrelation: 0,50 → Gewichtung: 25 %
- Sentiment-Korrelation: 0,40 → Gewichtung: 20 %
- Beziehungskorrelation: 0,30 → Gewichtung: 15 %
- Finanzkorrelation: 0,10 → Gewichtung: 5 %
Methode 2: Regressionsanalyse
- Logistische Regression mit Churn als Ergebnis durchführen
- Koeffizientenwerte zur Gewichtungsfindung nutzen
- Ausgefeilter als einfache Korrelation
Methode 3: Expertenurteil (bei begrenzten Daten)
- CSM-Team nach Vorhersagekraft jeder Dimension befragen
- Auf Basis von Konsens gewichten
- Gegen Ergebnisse validieren, sobald Daten vorliegen
Methode 4: Gleiche Gewichtung (Ausgangspunkt)
- Alle Dimensionen gleich gewichtet
- Basierend auf Performance anpassen
- Schnell zu implementieren, aber weniger genau
Best Practice: Mit Korrelationsanalyse beginnen (wenn Daten vorhanden) oder Expertenurteil nutzen. Gewichtungen vierteljährlich auf Basis der Prognosegenauigkeit verfeinern.
Datenbasierte Modellentwicklung
Historische Datenmuster analysieren
Schritte der historischen Analyse:
Schritt 1: Retention-Daten sammeln
- Kundendaten der letzten 12–24 Monate
- Renewal-Ergebnisse (verlängert vs. abgewandert)
- Finale Health Scores vor der Verlängerung
- Dimensionswerte
Schritt 2: Segmentanalyse
- Retention-Rate nach Health Score-Bereich
- Retention-Rate nach Dimensionswert
- Segmentspezifische Muster (Enterprise vs. SMB)
Beispielanalyse:
| Health Score-Bereich | Retention-Rate | Stichprobengröße |
|---|---|---|
| 90–100 | 98 % | 45 |
| 80–89 | 95 % | 112 |
| 70–79 | 88 % | 134 |
| 60–69 | 75 % | 87 |
| 50–59 | 58 % | 56 |
| <50 | 35 % | 41 |
Erkenntnis: Klarer Schwellenwert bei 60, ab dem die Retention deutlich abfällt.
Schritt 3: Muster identifizieren
- Welche abgewanderten Kunden hatten hohe Scores? (Falsch-Negative)
- Welche verlängernden Kunden hatten niedrige Scores? (Falsch-Positive)
- Welche Signale haben wir übersehen?
Schritt 4: Modell verfeinern
- Gewichtungen anpassen
- Fehlende Dimensionen hinzufügen
- Schwellenwerte neu kalibrieren
Korrelationsanalyse mit Ergebnissen
Korrelationsanalyse durchführen:
Für jede Dimension: Korrelationskoeffizient mit Retention berechnen (0 bis 1, höher = stärkere Beziehung)
Beispielergebnisse:
- Korrelation des Nutzungs-Scores mit Retention: 0,72
- Korrelation des Engagement-Scores: 0,48
- Korrelation des Sentiment-Scores: 0,35
- Korrelation des Beziehungs-Scores: 0,52
- Korrelation des Finanz-Scores: 0,21
Interpretation:
- Starke Prädiktoren (>0,6): Nutzung
- Moderate Prädiktoren (0,4–0,6): Engagement, Beziehung
- Schwache Prädiktoren (<0,4): Sentiment, Finanziell
Maßnahmen:
- Gewichtung für starke Prädiktoren erhöhen (Nutzung)
- Moderate Gewichtungen für moderate Prädiktoren beibehalten
- Gewichtung schwacher Prädiktoren reduzieren oder entfernen (außer strategischem Wert)
Multivariate Analyse: Manche Dimensionen können in Kombination prädiktiv sein, aber nicht einzeln. Kombinationen testen:
- Geringe Nutzung + geringes Engagement = sehr hohes Churn-Risiko
- Geringe Nutzung + hohes Engagement = Re-Onboarding-Möglichkeit
Prädiktive versus Vanity-Metriken identifizieren
Prädiktive Metriken: Diese sagen tatsächlich vorher, was passieren wird. Wenn sich diese Zahlen bewegen, bewegt sich auch die Retention.
Beispiele:
- Prozentsatz aktiver Nutzer (echter Prädiktor für Retention)
- Login-Häufigkeit (Nutzer, die regelmäßig einloggen, bleiben)
- QBR-Teilnahme (engagierte Kunden erscheinen)
- Feature-Adoption-Tiefe (Power-User churnen nicht)
Vanity-Metriken: Diese sehen gut in einem Dashboard aus, sagen aber wenig über Retention aus. Sie mögen mit Gesundheit korrelieren, verursachen sie aber nicht.
Beispiele:
- Gesamtzahl registrierter Nutzer (bedeutungslos, wenn sie nicht aktiv sind)
- Gesamt gespeicherte Daten (außer Speicher treibt für Ihr Produkt echten Wert)
- Produktseitenaufrufe (Browsen ist nicht dasselbe wie Nutzen)
- Gesendete E-Mails (E-Mails zu senden bedeutet nichts, wenn niemand sie öffnet)
Wie Sie den Unterschied erkennen:
Test 1: Korreliert es mit Retention? Rechnen Sie nach. Wenn sich die Metrik bewegt, aber die Retention nicht, ist es Vanity.
- Korreliert → Potenziell prädiktiv
- Korreliert nicht → Wahrscheinlich Vanity
Test 2: Verbessert seine Steigerung tatsächlich die Retention? Das ist der Kausalitätstest.
- Ja → Prädiktiv
- Nein → Vanity
Test 3: Ändert es sich vor oder nach dem Churn? Timing ist entscheidend.
- Ändert sich vor dem Churn → Leading Indicator (nützlich!)
- Ändert sich nach dem Churn → Lagging Indicator (zu spät zum Helfen)
Bauen Sie Ihren Health Score auf prädiktive, führende Indikatoren auf. Die Vanity-Metriken gehören in Ihre Marketing-Präsentationen.
Modelle testen und validieren
So validieren Sie Ihr Modell:
Schritt 1: Gegen historische Daten testen
- Führen Sie Ihr Health Score-Modell auf vergangenen Kundendaten aus
- Vergleichen Sie Vorhersagen des Modells mit dem, was tatsächlich passiert ist
- Berechnen Sie Ihre Genauigkeitsmetriken
Schritt 2: Genauigkeit messen
True Positive Rate (Haben Sie die abwandernden Kunden identifiziert?): Von den Kunden, die tatsächlich gechurnt sind: Wie viele haben Sie als gefährdet markiert?
- Formel: True Positives / (True Positives + False Negatives)
- Ziel: >75 %
True Negative Rate (Haben Sie die gesunden Kunden korrekt erkannt?): Von den Kunden, die verlängert haben: Wie viele haben Sie korrekt als gesund markiert?
- Formel: True Negatives / (True Negatives + False Positives)
- Ziel: >85 %
Gesamtgenauigkeit: Von allen Prognosen: Wie viele waren richtig?
- Formel: (True Positives + True Negatives) / Gesamtkunden
- Ziel: >80 %
Schritt 3: Herausfinden, warum Sie falsch lagen
False Positives (als gefährdet markiert, aber verlängert):
- Warum dachte das Modell, sie seien gefährdet? (Geringe Nutzung)
- Warum haben sie dennoch verlängert? (Sahen noch Mehrwert, Executive Champion)
- Erkenntnis: Executive Sponsor-Dimension hinzufügen, Beziehungsgewicht erhöhen
False Negatives (als gesund markiert, aber abgewandert):
- Welche Signale wurden vollständig übersehen? (Neuer Wettbewerber, Budgetkürzung)
- Welche Dimension sollte das erfassen? (Wettbewerbs-Intelligence, Finanziell)
- Erkenntnis: Wettbewerbsmonitoring hinzufügen, Gewicht bei Stakeholder-Änderungen erhöhen
Schritt 4: Modell verbessern
- Gewichtungen auf Basis der Erkenntnisse anpassen
- Fehlende Dimensionen hinzufügen
- Schwellenwerte neu kalibrieren
- Erneut gegen historische Daten testen
Schritt 5: Weiter beobachten
- Genauigkeit im Live-Betrieb verfolgen
- Vorhersagen monatlich mit tatsächlichen Renewal-Ergebnissen vergleichen
- Vierteljährlich weiter verfeinern
Iteration auf Basis von Ergebnissen
Kontinuierlicher Verbesserungszyklus:
Monatliche Überprüfung:
- Welche als gefährdet eingestuften Accounts sind tatsächlich abgewandert?
- Gab es gesunde Accounts, die dennoch abgewandert sind? (Fehleinschätzungen)
- Falsch-positive Rate (als gefährdet markierte Accounts, die verlängert haben)
- CSM-Feedback zur Score-Genauigkeit
Vierteljährliche Verfeinerung:
- Vollständige Modellvalidierung
- Gewichtungsanpassungen
- Schwellenwert-Neukalibrierung
- Dimensionen hinzufügen/entfernen
Jährliche Überarbeitung:
- Umfangreiche Modellüberarbeitung bei Bedarf
- Neue Datenquellen einbeziehen
- Neue Methoden adoptieren (ML usw.)
Beispiel-Iteration:
Quartal 1:
- Modellgenauigkeit: 73 %
- False-Negative-Rate: 32 % (zu viele gesunde Kunden abgewandert)
- Analyse: Nutzungsdimension nicht stark genug gewichtet
- Maßnahme: Nutzungsgewicht von 30 % auf 40 % erhöhen
Quartal 2:
- Modellgenauigkeit: 79 %
- False-Negative-Rate: 24 %
- Verbesserung: Mehr gefährdete Kunden erkannt
- Neues Problem: Falsch-positive erhöht
- Maßnahme: Gefährdet-Schwellenwert von <60 auf <55 anpassen
Quartal 3:
- Modellgenauigkeit: 84 %
- Ausgewogene Falsch-Positive und Falsch-Negative
- CSM-Feedback: Scores wirken genau
- Maßnahme: Aktuelles Modell beibehalten, Monitoring fortsetzen
Score-Berechnungsmethoden
Einfacher gewichteter Durchschnitt
Das nutzen die meisten Unternehmen: Scores für jede Dimension berechnen, Gewichtungen anwenden, addieren. Fertig.
So funktioniert es:
Schritt 1: Jede Dimension bewerten (0–100)
- Nutzung: 75 (basierend auf aktiven Nutzern, Login-Häufigkeit, genutzten Features)
- Engagement: 80 (Kontaktpunkte, QBR-Teilnahme, Trainingsteilnahme)
- Sentiment: 70 (NPS, CSAT-Werte)
- Beziehung: 60 (es gibt einen Champion, aber noch keinen Executive Sponsor)
Schritt 2: Gewichtungen anwenden
- Nutzung: 75 × 0,40 = 30,0
- Engagement: 80 × 0,25 = 20,0
- Sentiment: 70 × 0,20 = 14,0
- Beziehung: 60 × 0,15 = 9,0
Schritt 3: Addieren Gesamt-Health-Score = 30,0 + 20,0 + 14,0 + 9,0 = 73
Warum das funktioniert:
- Einfach genug, damit jeder es versteht
- Leicht gegenüber Stakeholdern zu erklären
- Der Beitrag jeder Dimension ist klar sichtbar
- Flexibel – Gewichtungen lassen sich leicht anpassen
Die Nachteile:
- Linear, erfasst also keine komplexen Wechselwirkungen zwischen Dimensionen
- Benötigt Daten für alle Dimensionen, sonst stimmt die Rechnung nicht
Rot/Gelb/Grün kategorisch
Der Ampel-Ansatz: Statt einer numerischen Bewertung einfach eine Farbe zuweisen. So einfach ist das.
So funktioniert es:
- Definieren, was für jede Farbe qualifiziert
- Prüfen, wo der Account einzuordnen ist
- Farbe zuweisen
Beispielkriterien:
Grün (Gesund):
- ≥70 % Lizenzen aktiv UND
- Am letzten QBR teilgenommen UND
- NPS ≥7 UND
- Executive Sponsor ist aktiv
Gelb (Moderat):
- 50–69 % Lizenzen aktiv ODER
- Letztes QBR verpasst ODER
- NPS 5–6 ODER
- Kein Executive Sponsor
Rot (Gefährdet):
- <50 % Lizenzen aktiv ODER
- Keine Kontaktpunkte in 60 Tagen ODER
- NPS <5 ODER
- Mehrere offene P1-Support-Tickets
Warum das funktioniert:
- Extrem einfach
- Klare Handlungskategorien (Grün = pflegen, Gelb = verbessern, Rot = retten)
- Nichttechnische Stakeholder verstehen es sofort
Die Nachteile:
- Nicht sehr differenziert – nur 3 Zustände
- Schwer zu priorisieren, wenn 50 gelbe Accounts vorliegen
- Kein Trending sichtbar (verbessert oder verschlechtert sich)
- Die Schwellenwerte sind willkürlich (70 % Nutzung = Grün, 69 % = Gelb – wirklich?)
Nutzen Sie das, wenn: Sie ein kleines Team, ein einfaches Produkt haben oder gerade erst mit dem Gesundheitsmonitoring beginnen.
Punktebasiertes Scoring
Methode: Für bestimmte Verhaltensweisen oder Eigenschaften Punkte vergeben. Punkte summieren zum Gesamtscore.
Beispiel:
| Kriterium | Punkte |
|---|---|
| ≥80 % Lizenzauslastung | 20 |
| 60–79 % Lizenzauslastung | 15 |
| <60 % Lizenzauslastung | 5 |
| Am letzten QBR teilgenommen | 15 |
| Executive Sponsor identifiziert | 15 |
| Champion aktiv | 10 |
| NPS 9–10 | 15 |
| NPS 7–8 | 10 |
| NPS 0–6 | 0 |
| Keine Support-Tickets | 10 |
| Feature Adoption ≥70 % | 10 |
| Maximal mögliche Punkte | 100 |
Kunde A:
- 75 % Auslastung: 15 Punkte
- Am QBR teilgenommen: 15 Punkte
- Hat Executive Sponsor: 15 Punkte
- Kein Champion: 0 Punkte
- NPS 8: 10 Punkte
- 2 Support-Tickets: 0 Punkte
- 80 % Feature Adoption: 10 Punkte
- Gesamt: 65 Punkte (Moderat)
Vorteile:
- Einfach aufzubauen und anzupassen
- Klare Punktevergabe
- Flexibel (Kriterien leicht hinzufügen/entfernen)
Nachteile:
- Kann komplex werden (zu viele Kriterien)
- Punktwerte etwas willkürlich
- Spiegelt möglicherweise keine echten prädiktiven Gewichtungen wider
Perzentil-Ranking
Methode: Accounts relativ zueinander einordnen, Health Score basierend auf Perzentil vergeben.
Beispiel:
- Top 20 % der Accounts: 90–100 (Gesund)
- 20–50 %: 70–89 (Gut)
- 50–80 %: 50–69 (Moderat)
- Untere 20 %: 0–49 (Gefährdet)
Vorteile:
- Relativer Vergleich (zeigt, wo der Account im Verhältnis zu Vergleichsgruppen steht)
- Passt sich automatisch an, wenn das Portfolio besser wird
- Nützlich für Benchmarking
Nachteile:
- Score hängt von der Kohorte ab (gleiches Verhalten = anderer Score in anderen Kohorten)
- Die untersten 20 % sind immer „gefährdet", selbst wenn alle Accounts gesund sind
- Kein absolutes Maß
Am besten für: Reife Portfolios mit großen Kundenstämmen, Benchmarking, Priorisierung.
Machine Learning-Modelle
Der fortgeschrittene (und komplizierte) Ansatz: ML-Algorithmen verwenden, um Churn-Wahrscheinlichkeit auf Basis historischer Muster vorherzusagen. Das ist die ausgefeilte Option.
Gängige Algorithmen:
- Logistische Regression (sagt Churn-Wahrscheinlichkeit von 0 bis 1 voraus)
- Random Forest (Ensemble aus Entscheidungsbäumen)
- Gradient Boosting (XGBoost, LightGBM)
- Neuronale Netze (bei sehr großen Datensätzen)
So funktioniert es:
- Eingabe: Alle Kundendaten (Nutzung, Engagement, alles)
- Das Modell trainiert sich auf historischen Churn-Daten
- Ausgabe: Churn-Wahrscheinlichkeit (0–100 %)
- Ihr Health Score = 100 – Churn-Wahrscheinlichkeit
Warum das großartig sein kann:
- Genaueste Methode (wenn genug Daten vorhanden)
- Erfasst komplexe Wechselwirkungen zwischen Dimensionen
- Findet Muster, die Menschen nie entdecken würden
- Wird mit mehr Daten immer besser
Warum das zum Albtraum werden kann:
- Erfordert ernsthaftes Data-Science-Know-how
- Benötigt massive historische Daten (denken Sie: 1.000+ Kunden, mindestens 2 Jahre)
- „Black Box"-Problem – schwer zu erklären, warum ein Score so ist wie er ist
- Infrastruktur- und Wartungskosten summieren sich schnell
Nutzen Sie das, wenn: Sie ein großes SaaS-Unternehmen mit einem Datenteam und reifen Datensätzen sind. Wenn Sie noch dabei sind, Ihr grundlegendes Health Scoring zu klären, überspringen Sie das vorerst.
Modellsegmentierung
Segmentspezifische Modelle
Warum segmentieren: Unterschiedliche Kundensegmente haben unterschiedliche Verhaltensweisen, Adoption-Muster und Gesundheitsprofile.
Gängige Segmentierungsansätze:
Nach Unternehmensgröße:
- Enterprise (1.000+ Mitarbeiter)
- Mid-Market (100–999)
- SMB (<100)
Unterschiede:
- Enterprise: Langsamere Adoption, komplexe Implementierungen, längere Vertriebszyklen
- SMB: Schnelle Adoption, einfachere Nutzung, höhere Churn-Raten
Nach Produkt oder Plan:
- Starter/Basic-Tier
- Professional-Tier
- Enterprise-Tier
Unterschiede:
- Enterprise-Pläne: Mehr Features, höheres Engagement erwartet
- Starter-Pläne: Begrenzte Features, geringeres Engagement trotzdem gesund
Nach Branche:
- Gesundheitswesen
- Finanzdienstleistungen
- Technologie
- Fertigung
Unterschiede:
- Branchenspezifische Nutzungsmuster
- Regulatorische Anforderungen beeinflussen Engagement
- Unterschiedliche Value Drivers
Nach Use Case:
- Vertriebsteams
- Marketingteams
- Engineering-Teams
Unterschiede:
- Unterschiedliche Feature-Nutzung
- Unterschiedliche Adoption-Kurven
- Unterschiedliche Erfolgskennzahlen
Berücksichtigung der Customer Journey-Phasen
Health Score nach Customer Lifecycle-Phase:
Onboarding (0–90 Tage):
- Geringere Basis-Nutzung erwartet (noch im Hochlauf)
- Fokus auf Aktivierungs-Milestones
- Engagement wichtiger als Nutzung
- Schwellenwert: Moderat = 40+, Gesund = 60+
Adoption (90 Tage – 12 Monate):
- Nutzung nimmt zu
- Feature-Breite erweitert sich
- Standardmäßige Health-Schwellenwerte gelten
- Schwellenwert: Moderat = 50+, Gesund = 70+
Reife (12+ Monate):
- Volle Nutzung und Engagement erwartet
- Höhere Schwellenwerte für gesund
- Nach Expansionssignalen Ausschau halten
- Schwellenwert: Moderat = 60+, Gesund = 75+
Renewal-Periode (60 Tage vor Verlängerung):
- Kritische Phase
- Geringere Toleranz für Gefährdetes
- Besondere Aufmerksamkeit auf Beziehung und Sentiment
- Schwellenwert: Gefährdet wenn <65, auch wenn normalerweise moderat
Health Scoring und Schwellenwerte je nach Customer Journey-Phase anpassen.
Wann universelle vs. segmentspezifische Modelle nutzen
Universelles Modell (ein Modell für alle):
Vorteile:
- Einfacher aufzubauen und zu warten
- Konsistent über das gesamte Portfolio
- Accounts leichter zu vergleichen
Nachteile:
- Weniger genau (berücksichtigt keine Segmentunterschiede)
- Kann segmentspezifische Muster verpassen
- Einheitsbeschränkungen
Nutzen Sie das, wenn:
- Kleiner Kundenstamm (<200 Kunden)
- Homogene Kundensegmente
- Frühes Stadium der Health Scoring-Reife
- Begrenzte Daten oder Ressourcen
Segmentspezifische Modelle:
Vorteile:
- Genauere Vorhersagen
- Berücksichtigt Segmentverhalten
- Bessere Schwellenwert-Kalibrierung
- Ermöglicht Segment-Benchmarking
Nachteile:
- Komplexer aufzubauen und zu warten
- Erfordert ausreichend Daten pro Segment
- Segmentübergreifende Vergleiche schwieriger
Nutzen Sie das, wenn:
- Großer Kundenstamm (>500 Kunden)
- Diverse Kundensegmente
- Reifes Health Scoring-Programm
- Ausreichend Daten pro Segment (>100 Kunden)
Hybridansatz:
- Mit universellem Modell beginnen
- Segmentanpassungen hinzufügen (segmentspezifische Schwellenwerte)
- Schrittweise zu vollständig getrennten Modellen übergehen, sobald Daten es erlauben
Implementierung und Operationalisierung
Technologie und Infrastruktur
Die Build-vs.-Buy-Entscheidung:
Kaufen: Customer Success-Plattform
- Tools wie Gainsight, Totango, ChurnZero, Catalyst
- Vorteile: Schnell einsatzbereit, bewährte Funktionalität, Updates inklusive
- Nachteile: Kostet 50.000–200.000 $ pro Jahr, weniger flexibel, Anbieterabhängigkeit
- Nutzen Sie das, wenn: Sie ein mittelgroßes bis großes CS-Team mit Budget haben und Geschwindigkeit wollen
Selbst bauen: Custom-System
- Stack: Eigenes Data Warehouse + BI-Tool + Custom Scoring Engine
- Vorteile: Volle Kontrolle, exakt auf Ihre Bedürfnisse zugeschnitten, langfristig günstiger
- Nachteile: Frisst Engineering-Zeit, Sie verantworten alle Wartung, langsamer Launch
- Nutzen Sie das, wenn: Sie ein technisches Team, einzigartige Anforderungen und Engineering-Ressourcen haben
Hybrid: Das Beste aus beiden Welten
- Kern: CS-Plattform für Scoring und Alerts nutzen
- Custom: Eigenes Data Warehouse für komplexe Analysen aufbauen
- Integrationen: Alles verbinden (Produktanalyse, CRM, Support)
- Nutzen Sie das, wenn: Sie wie die meisten Unternehmen eine Balance aus Geschwindigkeit und Flexibilität wollen
Was Sie wirklich brauchen:
- Datenintegrations-Layer (zieht Daten aus all Ihren Systemen)
- Scoring Engine (berechnet Health Scores)
- Visualisierungs-Layer (Dashboards, die die Leute wirklich ansehen)
- Alerting-System (Benachrichtigungen und automatisierte Workflows)
- Historische Datenbank (damit Sie Trends über Zeit verfolgen können)
Datenpipeline und Automatisierung
Automatisierter Datenfluss:
Produkt-DB → ETL → Data Warehouse → Scoring Engine → Dashboard
CRM → API → Data Warehouse → Scoring Engine → Dashboard
Support → API → Data Warehouse → Scoring Engine → Dashboard
Umfrage → Webhook → Data Warehouse → Scoring Engine → Dashboard
Pipeline-Schritte:
1. Extrahieren:
- Daten aus Quellsystemen ziehen (Produktanalyse, CRM, Support)
- Zeitplan: Täglich für die meisten Metriken, Echtzeit für kritische Alerts
- API-Rate-Limits und Fehler behandeln
2. Transformieren:
- Datenformate normalisieren
- Abgeleitete Metriken berechnen (% aktive Nutzer, Nutzungstrends)
- Auf Account-Ebene aggregieren
- Daten aus mehreren Quellen zusammenführen
3. Laden:
- Im Data Warehouse speichern
- Health Scores berechnen
- Dashboards aktualisieren
- Alerts auslösen, wenn Schwellenwerte überschritten
4. Archivieren:
- Historische Scores für Trending speichern
- Jahresvergleiche ermöglichen
Automatisierungs-Best-Practices:
- Pipeline-Gesundheit überwachen (bei Ausfällen alarmieren)
- Datenqualität validieren (auf Anomalien prüfen)
- Datenquellen und Transformationen dokumentieren
- Scoring-Logik versionieren
Score-Aktualisierungsfrequenz
Wie oft neu berechnen:
Echtzeit (kontinuierlich):
- Nutzen für: Kritische Alerts (P1-Tickets, Zahlungsausfälle)
- Erfordert: Streaming-Datenpipeline, höhere Infrastrukturkosten
- Beispiel: Zahlung überfällig → sofortiger Alert
Täglich:
- Nutzen für: Standard-Health-Scores, die meisten Accounts
- Erfordert: Nächtlicher Batch-Job, moderate Infrastruktur
- Beispiel: Nutzungsdaten jeden Morgen aktualisiert
Wöchentlich:
- Nutzen für: Low-Touch-Accounts, weniger kritische Metriken
- Erfordert: Wöchentlicher Batch-Job, einfache Infrastruktur
- Beispiel: SMB-Accounts mit stabilen Mustern
Überlegungen:
- Häufiger = aktueller, aber höhere Kosten
- Seltener = für die meisten Zwecke ausreichend, einfacher
- Hybrid: Echtzeit für kritische, täglich für Standard
Empfehlung: Tägliche Aktualisierung der Health Scores, Echtzeit für kritische Alerts.
Historisches Trending und Veränderungen
Warum Trending genauso wichtig ist wie der Score selbst:
Die Richtung, in die ein Account sich bewegt, ist genauso wichtig wie der aktuelle Standort. Ein Score von 70, der steigt, sieht völlig anders aus als ein Score von 70, der schnell fällt.
Was Trending Ihnen sagt:
- Probleme früh erkennen, bevor sie kritisch werden
- Wissen, ob Ihre Interventionen tatsächlich wirken
- Saisonale Muster erkennen, die Sie berücksichtigen müssen
Relevante Zeitfenster:
30-Tage-Veränderung (kurzfristig):
- Zeigt schnelle Gewinne oder neue Probleme
- Alert bei Rückgang um mehr als 10 Punkte
- Gut für das Erkennen unmittelbarer Probleme
90-Tage-Veränderung (mittelfristig):
- Zeigt anhaltende Verbesserung oder Rückgang
- Relevantester Zeitraum für Interventionen
- Hier sollte Ihr Fokus liegen
12-Monats-Veränderung (langfristig):
- Enthüllt Customer Lifecycle-Muster
- Gut für Kohortenanalyse
- Hilft zu verstehen, was „normal" aussieht
Momentum-Indikatoren nutzen:
- Verbesserung: ↑ (Score steigt)
- Stabil: → (Score konstant, innerhalb ±5 Punkte)
- Rückgang: ↓ (Score sinkt)
Warum das wichtig ist:
Account A:
- Aktueller Score: 70
- 30-Tage-Veränderung: +8
- 90-Tage-Veränderung: +15
- Status: Moderat, aber verbessernd ↑
- Was zu tun ist: Was Sie tun, funktioniert – machen Sie weiter so
Account B:
- Aktueller Score: 72
- 30-Tage-Veränderung: -12
- 90-Tage-Veränderung: -18
- Status: Moderat, aber abnehmend ↓
- Was zu tun ist: Etwas stimmt nicht – jetzt untersuchen und eingreifen
Gleicher Score, völlig unterschiedliche Situationen, vollständig andere Maßnahmen erforderlich.
Integration in Workflows
Health Scores operationalisieren:
Täglicher CSM-Workflow:
- Dashboard auf Alerts prüfen
- Accounts mit sinkender Gesundheit überprüfen
- Auf gefährdete Accounts konzentrieren (Score <50)
- Success Plans basierend auf Scores aktualisieren
Automatisierte Playbooks:
- Gesundheit sinkt auf gefährdet → Save-Playbook auslösen
- Gesundheit verbessert sich auf gesund → Expansions-Playbook auslösen
- 30 Tage bis Renewal + moderater Gesundheitszustand → Renewal-Vorbereitungs-Playbook auslösen
CRM-Integration:
- Health Scores mit CRM synchronisieren (Salesforce, HubSpot)
- Auf der Account-Seite anzeigen
- In Reporting und Forecasting nutzen
- Vertriebsteam-Alerts auslösen (Executive-Eskalation)
Kommunikationsintegration:
- E-Mail-Alerts an CSMs (täglicher Digest gefährdeter Accounts)
- Slack-Benachrichtigungen (kritische Alerts)
- Automatisierte Kundenkorrespondenz (basierend auf Gesundheitsveränderungen)
Meeting-Vorbereitung:
- Health Score vor dem QBR abrufen
- Gesprächspunkte vorbereiten (Erfolge und Bedenken)
- Agenda basierend auf Gesundheitseinblicken festlegen
Modellvalidierung und -verfeinerung
Genauigkeitsmessung und -tracking
Wichtige Genauigkeitsmetriken:
Prognosegenauigkeit: Von allen Prognosen: Wie viele waren richtig?
- Formel: (True Positives + True Negatives) / Gesamt
- Benchmark: >80 % ist gut, >85 % ist ausgezeichnet
Präzision (Positive Predictive Value): Von als gefährdet markierten Kunden: Wie viele haben tatsächlich gechurnt?
- Formel: True Positives / (True Positives + False Positives)
- Benchmark: >60 % (einige False Positives akzeptabel, um alle Risiken zu erfassen)
Recall (Sensitivität): Von Kunden, die gechurnt sind: Wie viele wurden als gefährdet markiert?
- Formel: True Positives / (True Positives + False Negatives)
- Benchmark: >75 % (entscheidend, den meisten Churn zu erfassen)
F1-Score: Balance aus Präzision und Recall
- Formel: 2 × (Präzision × Recall) / (Präzision + Recall)
- Benchmark: >0,70
Monatliches Tracking: Diese Metriken monatlich berechnen, wenn Renewals eintreten, und Vorhersagen mit Tatsachen vergleichen.
False-Positive/Negative-Analyse
False Positives (Typ-I-Fehler): Als gefährdet markiert, aber verlängert.
Auswirkung:
- Verschwendete CSM-Zeit
- Unnötige Interventionen
- Alert-Müdigkeit
- Geringeres Vertrauen in Scores
Beispiel: Account als gefährdet markiert (Score 45), aber zu 100 % verlängert.
Analyse:
- Warum hielt das Modell ihn für gefährdet? (Geringe Nutzung)
- Warum hat er dennoch verlängert? (Sah noch Mehrwert, Executive Champion)
- Erkenntnis: Executive Sponsor-Dimension hinzufügen, Beziehungsgewicht erhöhen
False Negatives (Typ-II-Fehler): Als gesund markiert, aber abgewandert.
Auswirkung:
- Verpasste Interventionsmöglichkeit
- Verlorener Umsatz
- Gefährlicher als False Positives
- Untergräbt das Vertrauen in das Modell
Beispiel: Account als gesund markiert (Score 78), aber abgewandert.
Analyse:
- Welche Signale wurden komplett übersehen? (Neuer Wettbewerber, Budgetkürzung)
- Welche Dimension sollte das erfassen? (Wettbewerbs-Intelligence, Finanziell)
- Erkenntnis: Wettbewerbsmonitoring hinzufügen, Gewicht bei Stakeholder-Änderungen erhöhen
Monatlicher Überprüfungsprozess:
- Alle False Positives und False Negatives identifizieren
- Grundursachen analysieren
- Modellverbesserungen identifizieren
- Änderungen implementieren
- Gegen historische Daten validieren
Modelldrift-Erkennung
Was ist Modelldrift: Die Genauigkeit Ihres Modells nimmt mit der Zeit ab, weil sich Ihre Kunden, Ihr Produkt oder Ihr Markt verändern. Was vor sechs Monaten Retention vorhersagte, funktioniert möglicherweise heute nicht mehr.
Zeichen, dass Ihr Modell driftet:
- Genauigkeit sinkt Monat für Monat
- Mehr False Positives oder False Negatives als zuvor
- CSMs sagen: „Diese Scores fühlen sich nicht mehr richtig an"
- Neue Muster, die Ihr Modell nicht erfasst
Was Drift verursacht:
- Produktveränderungen (Sie haben neue Features gestartet oder die UI redesigned)
- Kundenverhalten entwickelt sich (Nutzungsmuster verschieben sich mit der Zeit)
- Marktdynamik ändert sich (neuer Wettbewerber taucht auf)
- Ihre Datenqualität verschlechtert sich
So erkennen Sie es:
- Genauigkeitstrends verfolgen (wenn sie über 3+ Monate sinken, haben Sie Drift)
- Aktuelle Genauigkeit mit historischer vergleichen
- Auf Verschiebungen in Ihrer Prognoseverteilung achten
So beheben Sie es:
- Modell auf aktuellen Daten neu trainieren
- Neue Dimensionen hinzufügen, die neue Muster erfassen
- Gewichtungen anpassen, um aktuelle Relevanz zu reflektieren
- Schwellenwerte basierend auf aktuellem Verhalten aktualisieren
So verhindern Sie es:
- Modell vierteljährlich validieren
- Genauigkeit kontinuierlich verfolgen
- Regelmäßiges Feedback vom CSM-Team einholen
- Produkt- oder Go-to-Market-Änderungen dokumentieren
Regelmäßige Überprüfung und Aktualisierungen
Modellwartungsplan:
Wöchentlich:
- Alert-Volumen und Reaktionen überwachen
- CSM-Feedback zu Scores verfolgen
- Datenqualitätsprobleme identifizieren
Monatlich:
- Genauigkeitsmetriken berechnen
- False Positives/Negatives überprüfen
- Schnelle Gewinne identifizieren (Schwellenwertanpassungen)
Vierteljährlich:
- Vollständige Modellvalidierung
- Gewichtungsanpassungen
- Dimensionen hinzufügen/entfernen
- Backtest auf aktuellen Daten
- Verfeinerungen implementieren
Jährlich:
- Umfassende Modellüberprüfung
- Größere Neugestaltung erwägen, wenn nötig
- Neue Methoden adoptieren (ML usw.)
- Mit Branchenstandards benchmarken
- Mit strategischen Prioritäten abgleichen
Dokumentation:
- Alle Modellveränderungen verfolgen
- Begründung dokumentieren
- Impact messen
- Erkenntnisse mit Team teilen
A/B-Test von Modellvarianten
Modellveränderungen vor dem vollständigen Rollout testen:
Beispiel-A/B-Test:
Kontrollgruppe (aktuelles Modell):
- Nutzung: 35 %
- Engagement: 25 %
- Wert: 20 %
- Beziehung: 15 %
- Finanziell: 5 %
Variante (vorgeschlagenes Modell):
- Nutzung: 40 % (erhöht)
- Engagement: 25 %
- Wert: 15 % (verringert)
- Beziehung: 20 % (erhöht)
- Finanziell: 0 % (entfernt)
Testaufbau:
- Beide Modelle auf die letzten 6 Monate historischer Daten anwenden
- Genauigkeitsmetriken vergleichen
- Bestimmen, welches Modell besser vorhersagt
Ergebnisse:
| Metrik | Aktuelles Modell | Neues Modell |
|---|---|---|
| Genauigkeit | 78 % | 84 % |
| Präzision | 65 % | 72 % |
| Recall | 73 % | 81 % |
| F1-Score | 0,69 | 0,76 |
Entscheidung: Neues Modell performt besser über alle Metriken. Implementieren.
Shadow Mode-Testing:
- Neues Modell parallel zum aktuellen laufen lassen
- Noch nicht auf Basis neuer Modell-Scores handeln
- Vorhersagen über 1–2 Monate mit tatsächlichen Ergebnissen vergleichen
- Wenn neues Modell genauer ist, wechseln
Vorteile:
- Verbesserungen vor dem Rollout validieren
- Risiko einer Modellverschlechterung reduzieren
- Datenbasierte Entscheidungsfindung
- Vertrauen in Veränderungen aufbauen
Health Scores effektiv nutzen
CSM-Priorisierung und Fokus
Accounts nach Gesundheit priorisieren:
Tier 1: Kritisch (Score <40)
- Sofortige Maßnahmen erforderlich
- Tägliches Monitoring
- Save-Pläne, Eskalation
- Zeitallokation: 40 % der CSM-Zeit
Tier 2: Gefährdet (Score 40–60)
- Proaktive Intervention
- Wöchentliche Kontaktpunkte
- Verbesserungsinitiativen
- Zeitallokation: 30 % der CSM-Zeit
Tier 3: Moderat (Score 60–75)
- Pflegen und verbessern
- Zweiwöchentliche Kontaktpunkte
- Standard-Kadenz
- Zeitallokation: 20 % der CSM-Zeit
Tier 4: Gesund (Score 75+)
- Pflegen und wachsen
- Monatliche Kontaktpunkte
- Expansionsgespräche
- Zeitallokation: 10 % der CSM-Zeit
Dynamische Priorisierung: Täglich neu priorisieren, wenn sich Health Scores verändern. Ein Account, der von gesund auf gefährdet fällt, steigt sofort auf der Prioritätenliste nach oben.
Interventionen und Playbooks auslösen
Health Score-Schwellenwerte lösen Maßnahmen aus:
Score fällt unter 50:
- Playbook: At-Risk-Intervention
- Maßnahmen: Root-Cause-Analyse, Save-Plan, wöchentliche Check-ins, Eskalationspfad
Score fällt in 30 Tagen um 15+ Punkte:
- Playbook: Rapid Decline Investigation
- Maßnahmen: Notfall-CSM-Anruf, Ursache identifizieren, sofortige Intervention
Score verbessert sich auf 80+:
- Playbook: Expansionsmöglichkeit
- Maßnahmen: Expansionssignale identifizieren, Expansionsgespräch planen, Angebot erstellen
60 Tage bis Renewal + Score <70:
- Playbook: Renewal-Risiko
- Maßnahmen: Renewal-Vorbereitung, Value-Reporting, Stakeholder-Mapping, Verhandlungsstrategie
Automatisierte Playbook-Auslöser: Health Scores mit CS-Plattform integrieren, um automatisch Playbooks zu starten, wenn Schwellenwerte überschritten werden.
Executive Reporting
Monatliches Executive Dashboard:
Portfolio-Gesundheits-Zusammenfassung:
- Gesamtkunden: 487
- Gesund (75+): 312 (64 %)
- Moderat (50–74): 130 (27 %)
- Gefährdet (<50): 45 (9 %)
- Gefährdeter ARR: 2,3 Mio. $
Trends:
- Gesundheit verbessert sich: 78 Accounts (16 %)
- Gesundheit verschlechtert sich: 52 Accounts (11 %)
- Nettotrend: Positiv
Schwerpunktbereiche:
- Top 10 gefährdete Accounts (nach ARR)
- Accounts kurz vor dem Renewal
- Erfolgsgeschichten von Interventionen
Maßnahmen:
- Diesen Monat gerettete Kunden: 8 (450.000 $ ARR)
- Expansionsmöglichkeiten: 15 (780.000 $ Potenzial)
Kundenorientierte Gesundheitsberichte
Gesundheitseinblicke mit Kunden teilen:
Was einbeziehen:
- Nutzungsmetriken (aktive Nutzer, Feature Adoption)
- Entwicklung über Zeit (Wachstum feiern)
- Benchmarks (im Vergleich zu ähnlichen Unternehmen)
- Empfehlungen (Verbesserungsbereiche)
Was weglassen:
- Den tatsächlichen Gesundheits-„Score" oder „Note" (wirkt wertend)
- „Gefährdet"- oder „Churn"-Sprache (negative Rahmung)
- Interne Scoring-Methodik
Format:
- Teil der QBR-Präsentation
- Monatlicher E-Mail-Digest
- Self-Service-Dashboard
Beispielhafte kundenorientierte Formulierung:
„Ihre Adoption ist dieses Quartal um 18 % gewachsen! Sie haben jetzt 78 aktive Nutzer und nutzen 6 von 8 Core-Features. Unternehmen auf Ihrem Adoptionsniveau berichten von 2,3-fachen Produktivitätssteigerungen.
Um noch mehr Mehrwert zu erzielen: - Reporting-Adoption auf Manager ausweiten (40 % Zeitersparnis) - Integrationen aktivieren (60 % Nutzungssteigerung) - Pilot mit dem Marketingteam (ähnlich wie [Kunde X])"
Ton: Positiv, hilfreich, kooperativ (nicht wertend oder strafend)
Über-Optimierung vermeiden
Vorsicht vor dem Goodhart'schen Gesetz: „Wenn eine Kennzahl zum Ziel wird, hört sie auf, eine gute Kennzahl zu sein." Anders gesagt: In dem Moment, in dem Sie beginnen, den Health Score selbst zu optimieren, hört er auf, nützlich zu sein.
Was schief gehen kann:
Metriken manipulieren:
- CSMs beginnen, sich auf die Verbesserung von Scores zu konzentrieren statt auf tatsächlichen Customer Success
- Sie optimieren für Metriken statt für Ergebnisse
- Beispiel: Sie bringen Kunden dazu, sich häufiger einzuloggen (verbessert die Metrik), ohne ihnen wirklich zu helfen, Mehrwert zu erzielen (das Ergebnis, das zählt)
Falsche Sicherheit:
- Hohe Scores machen Sie selbstgefällig
- Sie übersehen wichtigen Kontext, den der Score nicht erfasst
- Beispiel: Account hat einen Score von 85, aber der Executive Champion hat das Unternehmen gerade verlassen – Ihr Modell verfolgt das nicht
Tunnelblick:
- Sie achten nur noch auf das, was gemessen wird
- Wichtige qualitative Signale werden ignoriert
- Beispiel: Kunde ist sichtlich frustriert, nutzt das Produkt aber weiter aus Notwendigkeit (Nutzung hoch, tatsächliches Sentiment schrecklich)
So vermeiden Sie diese Fallen:
Scores mit menschlichem Urteilsvermögen in Einklang bringen:
- CSMs dürfen Scores überschreiben, wenn sie guten Grund haben
- Regelmäßige qualitative Check-ins weiterführen
- Dem Bauchgefühl des CSM vertrauen, wenn es dem Score widerspricht
Ergebnisse verfolgen, nicht nur Scores:
- Was zählt, ist die Retention-Rate, nicht Health Scores
- Kundenzufriedenheit messen, nicht nur Nutzungszahlen
- Auf Wertrealisierung fokussieren, nicht nur auf Engagement-Aktivitäten
Mehrere Metriken nutzen:
- Sich nicht auf einen einzigen Health Score für alles verlassen
- Expansion, Advocacy und Zufriedenheit separat verfolgen
- Ein ganzheitliches Bild von dem bekommen, was wirklich passiert
Modell regelmäßig überprüfen:
- Sicherstellen, dass Scores tatsächliche Ergebnisse noch vorhersagen
- Anpassen, wenn sich Kundenverhaltensmuster ändern
- Neue Signale hinzufügen, wenn Lücken entdeckt werden
Das Fazit
Nicht alle Health Scores sind gleich. Der Unterschied zwischen einem guten Health Score und einem nutzlosen liegt in durchdachtem Design, kontinuierlicher Validierung und der Bereitschaft, ihn stetig weiterzuentwickeln.
Wenn Sie ein Health Score-Modell bauen, das wirklich funktioniert, erhalten Sie:
- Churn-Vorhersage mit >80 % Genauigkeit (ja, das ist erreichbar)
- 4–6 Wochen Vorlaufzeit zum Eingreifen, bevor Kunden churnen
- CSM-Zeit, die für Accounts aufgewendet wird, die sie wirklich brauchen
- Datenbasierte Entscheidungen statt Bauchgefühl
- Proaktiver Customer Success statt ständiger Reaktion auf Brände
Ein funktionierendes Health Score-Modell hat diese Komponenten:
- Mehrdimensionales Scoring (Nutzung, Engagement, Beziehung, Sentiment – nicht nur eine Sache)
- Datenbasierte Gewichtung (auf Basis dessen, was in Ihrem Unternehmen tatsächlich Retention vorhersagt)
- Segmentspezifische Modelle (weil Enterprise- und SMB-Kunden sich völlig unterschiedlich verhalten)
- Historisches Trending (Momentum ist genauso wichtig wie der aktuelle Score)
- Kontinuierliche Validierung (Genauigkeit monatlich gegen tatsächliche Ergebnisse prüfen)
- Regelmäßige Verfeinerung (Modell vierteljährlich aktualisieren, wenn Sie lernen, was funktioniert)
Fangen Sie einfach an, testen Sie gegen echte Ergebnisse und verbessern Sie kontinuierlich. Ihr Health Score-Modell ist nie „fertig" – es muss sich weiterentwickeln, wie Ihr Produkt, Ihre Kunden und Ihr Markt sich entwickeln.
Bauen Sie ein Modell, das Ergebnisse wirklich vorhersagt – nicht eines, das nur im Dashboard beeindruckend aussieht.
Bereit, Ihr Health Score-Modell zu bauen? Beginnen Sie mit Customer Health Monitoring, implementieren Sie Early Warning Systems und verfolgen Sie Retention-Metriken.
Mehr erfahren:

Senior Operations & Growth Strategist
On this page
- Health Score Fundamentals
- Zweck und Anwendungsfälle
- Arten von Health Scores
- Score-Komponenten und Dimensionen
- Gewichtung und Berechnungsmethoden
- Score-Bereiche und Schwellenwerte festlegen
- Ihr Health Score-Modell entwerfen
- Zu prognostizierende Ergebnisse identifizieren
- Health Score-Dimensionen auswählen
- Dateneingaben und Metriken bestimmen
- Gewichtungsmethodik festlegen
- Datenbasierte Modellentwicklung
- Historische Datenmuster analysieren
- Korrelationsanalyse mit Ergebnissen
- Prädiktive versus Vanity-Metriken identifizieren
- Modelle testen und validieren
- Iteration auf Basis von Ergebnissen
- Score-Berechnungsmethoden
- Einfacher gewichteter Durchschnitt
- Rot/Gelb/Grün kategorisch
- Punktebasiertes Scoring
- Perzentil-Ranking
- Machine Learning-Modelle
- Modellsegmentierung
- Segmentspezifische Modelle
- Berücksichtigung der Customer Journey-Phasen
- Wann universelle vs. segmentspezifische Modelle nutzen
- Implementierung und Operationalisierung
- Technologie und Infrastruktur
- Datenpipeline und Automatisierung
- Score-Aktualisierungsfrequenz
- Historisches Trending und Veränderungen
- Integration in Workflows
- Modellvalidierung und -verfeinerung
- Genauigkeitsmessung und -tracking
- False-Positive/Negative-Analyse
- Modelldrift-Erkennung
- Regelmäßige Überprüfung und Aktualisierungen
- A/B-Test von Modellvarianten
- Health Scores effektiv nutzen
- CSM-Priorisierung und Fokus
- Interventionen und Playbooks auslösen
- Executive Reporting
- Kundenorientierte Gesundheitsberichte
- Über-Optimierung vermeiden
- Das Fazit