KI-Adoption messen: Ein Messsystem in 3 Ebenen

Herzlich Willkommen zu den AI FIRST Insights! Heute schließen wir unsere Serie mit dem 6. Teil zum KI-Adoption-Playbook. Die vorherigen Teile findest Du hier.

In den letzten Wochen haben wir Stück für Stück darüber gesprochen, wie KI-Adoption im Unternehmen entstehen kann. Es ging um ein Zielbild, das Richtung gibt. Um KI-Enabler, die KI in die Breite tragen. Um echten Kompetenzaufbau statt Alibi-Training. Um Use Cases, die nicht als zähe Großprojekte gedacht werden. Und um die Frage, wie aus Wissen ein neue Arbeitsweise wird.

Heute beantworten wir die letzte Frage: Woran erkenne ich eigentlich, ob KI-Adoption funktioniert?

Aktuell ist die Antwort auf diese Frage oft zu oberflächlich:

Wie viele Menschen haben Zugriff?
Wie viele nutzen das Tool?
Wie viele Prompts wurden geschrieben?

Heute geht es deshalb darum, wie ich KI-Adoption messe, ohne daraus ein wissenschaftliches Forschungsprojekt zu machen. Ich zeige Dir ein Messsystem auf drei Ebenen.

Los geht's!

Letzte Chance: Werde Mitglied im AI Collective

Zum 1. Juli öffnen wir das AI FIRST Collective für die nächste Gruppe an Führungskräften und KI-Verantwortlichen. Jetzt sind noch 9 Plätze frei, die im Laufe der kommenden Woche wahrscheinlich vergeben sind.

Im Collective bauen wir gemeinsam genau das, worüber ich hier jede Woche schreibe:

Meisterhafte KI-Anwendungskompetenz
KI-Betriebssystem für Dich und Dein Unternehmen
Adoption-Playbook, das Wirkung in die Breite bringt

Ab Juli bekommst Du direkten Zugang zu Plattform, Akademie, Community und Live Sessions. Den gemeinsamen Umsetzungspfad starten wir bewusst nach dem Sommer, wenn alle aus dem Urlaub zurück sind und wieder mit voller Aufmerksamkeit an der Organisation arbeiten können.

Wenn Du noch dabei sein willst, bewirb Dich schnell hier.

Warum führt die Nutzungsrate in die Irre?

Die Nutzungsrate ist die bequemste Zahl in jedem KI-Projekt.

Sie ist leicht verfügbar, sie wirkt objektiv und sie lässt sich gut in ein Dashboard schreiben. Wenn 80 Prozent der Belegschaft ein KI-Tool nutzen, klingt das erstmal nach Fortschritt.

Aber: dieselbe Zahl kann zwei völlig verschiedene Realitäten beschreiben. In der einen Organisation schreiben Menschen ab und zu eine E-Mail um, lassen sich eine Zusammenfassung geben oder probieren ein paar Prompts aus. In der anderen Organisation haben Teams ihre wiederkehrenden Abläufe verändert, eigene Vorlagen gebaut, kleine Automatisierungen etabliert und nutzen KI so selbstverständlich wie früher Excel.

Beides kann in der Statistik als „aktive Nutzung“ auftauchen.

Genau deshalb ist die Nutzungsrate ein schlechter alleiniger Maßstab. Sie zeigt, dass Menschen mit KI in Berührung kommen. Sie zeigt aber nicht, ob sich Arbeit verändert.

Das ist nicht nur mein Eindruck aus Kundengesprächen. McKinsey sieht im „State of AI 2025“ ein ähnliches Muster: 88 Prozent der befragten Organisationen nutzen KI bereits in mindestens einer Funktion. Gleichzeitig sagen nur 39 Prozent, dass KI überhaupt einen EBIT-Effekt auf Unternehmensebene hat, und bei den meisten davon liegt dieser Effekt unter 5 Prozent.

Adoption ist nicht die Frage, ob KI irgendwo genutzt wird. Adoption ist die Frage, ob Nutzung in veränderte Arbeit und messbare Wirkung übersetzt wird.

Genau an diesem Punkt müssen wir eine Ebene tiefer gehen.

Wenn es nicht die Nutzungsrate ist, was dann?

Wir sollten bei der Messung von KI-Adoption zuerst einmal zwischen Leading Indicators und Lagging Indicators unterscheiden.

Leading Indicators zeigen früh, ob Bewegung entsteht. Lagging Indicators zeigen später, ob Wirkung entsteht. Zwischen diesen beiden Ebenen brauchen wir noch eine dritte: Verankerung. Denn zwischen „Menschen nutzen KI“ und „KI erzeugt messbare Wirkung“ liegt die eigentliche Arbeit. Dort entscheidet sich, ob KI in Abläufe, Routinen und Teamprozesse einwandert oder eine individuelle Spielerei bleibt.

Ich messe KI-Adoption deshalb auf drei Ebenen:

Aktivität: Kommt KI in Bewegung?
Verankerung: Wird KI Teil echter Arbeit?
Wirkung: Wird Arbeit dadurch besser, schneller oder günstiger?

Einmal im Monat schaut man auf wenige Kennzahlen, ergänzt sie durch konkrete Prozessbeobachtung und entscheidet, wo nachjustiert werden muss. Dabei entscheidet nicht eine einzelne Zahl, sondern die Kombination aus drei Quellen:

Systemdaten: Was wird tatsächlich genutzt, gebaut oder eingereicht?
Prozessdaten: Was verändert sich in konkreten Abläufen?
Einschätzungen aus den Teams: Was nehmen Menschen selbst als Veränderung wahr?

Meiner Erfahrung nach erzählt keine dieser Quellen die vollständige Wahrheit: Vorher-nachher-Umfragen haben einen starken menschlichen Bias, Systemdaten zeigen die Nutzung an, aber selten die Wirkung, und Prozesse lassen sich nicht immer perfekt von vorne bis hinten durchmessen.

Um das greifbar zu machen, nehme ich im Folgenden ein einfaches Beispiel: Ein Vertriebsteam erstellt regelmäßig erste Angebotsentwürfe für Kunden. Vor KI dauert ein Entwurf im Schnitt 90 Minuten. Für bestimmte Recherchen oder Präsentationsbausteine wird gelegentlich externe Unterstützung genutzt. Die Qualität schwankt, weil jede Person anders arbeitet.

An diesem Beispiel lassen sich die drei Ebenen gut zeigen.

Ebene 1: Kommt KI in Bewegung?

Auf der ersten Ebene will ich wissen, ob KI überhaupt im Alltag ankommt. Nutzen Menschen die freigegebenen Werkzeuge? Nehmen sie an Trainings teil? Entstehen erste Ideen, Vorlagen oder Use Cases?

Das Ziel dieser Ebene ist nicht, Wirkung zu beweisen. Das Ziel ist, früh zu erkennen, ob die Organisation in Kontakt mit KI kommt.

Indikatoren, die ich mir anschaue:

Anteil aktiver Nutzer in den freigegebenen KI-Werkzeugen
Anzahl eingereichter und qualifizierter Use-Case-Ideen
Teilnahmequote an Trainings oder Enabler-Formaten
Anzahl gebauter Quick Wins, Vorlagen oder Workflows
Anzahl aktiver KI-Enabler pro Bereich

Wie ich es messen würde:

Nutzungsdaten aus den Tools: Nicht nur „hat Zugriff“, sondern aktive Nutzung pro Woche oder Monat, idealerweise nach Team oder Rolle getrennt. Dort auch nicht nur den Login tracken, sondern die Tiefe der Features (Chat, Skills, Agents, …) anschauen.
Use-Case-Funnel: Wie viele Ideen wurden eingereicht, qualifiziert, umgesetzt und nach 30 Tagen noch genutzt?
Kompetenzcheck: Kurze Selbsteinschätzung vor und nach Trainings, ergänzt um eine kleine praktische Aufgabe, zum Beispiel aus einer Arbeitsanweisung einen KI-gestützten Ablauf zu bauen.

Im Vertriebsbeispiel würde ich also nicht nur messen, wie viele Menschen Zugriff auf das KI-Tool haben. Ich würde messen, wie viele Vertriebsmitarbeitende den Angebots-Workflow pro Woche nutzen, wie viele Angebotsentwürfe damit entstehen und wie viele Verbesserungsideen aus dem Team zurückkommen.

Diese Zahlen reagieren schnell. Wenn nach drei Monaten kaum jemand ein Tool nutzt, keine Use Cases entstehen und Trainings nicht besucht werden, muss ich nicht auf Effizienzkennzahlen warten. Dann funktioniert etwas im Setup nicht. Aber Aktivität darf nie zum Ziel selbst werden. Ich kann eine hohe Teilnahmequote haben und trotzdem kaum Veränderung im Arbeitsalltag sehen. Ich kann viele Use-Case-Ideen sammeln und trotzdem nichts umsetzen. Ich kann viele Lizenzen ausrollen und trotzdem keine neue Arbeitsweise schaffen.

Leading Indicators sagen mir: Es bewegt sich etwas. Sie sagen mir noch nicht, ob daraus bessere Arbeit entsteht.

Ebene 2: Wird KI Teil echter Arbeit?

Die zweite Ebene ist für mich die wichtigste, weil sie zwischen Aktivität und Wirkung liegt.

Ich nenne sie Verankerung. Hier geht es nicht darum, ob Menschen ein Tool geöffnet oder ein Training besucht haben. Es geht darum, ob sich ihre Arbeitsweise verändert hat. Wird KI in wiederkehrenden Aufgaben genutzt? Entstehen Teamroutinen? Werden Vorlagen, Workflows oder kleine KI-Lösungen regelmäßig verwendet?

Genau diese Ebene verbindet die bisherigen Teile des Playbooks.

Ein Zielbild sorgt dafür, dass KI nicht beliebig eingesetzt wird. KI-Enabler bringen die Fähigkeit in die Fachbereiche. Kompetenzaufbau schafft die Grundlage, damit Menschen KI nicht nur bedienen, sondern sinnvoll führen können. Der Use-Case-Prozess übersetzt Ideen in konkrete Lösungen. Und Aktivierung sorgt dafür, dass aus Wissen Verhalten wird.

Verankerung misst, ob diese Bausteine im Alltag zusammenkommen.

Indikatoren, die ich mir anschaue:

Anteil wiederkehrender Aufgaben, die standardmäßig mit KI unterstützt werden
Anzahl regelmäßig genutzter Vorlagen, Workflows oder kleiner KI-Lösungen
Wiederverwendung von Lösungen über Teams hinweg
Anzahl produktiver Quick Wins, die nach 30 oder 60 Tagen noch genutzt werden
Häufigkeit, mit der Führungskräfte KI in Teamroutinen, Priorisierung und Prozessverbesserung besprechen

Wie ich es messen würde:

Prozessinventur pro Team: Die wichtigsten wiederkehrenden Aufgaben auflisten und markieren, welche davon heute fest mit KI unterstützt werden.
30/60-Tage-Nutzung: Nicht nur zählen, was gebaut wurde, sondern prüfen, welche Lösungen nach einem oder zwei Monaten noch in der Arbeit auftauchen.
Monatlicher Team-Check: Führungskraft und Team beantworten drei Fragen: Welche Aufgabe haben wir mit KI verändert? Was nutzen wir weiterhin? Wo hängt es noch?

Für Vorher-nachher-Umfragen reichen oft wenige gute Fragen:

„Welche wiederkehrende Aufgabe bearbeitest Du heute anders als vor drei Monaten?“
„Bei welchen Aufgaben nutzt Du KI inzwischen regelmäßig?“
„Welche KI-gestützte Lösung würdest Du vermissen, wenn sie morgen weg wäre?“

Im Vertriebsbeispiel würde ich prüfen, ob der Angebots-Workflow nach 30 und 60 Tagen noch genutzt wird. Ist er Teil des Standardprozesses geworden? Nutzen auch neue Mitarbeitende ihn automatisch? Wird er im Team verbessert, oder war er nur ein einmaliger Test?

Das ist der Punkt, an dem sich echte KI-Adoption von Tool-Nutzung unterscheidet. Ein Unternehmen kann viele aktive Nutzer haben und trotzdem wenig Verankerung. Dann bleibt KI eine individuelle Produktivitätshilfe. Hilfreich, aber begrenzt. Wenn KI aber in wiederkehrende Abläufe, Teamroutinen und kleine interne Lösungen einwandert, entsteht ein anderer Effekt. Dann wird KI nicht mehr nur genutzt, sondern in Arbeit übersetzt.

Ebene 3: Entsteht messbare Wirkung?

Auf der dritten Ebene schaue ich auf das Ergebnis. Hier geht es um die Frage, ob KI messbar etwas an Arbeit verändert. Das kann Effizienz sein, also weniger Zeit für eine wiederkehrende Aufgabe. Es kann Qualität sein, zum Beispiel bessere Vorlagen, weniger Fehler oder konsistentere Ergebnisse. Es kann Geschwindigkeit sein, etwa kürzere Durchlaufzeiten in einem Prozess. Und in einigen Fällen kann es auch direkten Einfluss auf Kosten, Umsatz oder Kundenzufriedenheit geben.

Ich messe Wirkung in drei Kategorien.

1. Effizienz

Wie lange dauerte eine Aufgabe vorher und wie lange dauert sie heute?
Welche Durchlaufzeiten haben sich verkürzt?
Welche geplanten zusätzlichen Rollen mussten nicht aufgebaut werden, weil ein Team mehr Volumen bewältigen kann?

2. Einsparungen

Welche Leistungen wurden vorher extern eingekauft und können heute intern erledigt werden?
Welche Agentur-, Freelancer- oder Beratungskosten sind gesunken?
Welche Aufgaben können Fachbereiche selbst erledigen, statt sie weiterzugeben?

3. Qualität

Wie verändert sich die Fehlerquote?
Wie bewerten Fachbereiche oder Kunden die Qualität?
Wie entwickeln sich NPS, CSAT oder interne Zufriedenheit?

Wie ich es messen würde:

Vorher-nachher-Messung im Prozess: Dafür reichen oft 10 bis 20 echte Vorgänge, statt monatelang ein perfektes Tracking aufzubauen.
Kostenvergleich: Welche externen Leistungen fallen weg oder werden deutlich reduziert, weil Teams sie intern mit KI abbilden können?
Qualitäts- und Experience-Check: Review-Qualität, Fehlerquote, NPS, CSAT oder Mitarbeiterzufriedenheit vor und nach der Prozessveränderung vergleichen.

Im Vertriebsbeispiel würde ich also messen, wie lange ein Angebotsentwurf heute dauert. Sind aus 90 Minuten 35 Minuten geworden? Sind externe Recherche- oder Designkosten gesunken? Bleibt die Qualität im Vier-Augen-Check stabil oder verbessert sie sich sogar?

Viele Unternehmen haben hier eine Erwartung, die ich für unrealistisch halte. Sie wollen perfekt nachweisen, welchen Einfluss KI auf Effizienz, Umsatz oder Ergebnis hat. Am besten sauber isoliert, mit belastbarer Kausalität und einer klaren Zahl hinter jedem Use Case.

In der Realität ist das extrem schwer.

Arbeit verändert sich selten nur durch eine einzige Maßnahme. Teams lernen parallel dazu, Prozesse werden angepasst, Rollen verändern sich, Tools verbessern sich, Menschen werden schneller, weil sie Übung bekommen. Wenn sich am Ende eine Kennzahl verbessert, ist KI oft ein wichtiger Teil davon, aber selten die einzige Ursache. Deshalb würde ich bei KI-Adoption nicht mit dem Anspruch starten, jeden Effekt perfekt zu beweisen. Ich würde eher mit Annäherungen arbeiten.

Wenn ein Team vorher 90 Minuten für einen Angebotsentwurf gebraucht hat und heute 35 Minuten, wenn gleichzeitig weniger externe Unterstützung nötig ist und die Qualität im Review stabil bleibt, reicht das für eine gute Steuerungsentscheidung.

Ich sehe Bewegung, Verankerung und Wirkung.

Und genau darum geht es.

Wie wird aus Messen echtes Nachsteuern?

Messen bringt nur etwas, wenn aus den Ergebnissen Entscheidungen abgeleitet werden, welche die Kennzahlen beeinflussen. Ich würde deshalb weniger auf die einzelne Kennzahl schauen und stärker auf die Muster zwischen Aktivität, Verankerung und Wirkung.

Hier sind drei typische Muster und wie du nachsteuern kannst:

Muster 1: Aktivität hoch, Verankerung niedrig

Viele Menschen nutzen KI, es gibt Trainings, vielleicht auch eine hohe Login-Rate. Gleichzeitig verändert sich im Arbeitsalltag wenig. Die Nutzung bleibt individuell, spontan und oft auf einfache Aufgaben beschränkt. Dann ist das Problem meistens nicht fehlende Motivation, sondern fehlende Übersetzung in konkrete Arbeit.

Die Konsequenz: weniger allgemeine Trainings, mehr Arbeit an echten Prozessen. Pro Team ein wiederkehrender Ablauf, der gemeinsam mit KI neu gedacht und in eine konkrete Lösung übersetzt wird. Dazu ein Enabler oder Coach, der nicht nur erklärt, sondern bei der Umsetzung hilft.

Kurzform: Aktivität hoch + Verankerung niedrig = Prozessarbeit statt mehr Tool-Nutzung.

Muster 2: Verankerung hoch, Wirkung niedrig

Hier nutzen Teams KI bereits regelmäßig in bestimmten Abläufen, aber die erhoffte Wirkung bleibt aus. Dann liegt das Problem oft darin, dass die falschen Prozesse verankert wurden. Man hat viel Energie auf Aufgaben gelegt, die angenehm zu verbessern sind, aber keinen großen Hebel haben.

Die Konsequenz: Use Cases wieder gegen den eigentlichen Nutzen prüfen. Welche Aufgaben haben hohe Frequenz, hohen Aufwand, hohe Fehleranfälligkeit oder direkten Bezug zu einer wichtigen Kennzahl? Dort muss die Energie hin.

Kurzform: Verankerung hoch + Wirkung niedrig = Use Cases neu priorisieren.

Muster 3: Aktivität niedrig, Verankerung niedrig

Wenn Aktivität und Verankerung niedrig sind, liegt das Problem meist vor der Messung. Dann fehlen oft Richtung, Kompetenz oder Rückendeckung. Das Zielbild ist zu unscharf. Führungskräfte erwarten Veränderung, haben aber keine eigene Rolle darin. Mitarbeitende sollen KI nutzen, wissen aber nicht, wofür. Enabler sollen helfen, haben aber kein Mandat.

Die Konsequenz: nicht noch mehr messen, sondern einen Schritt zurückgehen. Zielbild schärfen, Führung ausrichten, Enabler sauber mandatieren, Kompetenz gezielt aufbauen und dann wieder mit wenigen konkreten Anwendungsfällen starten.

Kurzform: Aktivität niedrig + Verankerung niedrig = Zielbild, Führung und Kompetenzaufbau prüfen.

Ein einfacher monatlicher Steuerungstermin mit klarer Verantwortung schlägt jedes perfekte Dashboard, das niemand nutzt. Wichtig ist nicht, jede Zahl exakt zu erklären. Wichtig ist, regelmäßig die richtigen Fragen zu stellen und daraus konkrete Anpassungen abzuleiten.

Fazit

Wenn ich diese Serie auf einen Gedanken herunterbrechen müsste, wäre es dieser: KI-Adoption entsteht nicht durch Tool-Zugang, sondern durch veränderte Arbeit.

Genau deshalb reicht die Nutzungsrate als Messgröße nicht aus.

Was Du aus diesem Artikel mitnehmen kannst:

Nutzungsrate zeigt Aktivität, aber keine Wirkung.
Leading Indicators helfen Dir, früh zu sehen, ob Bewegung entsteht.
Verankerung zeigt Dir, ob KI Teil echter Abläufe, Routinen und Lösungen wird.
Lagging Indicators zeigen Dir, ob KI Ergebnisse verändert.
Gute Messung kombiniert Systemdaten, Prozessdaten und Einschätzungen aus den Teams.
Perfekte Kausalität wirst Du selten nachweisen können. Eine gute Annäherung reicht, wenn sie aus mehreren Richtungen kommt.
Nachsteuern heißt, die Lücken zwischen Aktivität, Verankerung und Wirkung zu lesen.

Für mich war diese Serie auch der Versuch, KI-Adoption aus der abstrakten Transformationssprache herauszuholen und in konkrete Arbeit zu übersetzen. Richtung geben, Menschen befähigen, Use Cases finden, Umsetzung ermöglichen, Verhalten verändern und Fortschritt messbar machen.

Ich hoffe, dass Dir die Reihe geholfen hat, KI-Adoption in Deinem Unternehmen etwas klarer zu sehen. Wenn Du gerade selbst an einem dieser Schritte arbeitest, antworte mir gerne auf diese Mail. Ich lese jede Antwort.

Bis nächsten Sonntag,

Felix