Was wird gemessen – und was nicht?

27.03.2026

Warum KI (k)ein Gegner der Diagnostik ist

Generative Künstliche Intelligenz ist im Arbeitsalltag angekommen. Beschäftigte nutzen sie für textbasierte Aufgaben wie Strukturierung, Formulierung oder Überarbeitung. Ein weiteres Anwendungsfeld ist die Personalauswahl.

Das Problem

Im Recruiting zeigt sich, dass Bewerbungsunterlagen mithilfe von KI sprachlich optimiert werden (Cui et al. 2025). Erste empirische Arbeiten zeigen zudem die Nutzung von KI-Unterstützung in digitalen Auswahlformaten (Canagasuriam / Lukacik. 2025). Die zentrale Frage lautet daher nicht mehr, ob KI genutzt wird, sondern was unter diesen Bedingungen eigentlich gemessen wird und wie Ergebnisse zu interpretieren sind, wenn KI Teil der Leistungssituation ist.

KI-Tools entwickeln sich weiter und sind zunehmend niedrigschwellig verfügbar. Wie unterscheidet man unter solchen Bedingungen weiterhin exzellente Kandidat*innen von weniger guten Kandidat*innen mit KI-Unterstützung? Sinnvoll erscheint, KI im Assessment nicht moralisch aufzuladen, sondern einen Blick auf Messabsicht und Messpräzision zu werfen. Darauf basierend gibt es Empfehlungen für konkrete Schritte, die gute Personalauswahl in und für die Zukunft ermöglichen (Holtrop / Bronzwaer 2026; Sackett et al. 2026).

Die Wissenschaft

In der Eignungsdiagnostik wird seit Jahren betont, dass Personalauswahl kein Wettbewerb einzelner Instrumente ist, sondern ein systematisch konstruiertes Verfahren mit klar definierten Zielkriterien (Sackett et al. 2022). Validität bedeutet dabei nicht nur statistische Vorhersagekraft, sondern die Angemessenheit der Schlussfolgerungen, die aus einem Ergebnis gezogen werden (Sackett 2026). Zugleich zeigen metaanalytische Revisionen, dass Validitätsschätzungen in der Vergangenheit teilweise überschätzt wurden (Sackett et al. 2022). Die Aussagekraft eines Verfahrens hängt somit wesentlich davon ab, wie präzise das zugrunde liegende Konstrukt definiert ist und unter welchen Bedingungen es gemessen wird.

Vor diesem Hintergrund wird deutlich, warum KI im Assessment vor allem ein Konstruktproblem ist. Holtrop und Bronzwaer (2026) zeigen, dass generative KI die Leistungssituation verschiebt. Wird sie unterstützend eingesetzt – etwa um vorzustrukturieren oder sprachlich zu glätten –, kann sie reale Arbeitsbedingungen abbilden. Wird sie jedoch der Ersatz für die eigene Leistung, verändert sich das Konstrukt, das gemessen wird. Das Verfahren misst dann nicht mehr nur die individuelle Kompetenz, sondern Kompetenz mit Toolunterstützung.

Die Praxis

In der Praxis reagieren Organisationen teilweise mit restriktiven Regelungen. Sie reduzieren somit die Gelegenheit zur KI-Nutzung, verändern aber weder die Konstruktdefinition noch die Interpretationsgrundlage oder machen Assessments automatisch präziser. Die Forschung zu Bewerberreaktionen zeigt, dass wahrgenommene Fairness, Transparenz und Konsistenz zentrale Treiber von Akzeptanz und Vertrauen in Auswahlverfahren sind (Gilliland 1993; Hausknecht et al. 2004). Wird die Messabsicht nicht explizit geklärt, bleibt trotz Kontrolle Interpretationsunsicherheit bestehen.

Die zukunftsorientierte Personalauswahl braucht ein logisches Fundament für Entscheidungen. Aus der Forschung ergeben sich vier Schritte zur Orientierung:

Zielkriterium festlegen: Was soll prognostiziert werden? Sollen isolierte Kernkompetenzen oder sicherheitskritische Fähigkeiten im Vordergrund stehen, oder ist die reflektierte Nutzung Teil der Jobrealität? Ohne ein klares Zielkriterium sind Regeln zur KI-Nutzung willkürlich. Mit Zielkriterium werden sie logisch (Sackett et al. 2026).
Messmodus wählen: Ohne KI ist dies sinnvoll, wenn besagte Basiskompetenzen isoliert erfasst werden sollen, um Potenzial zu messen, bei sicherheitskritischen Aufgaben oder wenn KI nicht im Job eingesetzt werden kann oder darf. Mit KI ist das sinnvoll, wenn KI im Job Standard ist und gezielt geprüft werden soll, wie jemand Tools nutzt und Ergebnisse einordnet. Wenn beides getrennt ist, erfolgt die Messung erst ohne KI, dann mit KI. Werden beide Situationen getrennt betrachtet, ermöglicht es die klarste Interpretation, da die menschliche Leistung und die Arbeitsleistung sichtbar unterschieden werden können (Holtrop / Bronzwaer 2025).
Substanz prüfen statt nur das Ergebnis: Durch die sprachliche Glättung und strukturelle Optimierung verliert die reine Output-Bewertung an Bedeutung. Ein diagnostisch belastbares Verfahren betrachtet nicht nur das Ergebnis, sondern auch den Denkweg und die Entscheidungslogiken (Sackett et al. 2026).
Auswahl als System interpretieren: Ein einzelnes Instrument für sich trägt nicht genug diagnostische Substanz. Die Kombination aus Arbeitsproben, strukturierten Interviews und klar definierten Zielkriterien erhöht die Interpretationssicherheit und die Robustheit gegenüber Verzerrungen einzelner Instrumente (Sackett et al. 2026). Der vollständige Ausschluss der KI ist nur eine Reaktion auf ein Symptom. Wer stattdessen die Messabsicht präzisiert, erhöht die Qualität der Entscheidungen und stellt sich zukunftssicher auf.

KI ist kein Gegner der Diagnostik. Sie fordert Klarheit im Prozess. Wer nur kontrolliert, bekommt vielleicht weniger KI im Assessment, aber nicht automatisch bessere Entscheidungen. Entscheidend bleibt konzeptionelle Klarheit: eine präzise Messabsicht, ein bewusst gewählter Leistungsmodus und eine transparente Interpretation der Ergebnisse. Unter diesen Bedingungen bleibt Personalauswahl auch in einer KI-geprägten Arbeitswelt fachlich belastbar.

Jana Becks, Principal Consultant bei der Transformationsberatung HRpepper, Berlin

Dorian Baro, Praktikant bei der Transformationsberatung HRpepper, Berlin

Literatur

Canagasuriam, D. / Lukacik, E.-R. (2025): ChatGPT, can you take my job interview? Examining artificial intelligence cheating in the asynchronous video interview, in: International Journal of Selection and Assessment, 33 (2), e12491

Cui, J. / Dias, G. / Ye, J. (2025): Signaling in the age of AI: Evidence from cover letters; arXiv:2509.25054v2

Gilliland, S. W. (1993): The perceived fairness of selection systems, in: Academy of Management Review, 18 (4), 694-73

Hausknecht, J. P. / Day, D. V. / Thomas, S. C. (2004): Applicant reactions to selection procedures: An updated model and meta‐analysis, in: Personnel Psychology, 57 (3), 639-683

Holtrop, D. / Bronzwaer, L. (2026): Validity at risk? The future of generative AI use by candidates in assessments, in: International Journal of Selection and Assessment, 34 (1), e70035

Sackett, P. R. / Lievens, F. / Landers, R. N. (2026): Hiring people in organizations: The state and future of the science, in: Annual Review of Organizational Psychology and Organizational Behavior, 13, 49-75

Sackett, P. R. et al. (2022): Revisiting meta‐analytic estimates of validity in personnel selection: Addressing systematic overcorrection for restriction of range, in: Journal of Applied Psychology, 107

Dieser Artikel ist zuerst erschienen in der PERSONALFÜHRUNG Ausgabe 04/2026