Das Whiteboard-Interview ist tot: faires, KI-sicheres Recruiting

2026 hat KI Whiteboards und Take-home-Aufgaben ausgehebelt. So sieht der Entscheidungsrahmen für faire, KI-sichere Arbeitsproben aus – abgeleitet aus der Einstellungspraxis von Anthropic, Stripe und Linear.

Ernest Bursa

Founder · 15. Juni 2026 · 12 Min. Lesezeit

Two engineers pair programming on a real codebase at a sunlit co-working table, one narrating a decision while the other types

Für sich genommen ist das Whiteboard-Interview tot. Eine kontrollierte Studie der NC State University und von Microsoft zeigte: Kandidatinnen und Kandidaten, die im technischen Interview beobachtet wurden, schnitten nur etwa halb so gut ab wie jene, die dieselbe Aufgabe ungestört für sich lösten – und generative KI knackt heute sowohl Whiteboard-Rätsel als auch Take-home-Aufgaben in Minuten. Der dauerhafte Ersatz ist die Arbeitsprobe: eine berufsnahe Aufgabe, die in einer Live-Verteidigung mündet, in der der Kandidat echte Entscheidungen laut erklärt und anpasst.

Genau dieser letzte Schritt entscheidet alles. KI-Overlays können während eines geteilten Bildschirms Code schreiben und eine „3-Stunden“-Take-home-Aufgabe in Minuten abschließen – aber eine Abwägung in Echtzeit verteidigen können sie nicht. Die strategische Antwort der bestgeführten Engineering-Teams 2026 ist keine Überwachungssoftware. Sie ist eine Verlagerung des Formats hin zu Verfahren, die Urteilsvermögen und Kommunikation prüfen – die beiden Dinge, die KI live noch immer nicht vortäuschen kann. Dieser Leitfaden liefert Ihnen den Entscheidungsrahmen: welches Format Sie jetzt einsetzen sollten, wie Sie es ohne Spyware zugleich fair und manipulationssicher machen und wie Anthropic, Stripe, Vercel und Linear tatsächlich auswählen.

Sind Whiteboard-Interviews tot? (Ja – und KI ist nur die halbe Erklärung)

Ja, für sich genommen. Das Whiteboard-Interview war schon kaputt, lange bevor KI überhaupt ins Spiel kam – und KI hat das letzte verbliebene Signal vollends beseitigt.

Das erste Problem: Es hat nie das Richtige gemessen. In einem kontrollierten Experiment ließen Behroozi und Kollegen an der NC State University und bei Microsoft (2020) Kandidatinnen und Kandidaten dasselbe Problem unter zwei Bedingungen lösen: allein und beobachtet von einem Interviewer im klassischen Whiteboard-Setup. Die beobachteten Kandidaten schnitten etwa halb so gut ab. Das Format misst vor allem Prüfungsangst und die Belastung des Arbeitsgedächtnisses unter Beobachtung – nicht Engineering-Kompetenz. Und es benachteiligt genau die Menschen, die Sie fair einstellen wollen: introvertierte und neurodivergente Kandidaten sowie alle, deren Kommunikationsstil nicht zu einem verbalen Auftritt unter Hochdruck passt.

Das zweite Problem kam 2025. Overlay-Tools wie Cluely, Interview Coder und Leetcode Wizard liefern heute unsichtbar Antworten, während der Bildschirm geteilt ist. Ein klassisches LeetCode-Problem wird im Hintergrund still gelöst, während der Kandidat tippt. Wenn Ihr Screening weiterhin auf Rätseln aus der Wettbewerbsprogrammierung beruht, messen Sie nicht mehr den Kandidaten. Sie messen seine Werkzeuge.

Das heißt nicht, dass Live-Coding wertlos ist. Es heißt, dass das beobachtete Rätsel-Format wertlos ist. Was überlebt, ist kollaboratives Live-Coding: Pairing in einer echten IDE an einem realistischen Problem, bei dem der Interviewer ein mitdenkender Partner ist, kein Aufseher, der auf die richtige Antwort wartet. Das prüft, wie jemand argumentiert, Fragen stellt und sich in unbekanntem Code zurechtfindet – das liegt näher am echten Job und ist mit einem Overlay weit schwerer vorzutäuschen.

Warum KI auch die Take-home-Aufgabe ausgehebelt hat (und warum Überwachung die falsche Lösung ist)

Die unbeaufsichtigte Take-home-Aufgabe ist inzwischen das KI-anfälligste Format überhaupt. Die Lösung ist keine Erkennungssoftware. Die Lösung ist das Design.

Take-home-Aufgaben hatten immer die beste Realitätsnähe vorzuweisen, und sie bleiben wertvoll. Aber eine unbewertete, nicht verteidigte asynchrone Aufgabe ist in Ihrem gesamten Prozess das, was KI am leichtesten erledigt. Der Assessment-Anbieter Fabric berichtet, dass eine auf drei Stunden ausgelegte Take-home-Aufgabe von KI-Tools in rund acht Minuten fertiggestellt wird und dass sich Betrugsversuche in seinem Kandidatenpool im Lauf des Jahres 2025 mehr als verdoppelt haben – von etwa 15 % auf 35 %. Nehmen Sie diese konkreten Zahlen als Richtungsangabe, nicht als unumstößliche Wahrheit; sie stammen aus den eigenen Angaben des Anbieters und sind nicht belegt. Die Richtung selbst steht jedoch außer Frage – und jede Engineering-Führungskraft, die schon einmal eine Take-home-Aufgabe geprüft hat, die sich „zu sauber“ anfühlte, weiß das längst.

Die verlockende Reaktion ist, sich mit Proctoring freizukaufen: Eye-Tracking, Tastenanschlag-Protokollierung, Bildschirmsperre, Browser-Spyware. Widerstehen Sie dem – aus drei Gründen.

Es ist konfrontativ und schadet Ihrer Marke. Engineering ist eine kleine, gesprächige Community. Kandidatinnen und Kandidaten tauschen Überwachungs-Horrorgeschichten aus, und Ihre besten Bewerber sortieren sich selbst aus, bevor sie sich überhaupt bewerben.

Es schafft eigene Bias- und Barrierefreiheitsprobleme. Lockdown- und Eye-Tracking-Tools benachteiligen neurodivergente Kandidaten, Menschen mit Behinderung und alle mit einem unüblichen Setup. In Deutschland verpflichtet das Allgemeine Gleichbehandlungsgesetz (AGG, in Kraft seit 2006) Arbeitgeber, das gesamte Auswahlverfahren – von der Stellenanzeige an – diskriminierungsfrei zu gestalten; die Haftung bleibt beim Arbeitgeber, auch wenn ein automatisiertes Bewertungstool die benachteiligende Wirkung erzeugt hat. Die Antidiskriminierungsstelle des Bundes unterstützt Betroffene dabei.

Es funktioniert nicht einmal. Überwachung bekämpft das Symptom. Ein zweiter Monitor oder ein Smartphone hebelt das meiste davon aus. Sie zahlen mit Vertrauen und Budget und verlieren trotzdem.

Lokaler Kontext

Für den EU-Raum kommt eine Mechanik hinzu, die der Ausgangstext nicht kennt: Nach dem EU AI Act gilt KI, die Bewerber bewertet, filtert oder vorauswählt, als Hochrisiko-System (Anhang III). Daraus folgen verbindliche Pflichten für einsetzende Unternehmen – allen voran eine wirksame menschliche Aufsicht: Keine KI darf eine Absage oder Einstellung allein entscheiden. Eben das leistet die Live-Verteidigung. Die konkreten Hochrisiko-Pflichten greifen erst gestaffelt (ihre Anwendung wurde zuletzt auf Dezember 2027 verschoben); die Richtung der Regulierung steht jedoch fest.

Die dauerhafte Antwort ist Widerstandsfähigkeit durch Design: Bauen Sie Formate, bei denen das Signal im Live-Argumentieren steckt, sodass es nichts gibt, was ein Overlay retten könnte. In manchen Rollen können Sie noch weiter gehen und KI während der Aufgabe ausdrücklich erlauben – und dann bewerten, wie gut der Kandidat sie steuert und hinterfragt, denn genau das spiegelt den echten Job wider.

Welches Bewertungsformat sollten Sie jetzt einsetzen? Ein Entscheidungsrahmen

Stimmen Sie das Format auf den Arbeitsalltag der Rolle ab – und sorgen Sie dafür, dass mindestens eine Runde Urteilsvermögen in Echtzeit erzwingt. Es gibt kein einziges bestes Format; es gibt ein bestes Format für diese Rolle.

Format	Am besten für	Warum es KI standhält
Pair Programming an einem realistischen Problem	Rollen, bei denen Zusammenarbeit und das Arbeiten in unbekanntem Code den Job ausmachen	Das Denken wird live und gemeinsam beobachtet; ein Overlay kann Ihre Argumentation nicht für Sie artikulieren
Take-home-Aufgabe + Live-Verteidigung	Rollen, bei denen tiefe, eigenständige asynchrone Arbeit der Job ist	Die Verteidigungsrunde prüft Entscheidungen, die Kandidatinnen und Kandidaten laut verantworten müssen
System Design	Senior- und Infrastruktur-Rollen	Es geht um Abwägungen und Kommunikation, nicht um abrufbare Antworten
Asynchrones Code-Review von echtem Code	Remote-first-, stark asynchrone Kulturen	Prüft Verständnis und Kritik, nicht Generierung

Der rote Faden durch alle vier ist derselbe: Das KI-sicherste Signal ist ein Kandidat, der echte Entscheidungen in Echtzeit verteidigt. Wählen Sie das Format, das einem normalen Dienstag in der Rolle am nächsten kommt, und sorgen Sie dann dafür, dass der Kandidat sein Denken mindestens einmal einem Menschen erklären muss.

Eine praktische Standardwahl für die meisten Engineering-Rollen in Startups ist die zweite Zeile: eine kurze, vergütete, realistische Take-home-Aufgabe, die zur Agenda für ein Live-Gespräch wird. Sie erhalten die ökologische Validität echter Arbeit plus die Manipulationssicherheit einer Live-Verteidigung. Wenn Sie die taktischen Details zum Entwurf einer solchen Aufgabe selbst möchten – Umfang, Zeitbudget und Bewertung –, lesen Sie unseren ausführlichen Beitrag dazu, wie Sie Code-Aufgaben strukturieren, die Kandidaten nicht hassen.

Der eine Schritt, der jedes Format KI-sicher macht: die Live-Verteidigung

Der dauerhafteste Schutz gegen Betrug ist, jedes asynchrone Artefakt mit einer Live-Verteidigung abzuschließen: „Führen Sie mich durch Ihre Lösung. Ändern Sie nun Anforderung X. Warum haben Sie sich dafür und nicht für die Alternative entschieden?“

Und darum funktioniert es. Ein Overlay-LLM kann den Code produzieren. Was es nicht kann: in Echtzeit erklären, warum ein Datenmodell für diese Vorgabe besser war als ein anderes, sich anpassen, wenn Sie die Spezifikation mitten im Gespräch ändern, oder das debuggen, was es angeblich geschrieben hat. Das Artefakt ist nicht mehr das finale Signal, sondern die Agenda für ein 20- bis 30-minütiges Gespräch über Urteilsvermögen. Wer es wirklich gebaut hat, hat leichtes Spiel. Wer es aus einem Tool kopiert hat, gerät schon beim ersten „Warum“ ins Stocken.

Die Live-Verteidigung behebt ganz nebenbei auch das Fairnessproblem. Sie bewerten nicht mehr die Tippgeschwindigkeit unter Beobachtung – das, was die NC-State-Studie als überwiegend Angst entlarvt hat. Sie bewerten die Argumentation über Arbeit, die Kandidatinnen und Kandidaten bereits im eigenen Tempo geleistet haben – das ist zugleich fairer und ein weit besserer Prädiktor für die spätere Leistung im Job.

Konkret sieht der Schritt in jedem Prozess so aus:

Der Kandidat bearbeitet eine kleine, realistische, vergütete Arbeitsprobe asynchron.
Eine 25-minütige Live-Session beginnt mit „Führen Sie mich durch Ihren Ansatz.“
Sie ändern live eine Anforderung und beobachten, wie er sich anpasst.
Sie bitten ihn, einen Teil aus dem Stand zu debuggen oder zu erweitern.
Die Prüfer bewerten die Argumentation anhand einer Scorecard, bevor die Nachbesprechung beginnt.

Keine Spyware. Keine Anschuldigungen. Nur ein Gespräch, das eine KI nicht stellvertretend für den Kandidaten führen kann.

Wie Anthropic, Stripe, Vercel und Linear tatsächlich einstellen

Die bestgeführten Engineering-Teams haben diese Verlagerung längst vollzogen. Keines von ihnen verlässt sich auf beobachtete Whiteboard-Rätsel, und keines verlässt sich auf Überwachung. Sie verlassen sich auf realistische Arbeit plus Urteilsvermögen in Echtzeit.

Anthropic beginnt mit einem Recruiter-Screen und einem technischen Telefon-Screen; danach folgt entweder eine Take-home-Aufgabe oder eine etwa 60-minütige Live-Bewertung (je nach Rolle, in CodeSignal und ausdrücklich nicht im LeetCode-Stil), anschließend vier bis sechs Onsite-Runden inklusive System Design und einer stark gewichteten Werte-Runde. Bemerkenswert: Ausgerechnet das Unternehmen, das Claude entwickelt, veröffentlicht eine ausdrückliche KI-Richtlinie für Kandidatinnen und Kandidaten. Seit einer Kehrtwende im Juli 2025 dürfen Kandidaten KI nutzen, um Bewerbungsunterlagen zu verfeinern; in Live-Interviews und Take-home-Aufgaben ist sie jedoch untersagt: „Erledigen Sie diese ohne Claude, sofern wir nichts anderes angeben. Wir möchten Ihre individuellen Fähigkeiten beurteilen.“ Das ist KI-Sicherheit durch Design plus Ehrlichkeit gegenüber Kandidaten – vom Team, das den meisten Anlass hat, gründlich darüber nachzudenken.

Stripe führt einen bewusst praxisnahen Prozess durch: eine unbekannte Codebasis debuggen, eine kleine Integration von Grund auf bauen, mehrteilige Probleme bearbeiten und dabei das eigene Denken laut erklären. Einige Runden laufen als Pairing. Das liegt absichtlich näher am echten Engineering als an Wettbewerbsprogrammierung.

Vercel setzt auf eine kollaborative Coding-Session, in der gemeinsam etwas gebaut wird, plus System Design – mit Schwerpunkt auf Produkturteil im Frontend und Kommunikation.

Linear nutzt ein kurzes (rund dreistündiges), vergütetes Projekt im Stil einer Arbeitsprobe, gefolgt von einer Code-Review-Diskussion, und verlangt ein nahezu einstimmiges „klares Ja“ des Auswahlgremiums, bevor ein Angebot ausgesprochen wird. Struktur, eine hohe Messlatte und Berufsnähe – in einem einzigen Prozess.

Ein aufschlussreicher Kontrast ist das GitLab-Muster: ein asynchrones Code-Review eines echten Merge Requests als Grundlage für eine Live-Diskussion. Es prüft, ob jemand echten Code lesen und kritisieren kann, statt ihn zu erzeugen – das passt zu einer remote-asynchronen Kultur. Der Sinn dieser fünf unterschiedlichen Ansätze ist nicht, dass einer richtig wäre. Er ist, dass jedes Unternehmen das Format darauf abgestimmt hat, wie es tatsächlich arbeitet – und dass jedes davon in einem Moment von live verteidigbarem Urteilsvermögen mündet.

Ist das neue Format wirklich fairer? Was die Belege sagen

Berufsnahe Arbeitsproben gehören zu den validesten und am wenigsten verzerrten Auswahlmethoden – aber nur, wenn sie strukturiert sind. Fairness entsteht durch Struktur, Berufsnähe und ein einheitliches Vorgehen, nicht durch das Etikett des Formats.

Seien Sie vorsichtig mit den Zahlen, denn der Kanon wurde kürzlich korrigiert. Sackett, Zhang, Berry und Lievens (2022) werteten jahrzehntelange Personalauswahl-Forschung neu aus und senkten mehrere lange zitierte Validitätsschätzungen:

Strukturierte Interviews sind heute der beste einzelne Prädiktor, mit einer operativen Validität von etwa 0,42 (nach unten korrigiert von 0,51).
Arbeitsprobentests liegen bei etwa 0,33 (deutlich nach unten korrigiert vom lange genannten Wert 0,54).
Allgemeine kognitive Fähigkeit liegt bei etwa 0,31 (herabgesetzt von 0,51).

Die Reihenfolge ist die eigentliche Schlagzeile: Ein gut strukturiertes Interview – die rigoros durchgeführte Live-Verteidigung – sagt die Leistung inzwischen besser voraus als eine reine Arbeitsprobe oder ein kognitiver Test. Das ist ein starkes Argument für den Schritt zur Live-Verteidigung an sich, nicht nur als Taktik gegen Betrug.

Speziell zum Thema Bias: Greifen Sie auf peer-reviewte Effektstärken zurück statt auf die wiedergekäuten Marketing-Statistiken. Aamodts Metaanalyse zeigt, dass unstrukturierte Interviews weit anfälliger für Verzerrungen sind (d = 0,59) als strukturierte (d = 0,23), und die Punktwert-Unterschiede zwischen ethnischen Gruppen schrumpfen, je strukturierter das Verfahren ist. Setzen Sie noch einen Hebel obendrauf: Vergüten Sie Kandidatinnen und Kandidaten für substanzielle Arbeitsproben-Phasen. Campion und Kollegen (2025) fanden heraus, dass Übung und vergütete Arbeitsproben die Punktwert-Unterschiede zwischen Untergruppen verringern – und echte Arbeit zu bezahlen erhöht zudem die Abschlussquote und hilft Menschen mit Betreuungspflichten sowie einkommensschwächeren Kandidaten, die keine unbezahlten Stunden verschenken können.

Warum die „42 % / 81 % Bias-Reduktion“-Statistiken, die Sie kennen, unzuverlässig sind

Sie finden Dutzende Anbieter-Blogs, die behaupten, strukturierte Interviews würden „geschlechtsbezogenen Bias um 42 %, ethnischen Bias um 35 % senken und die Treffsicherheit um 81 % steigern“. Diese drei Zahlen haben keine nachvollziehbare Primärstudie; sie werden von einer Quelle zur nächsten kopiert. Verwenden Sie stattdessen die peer-reviewten Werte von oben. Die Glaubwürdigkeit Ihres Fairness-Arguments hängt davon ab, Forschung zu zitieren, die tatsächlich existiert – gerade in einem regulatorischen Umfeld, in dem Sie Ihr Auswahlverfahren unter dem AGG belegen können müssen.

Faire, KI-sichere Bewertungen von Haus aus gestalten – mit Kit

KI hat das Whiteboard und die unbeaufsichtigte Take-home-Aufgabe im selben Jahr ausgehebelt. Die Lösung ist keine Überwachung. Sie ist das Gestalten des richtigen Formats: berufsnahe Arbeitsproben, vergütet und strukturiert, die stets in einer Live-Verteidigung münden. Das Problem beim Selbermachen ist, dass die Bausteine – die realistische Aufgabe, die Vergütung, die geplante Verteidigung, die unabhängige Bewertung – in fünf verschiedenen Tools stecken und mit der Zeit auseinanderdriften. Kit macht daraus eine einzige zusammensetzbare Pipeline.

Zusammensetzbare Prozessvorlagen bilden diese These direkt ab: Ein Bewerbungsformular fließt in eine Code-Aufgaben-Phase, dann in eine Live-Interview-Runde, dann in die Teambewertung und ein Angebot. Die Take-home-Aufgabe ist so gebaut, dass sie die Agenda für die Verteidigung ist, nicht das finale Signal.
Die Code-Aufgaben-Phase ist eine realistische Arbeitsprobe, kein LeetCode. Sie nutzt ein privates, aus einer Vorlage geklontes GitHub-Repo mit einem echten Branch-und-PR-Workflow und einer konfigurierbaren Frist. Sie ist von Grund auf berufsnah.
Mit Auszahlungen pro Phase vergüten Sie Kandidaten für substanzielle Arbeitsproben-Phasen – das ist zugleich der von Campion (2025) belegte Fairness-Schritt und ein klares Zeichen des Respekts.
Teambewertung mit Prüfern pro Phase liefert Ihnen strukturierte, unabhängige Scorecards vor der Nachbesprechung – der wirkungsvollste Anti-Bias-Hebel in der Forschung und das prüfbare Artefakt, das Sie unter dem AGG schützt.
Live-Interview-Planung macht die Verteidigungsrunde zum Produkt, sodass das „Führen Sie mich durch Ihre Lösung“-Gespräch eine fest eingebaute Phase ist und kein nachträglicher Einfall.

Wenn Sie die Validitätsargumentation in der Tiefe möchten, lesen Sie strukturierte Interview-Scorecards und prädiktive Validität, und für die breitere Abkehr von Rätsel-Screenings siehe warum LeetCode im Post-KI-Interview überholt ist.

Das Whiteboard ist Geschichte, und die unbeaufsichtigte Take-home-Aufgabe ist mit ihm gegangen. Was an ihre Stelle tritt, ist kein neues Gadget. Es ist eine Format-Entscheidung: vergütete, strukturierte, berufsnahe Arbeit, die ein Kandidat laut verteidigt. Bauen Sie das einmal, und Ihr Prozess ist von Grund auf fair und KI-sicher. Starten Sie eine kostenlose Testphase und stellen Sie Ihre erste KI-sichere Pipeline zusammen, oder stöbern Sie in den Rollenvorlagen, um mit einer fertigen zu beginnen.

Das Whiteboard-Interview ist tot: faires, KI-sicheres Recruiting

Sind Whiteboard-Interviews tot? (Ja – und KI ist nur die halbe Erklärung)

Warum KI auch die Take-home-Aufgabe ausgehebelt hat (und warum Überwachung die falsche Lösung ist)

Welches Bewertungsformat sollten Sie jetzt einsetzen? Ein Entscheidungsrahmen

Der eine Schritt, der jedes Format KI-sicher macht: die Live-Verteidigung

Wie Anthropic, Stripe, Vercel und Linear tatsächlich einstellen

Ist das neue Format wirklich fairer? Was die Belege sagen

Warum die „42 % / 81 % Bias-Reduktion“-Statistiken, die Sie kennen, unzuverlässig sind

Faire, KI-sichere Bewertungen von Haus aus gestalten – mit Kit

Verwandte Artikel

Bereit, smarter einzustellen?

Sind Whiteboard-Interviews tot? (Ja – und KI ist nur die halbe Erklärung)

Warum KI auch die Take-home-Aufgabe ausgehebelt hat (und warum Überwachung die falsche Lösung ist)

Welches Bewertungsformat sollten Sie jetzt einsetzen? Ein Entscheidungsrahmen

Der eine Schritt, der jedes Format KI-sicher macht: die Live-Verteidigung

Wie Anthropic, Stripe, Vercel und Linear tatsächlich einstellen

Ist das neue Format wirklich fairer? Was die Belege sagen

Warum die „42 % / 81 % Bias-Reduktion“-Statistiken, die Sie kennen, unzuverlässig sind

Faire, KI-sichere Bewertungen von Haus aus gestalten – mit Kit

Verwandte Artikel

Gehaltsdaten gehören in Ihr ATS, nicht in einen Browser-Tab

CISO-Burnout ist ein Problem der Abläufe, nicht der Bezahlung

Die ATS-Produktkriege 2026: Was Recruiter wirklich wollen

KI-Schummeln im Interview ist die Norm. So lösen Sie es

Kandidaten misstrauen Recruitern? Beweisen Sie Ihre Echtheit.

Das Fenster für Security-Talente ist offen: CISA-Kürzungen + Huntr-Aus

Bereit, smarter einzustellen?