KI-Schummeln im Interview ist nicht erkennbar. Bauen Sie den Test um.
Unsichtbare KI-Overlays wie Cluely schlagen Live-Coding und Proctoring. Die Lösung ist nicht mehr Überwachung, sondern Assessments, die Denkleistung messen, die KI nicht vortäuschen kann.
Ernest Bursa
KI-Schummeln im Interview nutzt unsichtbare Bildschirm-Overlays wie Cluely und Interview Coder, um Kandidaten während technischer Live-Interviews KI-generierte Antworten einzuspielen. Die Overlays klinken sich direkt in die Grafikschicht ein und bleiben so für Screen-Sharing und Proctoring unsichtbar. Weil diese Tools gezielt darauf ausgelegt sind, nicht erkennbar zu sein, ist ihr Aufspüren ein Wettrüsten, das Sie verlieren. Die nachhaltige Lösung besteht darin, Ihr Assessment so umzubauen, dass es Denkleistung und Urteilsvermögen misst – etwas, das KI nicht vortäuschen kann.
Das ist die unbequeme Verschiebung, die das technische Recruiting gerade durchläuft. Ihre Live-Coding-Runde und Ihre Take-Home-Aufgabe galten als verlässliche Signale. Eine ganze Klasse von Consumer-Tools hat beide unsichtbar ausgehebelt, und die meisten Teams haben es noch nicht bemerkt. Dieser Beitrag zeigt, wie das Schummeln funktioniert, welchen Zahlen Sie wirklich trauen können, warum Erkennung eine Sackgasse ist und wie ein schummelresistentes Assessment in der Praxis aussieht.
Was ist KI-Schummeln im Interview, und wie funktionieren Cluely und Interview Coder?
Tools zum KI-Schummeln im Interview greifen das Audio des Interviewers und den auf dem Bildschirm angezeigten Aufgabentext ab, schicken beides durch ein Large Language Model und blenden die Antwort in einem Overlay ein, das der Kandidat sieht, das Screen-Sharing aber nicht. Ihre Unsichtbarkeit erreichen sie, indem sie sich direkt in die Grafikschicht einklinken (DirectX unter Windows, Metal unter macOS), sodass die Antwort nie im geteilten Fenster auftaucht. Die berichtete Reaktionszeit liegt bei etwa ein bis zwei Sekunden.
Interview Coder wurde von zwei Columbia-Studenten gebaut, Chungin „Roy” Lee und Neel Shanmugam, um LeetCode-artige Interviews auszuhebeln. Lee filmte sich dabei, wie er mit dem unsichtbaren Overlay ein technisches Amazon-Interview bestand, stellte das Video öffentlich online – und die beiden wurden von Columbia suspendiert. Im April 2025 wurde das Projekt umbenannt und zu Cluely ausgebaut, dessen Pitch unverblümt lautete: „cheat on everything” – schummle bei allem.
Das ist kein Bastler-Hack aus der Nische. Cluely sammelte im Juni 2025 eine Series A über 15 Mio. $ ein, angeführt von Andreessen Horowitz, rund zwei Monate nach einer Seed-Runde über 5,3 Mio. $. Hinter dem Vorhaben, das Schummeln im Interview reibungslos und unsichtbar zu machen, stecken echtes Kapital und echtes Engineering.
Eine passende Ironie verdient einen kurzen Moment. In einem Interview mit TechCrunch im März 2026 gab Roy Lee zu, dass die Zahl von „7 Mio. $ ARR”, die er im Juli zuvor öffentlich behauptet hatte, frei erfunden war; seine tatsächlichen Stripe-Daten zeigten rund 5,2 Mio. $. Er nannte es „die einzige glatt unehrliche Sache, die ich öffentlich gesagt habe”. Ein Unternehmen, dessen gesamtes Produkt nicht erkennbare Unehrlichkeit ist, wurde bei der Unehrlichkeit ertappt. Die Lehre für Recruiting-Teams ist eindeutig: Sie können ein Tool – oder eine Kultur –, das auf Täuschung gebaut ist, nicht durch besseres Erkennen schlagen. Sie müssen ändern, was Sie messen.
Wie groß ist das Problem, und welchen Zahlen können Sie trauen?
Die ehrliche Antwort lautet: Das Schummeln ist weit verbreitet, aber die meistzitierte Statistik ist die unzuverlässigste. Beginnen Sie bei den unabhängigen Belegen und behandeln Sie die Anbieterzahlen mit der gebotenen Skepsis.
Das stärkste unabhängige Signal stammt von interviewing.io, das im Oktober 2025 67 Interviewer bei FAANG-Unternehmen und FAANG-nahen Firmen befragt hat. Die Ergebnisse:
- 81 % vermuten, dass Kandidaten in ihren Interviews KI zum Schummeln eingesetzt haben.
- Rund 33 % haben tatsächlich jemanden dabei erwischt.
- 75 % glauben, dass KI-Unterstützung schwächeren Kandidaten Interviews bestehen lässt, an denen sie sonst gescheitert wären.
Das deckt sich mit Karat, dessen Mitgründer berichtete, dass rund 80 % der Kandidaten LLMs bei Coding-Tests einsetzen, selbst wenn ihnen das ausdrücklich untersagt wurde. Zwei unabhängige Praktiker-Quellen, die in dieselbe Richtung weisen.
Nun zur Schlagzeilen-Zahl, die Ihnen wahrscheinlich schon begegnet ist. Fabric, eine KI-Interview-Plattform, meldete, dass 38,5 % der Kandidaten wegen Schummelns markiert wurden – über 19.368 Interviews auf der eigenen Plattform zwischen Juli 2025 und Januar 2026. Behandeln Sie das mit Vorsicht, und zwar aus genau diesem Grund: Die Zahl stammt von einem einzigen Anbieter, der das Erkennungsprodukt verkauft, misst „Schummeln” als Wahrscheinlichkeitswert oberhalb eines Schwellenwerts aus dem eigenen Modell und das auf Interviews, die auf der eigenen KI-geführten Plattform laufen. „Von einem Erkennungsmodell markiert” ist nicht dasselbe wie „nachweislich geschummelt”. Fabrics eigene Veröffentlichungen nennen an anderer Stelle widersprüchliche Zahlen (38,5 %, 35 % und 15 % tauchen alle auf). Wenn Sie sie zitieren, schreiben Sie sie Fabric zu und benennen Sie sie als das, was sie ist: eine Selbstmessung des Anbieters, kein gesicherter Fakt über die Wirklichkeit.
Die Kernaussage hängt nicht von Fabrics Zahl ab. Unabhängige Interviewer sagen Ihnen, dass die meisten von ihnen Schummeln vermuten und ein Drittel es erwischt hat. Allein das sollte ändern, wie Sie Ihren Prozess führen.
Warum Erkennung und Proctoring das Wettrüsten verlieren
Erkennung verliert, weil die Tools gezielt darauf ausgelegt sind, sie zu überwinden. Ein Overlay, das sich in die Grafikschicht einklinkt, ist für Screen-Sharing schon vom Design her unsichtbar. Ein zweites Gerät, das außerhalb des Kamerabilds liegt, ist für jeden Browser-Lockdown unsichtbar. Eye-Tracking und Tastatur-Analyse erzeugen False Positives, die nervöse, aber ehrliche Kandidaten bestrafen, während ein ruhiger Schummler ungehindert durchkommt. Jede Erkennungsschicht, die Sie hinzufügen, umgeht das nächste Release wieder – und sie verschlechtert das Erlebnis für alle, die nicht schummeln.
Den saubersten Beweis dafür, dass Erkennung versagt, liefert das kontrollierte Experiment von interviewing.io. Sie führten 37 Mock-Interviews durch (32 davon auswertbar) mit erfahrenen Engineers (vier oder mehr Jahre Erfahrung), die angewiesen waren, heimlich ChatGPT zu nutzen, während die Interviewer nichts vom Setup wussten. Die Ergebnisse sind unmissverständlich:
| Fragetyp | Bestehensquote mit heimlicher ChatGPT-Nutzung |
|---|---|
| Wortwörtliche LeetCode-Fragen | 73 % |
| Leicht abgewandelte LeetCode-Fragen | 67 % |
| Eigene, neuartige Fragen | 25 % |
| Kontrollgruppe (kein Schummeln) | 53 % |
Zwei Befunde aus diesem Experiment wiegen am schwersten. Erstens: Kein einziger Interviewer hat das Schummeln bemerkt, nicht einmal bei einer Bestehensquote von 73 %. Zweitens: 81 % der schummelnden Kandidaten waren überzeugt, ungeschoren davongekommen zu sein. Menschliche Erkennung versagte bei wortwörtlichen Fragen vollständig. Kein Proctoring-Produkt hätte es besser gemacht, denn die KI-Ausgabe berührte den geteilten Bildschirm zu keinem Zeitpunkt.
Doch werfen Sie einen Blick auf die letzte Zeile der Tabelle. Dasselbe Schummeln, das bei wortwörtlichen Fragen in 73 % der Fälle funktionierte, klappte bei eigenen Fragen nur in 25 %. Erkennung brachte nichts. Der Umbau senkte den Erfolg des Schummelns um rund zwei Drittel. Das ist das ganze Argument in einer einzigen Zeile.
Die Lösung: Assessments so umbauen, dass KI-Unterstützung egal oder erwünscht ist
Die nachhaltige Antwort besteht nicht darin, die KI am Eingang zu erwischen. Sie besteht darin, den Eingang so umzubauen, dass KI-Unterstützung nichts nützt – oder dass Sie ihre Anwesenheit voraussetzen und bewerten, wie gut der Kandidat sie einsetzt. Die Daten von interviewing.io zeigten die Richtung bereits: Eigene, neuartige Aufgaben lassen den Schummel-Vorteil zusammenbrechen, weil das Modell keine öffentliche Antwort hat, an der es sich orientieren könnte.
Eine Einschränkung aus derselben Untersuchung ist wichtig. Eine bestehende LeetCode-Aufgabe bloß umzuformulieren reicht nicht. Leicht abgewandelte Fragen hatten immer noch eine Schummel-Bestehensquote von 67 %, kaum unter den wortwörtlichen. Eine wirksame eigene Frage braucht echte, einzigartige Inputs und Outputs, idealerweise an Ihre eigene Domäne gebunden, damit das Modell sie nicht wiedererkennt. Die wiederkehrenden Prinzipien über die unabhängigen Quellen hinweg sehen so aus:
- Bewerten Sie Denkweise und Vorgehen, nicht die Syntax der Endantwort. Die Antwort ist heute der billige Teil. Wie ein Kandidat das Problem fasst, Tradeoffs abwägt und sich von einem Irrweg erholt, ist das Signal.
- Nutzen Sie eigene Aufgaben mit neuartigen Inputs und Outputs. Nicht öffentlich, nicht veröffentlicht, kein Neuanstrich eines bekannten Rätsels.
- Hinterfragen Sie das Verständnis mit Zeile-für-Zeile-Nachfragen. „Warum haben Sie diese Datenstruktur gewählt?” „Erweitern Sie das jetzt für diesen Fall.” Wer sich auf ein Overlay verlassen hat, kann Code, den er nicht durchdacht hat, weder verteidigen noch anpassen.
- Nutzen Sie realistische, mehrstufige Aufgaben über mehrere Dateien. Selbst modernste Modelle bauen bei langen, mehrstufigen Denkketten ab, und echte Arbeit ist keine einzelne Funktion mit einem einzigen korrekten Output.
- Wo es zur Rolle passt, setzen Sie KI als gegeben voraus. Bewerten Sie, wie gut der Kandidat die KI steuert, kritisiert und korrigiert, denn genau das ist der Job heute.
Der letzte Punkt zeigt, wohin sich die Branche bewegt. CodeSignal hat KI-gestützte Assessments eingeführt, die Kandidaten KI nutzen lassen und bewerten, wie gut sie das tun. Die reife Haltung lautet nicht „KI aussperren”, sondern „KI als gegeben voraussetzen und das menschliche Urteilsvermögen drumherum messen”.
Das ist keine Außenseitermeinung, und es bedeutet nicht, Ihren Prozess niederzubrennen. In derselben interviewing.io-Befragung mit 52 FAANG-Teilnehmern sagte niemand, sein Unternehmen habe algorithmische Fragen aufgegeben, aber 58 % gaben an, die Art der Fragen geändert zu haben, und nur rund 11 % hatten Software zur Schummel-Erkennung eingeführt. Mehr als die Hälfte sagte voraus, dass algorithmische Interviews binnen zwei bis fünf Jahren an Bedeutung verlieren. Meta-Interviewer berichteten von einem Wechsel zu „offeneren Fragen, die das Denken ausloten”. Der realistische Weg heißt Umbau – nicht Überwachung und nicht Aufgabe.
Wie ein schummelresistentes technisches Assessment in der Praxis aussieht
Ein schummelresistentes Assessment ist eines, bei dem KI-Unterstützung das Ergebnis nicht verändert, weil Sie Dinge messen, die KI nicht stellvertretend für jemanden vortäuschen kann: das Einordnen in die Domäne, verteidigbare Entscheidungen und die Fähigkeit, die Arbeit live zu erweitern. So sieht die konkrete Form aus.
Geben Sie eine eigene, unternehmensspezifische Aufgabe über mehrere Dateien
Ersetzen Sie das öffentliche Algorithmus-Rätsel durch einen kleinen Ausschnitt Ihres echten Problems. Ein Bug in einer realistischen Codebasis, ein Feature aufbauend auf Starter-Code, den Sie geschrieben haben, eine Aufgabe zur Datenmodellierung mit Inputs, die kein Modell je gesehen hat. Weil sie Ihnen gehört, hat kein LLM eine auswendig gelernte Antwort – und genau das ist die Bedingung, die die Schummel-Bestehensquote von 73 % auf 25 % gedrückt hat. Mehr dazu, wie Sie Aufgaben bauen, die Kandidaten respektieren, finden Sie unter So strukturieren Sie Code-Aufgaben.
Setzen Sie direkt nach der Take-Home eine „Erklären und erweitern Sie”-Runde an
Das ist die wirkungsvollste Einzeländerung. Planen Sie unmittelbar nach der Aufgabe eine Live-Runde, deren einziger Zweck darin besteht, dass der Kandidat seine Lösung Zeile für Zeile erklärt und sie dann an Ort und Stelle erweitert. „Fügen Sie diesen Randfall hinzu.” „Refaktorieren Sie das für bessere Lesbarkeit.” Wer die Aufgabe wirklich gelöst hat, schafft das mühelos. Wer die Ausgabe eines Overlays eingefügt hat, kann es nicht, weil er nie das mentale Modell aufgebaut hat. Damit setzen Sie den Zeile-für-Zeile-Befund von interviewing.io direkt in Ihrer Pipeline um.
Bewerten Sie mit strukturierten, gewichteten, blinden Bewertungen
Lassen Sie mehrere Prüfer dieselbe Einreichung anhand derselben benannten Kriterien bewerten, gewichtet nach dem, was für die Rolle zählt, bevor sie die Stimmen der anderen sehen. Blinde Abstimmung beseitigt den Ankereffekt. Gewichtete Scorecards zwingen alle, dieselben Kompetenzen zu bewerten statt nach Bauchgefühl. Genau hier fangen Sie das Denksignal ein, das ein bloßes Bestanden/Nicht-bestanden wegwirft.
Ändern Sie den Fragetyp, verbannen Sie nicht den Algorithmus
FAANG hat algorithmische Interviews nicht aufgegeben; man hat die Art der Frage geändert und offene Nachfragen ergänzt. Sie können einen Screening-Filter behalten und zugleich die entscheidenden Runden gegen einmalige KI-Antworten resistent machen. Das Ziel ist Signal, nicht Reinheit.
Warum strukturierte, denkleistungsorientierte Bewertung das eigentliche Upgrade ist
Strukturierte Bewertung ist die am besten belegte Idee in diesem ganzen Beitrag, und sie ist älter als die KI-Ära. Strukturierte Interviews, bei denen jeder Kandidat dieselben Fragen erhält, bewertet anhand desselben verhaltensverankerten Rasters, sagen die Arbeitsleistung etwa doppelt so gut voraus wie unstrukturierte. Standardisierte Scorecards reduzieren Rauschen und Verzerrung, weil sie alle an denselben Kriterien messen statt an der Laune des Interviewers. Empfohlen werden üblicherweise 5 bis 7 gewichtete Kompetenzen.
KI-Schummeln hat den Grund für strukturierte Bewertung nicht geschaffen; es hat ihn dringend gemacht. Wenn die Endantwort zur Massenware wird, ist das einzige nachhaltige Signal, wie der Kandidat dorthin gelangt ist und ob er es verteidigen kann. Ein Raster, das „Tradeoffs klar erklärt” und „Lösung unter Druck korrekt erweitert” bewertet, misst genau das, was ein Overlay nicht liefern kann. Wer das tiefere Argument möchte, liest Strukturierte Interview-Scorecards und prognostische Validität.
Der Wechsel im Denken geht vom Erwischen zum Messen. Hören Sie auf zu fragen „Schummelt diese Person?” und beginnen Sie zu fragen „Kann diese Person dieses Problem hier und jetzt vor mir durchdenken?” Die zweite Frage lässt sich schwerer austricksen und sagt weit mehr voraus.
Wie Kit schummelresistente Bewertung in die Pipeline einbaut
Der Markt zerfällt größtenteils in zwei Lager. Erkennungsanbieter führen ein Wettrüsten gegen Tools, die auf Ebene der Grafikschicht entwickelt wurden. Assessment-Plattformen bauen großartige Aufgaben, leben aber in einem eigenen Silo getrennt von Ihrer Pipeline. Kit geht den dritten Weg: Es macht strukturierte, denkleistungsorientierte Bewertung zur Standardform der Pipeline selbst, sodass der Umbau einmal gebaut und wiederverwendet wird, statt pro Rolle improvisiert.
So lässt sich das auf alles oben Gesagte abbilden:
- Code-Aufgaben mit echten GitHub-Repos im Hintergrund. Jeder Kandidat erhält ein privates Repo, generiert aus Ihrem eigenen Template-Repository – mit Ihrem README, Ihrem Starter-Code, sogar Ihrer CI. Genau das macht es möglich, eine eigene, unternehmensspezifische Aufgabe über mehrere Dateien auszuliefern statt eines öffentlichen Rätsels – und das ist die Designentscheidung, die den KI-Schummel-Vorteil zusammenbrechen lässt.
- Eine Live-Runde zum Verteidigen und Erweitern, direkt im Anschluss. Mit Kits Prozessvorlagen ordnen Sie die Phasen frei an, sodass Sie unmittelbar nach der Code-Aufgabe eine Live-Interview-Runde einschieben können, deren Zweck lautet: „Erklären und erweitern Sie Ihre Lösung.” Wer sich auf ein Overlay verlassen hat, kann den Code nicht authentisch verteidigen oder verändern.
- Strukturierte Teambewertung mit blinder Abstimmung und gewichteten Scorecards. Prüfer bewerten dieselbe Einreichung anhand benannter, gewichteter Kriterien mit Empfehlungen von „klares Nein” bis „klares Ja” und können blind abstimmen, sodass sich niemand an der führenden Stimme orientiert. Das ist das strukturierte Raster, das laut Forschung die prognostische Validität verdoppelt – angewandt auf Denkleistung statt auf ein grünes Häkchen.
- Bewusste Panel-Entscheidungen statt Abnicken. Die Abstimmung unterstützt einen Schwellenwert für Ja-Stimmen, die Pflicht aller Prüfer und ein automatisches Ablehnen per Veto, wobei uneindeutige Runden an einen Menschen mit „braucht eine Entscheidung” weitergeleitet werden. Ein Panel entscheidet anhand der Signalqualität, statt dass ein Algorithmus eine Ausgabe durchwinkt, die ein Bot erzeugt haben könnte.
- Wiederverwendbare Prozessvorlagen. Bauen Sie die schummelresistente Pipeline einmal als Prozessvorlage und verwenden Sie sie über Rollen hinweg wieder, sodass denkleistungsorientiertes Recruiting der Standard ist und kein heroischer Einzelfall.
Um klarzustellen, was Kit nicht tut: Es gibt keine KI-Schummel-Erkennung, kein Proctoring, kein Eye-Tracking und keinen Autograder. Das ist Absicht. Sie können ein Tool, das gebaut wurde, um unsichtbar zu sein, nicht zuverlässig erkennen. Also versucht Kit gar nicht erst, das Schummeln zu erwischen. Es hilft Ihnen, das zu messen, was das Schummeln nicht vortäuschen kann – die ehrlichere und stärkere Position.
Die Bedrohung ist real, und die Überwachungsantwort ist eine Falle. Unsichtbare Overlays schlagen Live-Coding und sie schlagen Proctoring, und die Daten zeigen: kein einziger Interviewer bemerkt es. Dieselben Daten zeigen, dass eigene Fragen den Schummel-Vorteil um zwei Drittel senken und strukturierte Bewertung die prognostische Validität in etwa verdoppelt. Hören Sie auf, KI am Eingang erwischen zu wollen. Bauen Sie den Eingang so um, dass KI-Unterstützung egal ist – und machen Sie diesen Umbau zur Standardform Ihrer Pipeline.
Wenn Sie das technische Assessment für die KI-Ära neu denken, starten Sie eine kostenlose Testphase und bauen Sie eine Pipeline aus Code-Aufgabe plus strukturierter Bewertung, die Denkleistung misst statt Syntax. Zur benachbarten Identitätsbedrohung, bei der der Kandidat selbst gefälscht sein könnte, lesen Sie Deepfake-Kandidaten und KI-Betrug im Recruiting.
Verwandte Artikel
Im Auswertungsgespräch sterben die guten Personalentscheidungen
Nicht das Interview, sondern das Auswertungsgespräch entscheidet über die Einstellungsqualität. Die lauteste Stimme gewinnt, jüngere Interviewer knicken ein. Hier sind die Belege und die Lösung.
Inklusives Recruiting: Wie verankerte Bewertungen die Lücke schließen
Unstrukturierte Interviews benachteiligen unterrepräsentierte Kandidaten klammheimlich. Verankerte, kriteriengeführte Bewertungen verkleinern die Lücke beim Weiterkommen und sagen die Leistung zuverlässiger voraus.
Streit um Bug-Bounty-Auszahlungen: SLAs und Fairness in Ihrem VDP
AMD brauchte 124 Tage, um eine kritische Schwachstelle zu schließen, und verweigerte dem Forscher dann die Prämie von 10.000 $ als außerhalb des Geltungsbereichs. So betreiben Sie ein VDP mit veröffentlichten SLAs und einer transparenten, im Hauptbuch erfassten Prämienmatrix.
Bereit, smarter einzustellen?
Kostenlos starten. Keine Kreditkarte erforderlich. Richte deine erste Hiring-Pipeline in wenigen Minuten ein.
Kostenlos starten