La triche par IA en entretien repose sur des surcouches d'écran invisibles, comme Cluely et Interview Coder, qui soufflent aux candidats des réponses générées par IA pendant les entretiens techniques en direct. Ces surcouches s'accrochent à la couche graphique : elles restent invisibles au partage d'écran comme à la surveillance. Comme ces outils sont conçus pour être indétectables, vouloir les démasquer revient à entrer dans une course à l'armement perdue d'avance. La vraie solution durable consiste à repenser votre évaluation pour mesurer le raisonnement et le jugement, deux choses que l'IA ne sait pas feindre.

C'est le basculement inconfortable que vit le recrutement technique en ce moment. Votre épreuve de live coding et votre exercice à rendre étaient vos signaux de confiance. Une catégorie d'outils grand public les a brisés tous les deux, sans laisser de trace, et la plupart des équipes ne s'en sont pas encore aperçues. Cet article décortique le fonctionnement de la triche, les chiffres auxquels vous pouvez réellement vous fier, pourquoi la détection est une impasse, et à quoi ressemble concrètement une évaluation résistante à la triche.

## Qu'est-ce que la triche par IA en entretien, et comment fonctionnent Cluely et Interview Coder ?

Les outils de triche par IA en entretien captent l'audio du recruteur et le texte de l'énoncé affiché à l'écran, les passent dans un grand modèle de langage, puis affichent la réponse dans une surcouche que le candidat voit mais que le partage d'écran ne capture pas. L'invisibilité vient du fait qu'ils s'accrochent directement à la couche graphique (DirectX sous Windows, Metal sous macOS) : la réponse n'apparaît jamais dans la fenêtre partagée. La latence de réponse annoncée tourne autour d'une à deux secondes.

Interview Coder a été développé par deux étudiants de Columbia, Chungin « Roy » Lee et Neel Shanmugam, pour déjouer les entretiens de type LeetCode. Lee s'est filmé en train d'utiliser la surcouche invisible pour réussir un entretien technique chez Amazon, a publié la vidéo, et le duo a été suspendu de Columbia. En avril 2025, le projet a été rebaptisé et étendu pour devenir Cluely, dont le slogan était, sans détour : « cheat on everything » (trichez sur tout).

Ce n'est pas le bricolage marginal d'un amateur. Cluely a levé une série A de 15 M$ menée par Andreessen Horowitz en juin 2025, environ deux mois après un tour d'amorçage de 5,3 M$. Il y a de vrais capitaux et une vraie ingénierie derrière l'objectif de rendre la triche en entretien fluide et invisible.

Il y a là une ironie savoureuse, qui mérite qu'on s'y arrête. Dans une interview accordée à TechCrunch en mars 2026, Roy Lee a reconnu que le chiffre de « 7 M$ d'ARR » qu'il avait revendiqué publiquement en juillet précédent était inventé ; ses données Stripe réelles montraient plutôt autour de 5,2 M$. Il a parlé de « la seule chose ouvertement malhonnête que j'aie dite en public ». Une entreprise dont tout le produit repose sur la malhonnêteté indétectable s'est fait prendre à être malhonnête. La leçon pour les équipes de recrutement est limpide : vous ne pouvez pas surpasser en détection un outil, ou une culture, conçus pour tromper. Il faut changer ce que vous mesurez.

## Quelle est l'ampleur du problème, et à quels chiffres se fier ?

La réponse honnête, c'est que la triche est répandue, mais que la statistique la plus citée est aussi la moins fiable. Commencez par les preuves indépendantes, puis abordez les chiffres des éditeurs avec la méfiance qui s'impose.

Le signal indépendant le plus solide vient d'interviewing.io, qui a interrogé 67 recruteurs techniques d'entreprises FAANG et assimilées en octobre 2025. Les résultats :

- **81 % soupçonnent** que des candidats ont utilisé l'IA pour tricher lors de leurs entretiens.
- **Environ 33 % en ont réellement pris** un sur le fait.
- **75 % estiment** que l'assistance IA permet à des candidats plus faibles de réussir des entretiens qu'ils auraient autrement échoués.

Ce constat se recoupe avec celui de Karat, dont le cofondateur a rapporté qu'environ **80 % des candidats utilisent des LLM lors des tests de code, même lorsqu'on leur a explicitement demandé de ne pas le faire**. Deux sources de terrain indépendantes, qui pointent dans la même direction.

Venons-en maintenant au chiffre vedette que vous avez sans doute vu passer. Fabric, une plateforme d'entretien par IA, a rapporté que **38,5 % des candidats ont été signalés pour triche** sur 19 368 entretiens menés sur sa propre plateforme entre juillet 2025 et janvier 2026. À prendre avec des pincettes, et voici précisément pourquoi. Le chiffre vient d'un seul éditeur, qui vend justement le produit de détection, qui mesure la « triche » comme un score de probabilité supérieur à un seuil issu de son propre modèle, sur des entretiens menés sur sa propre plateforme pilotée par IA. « Signalé par un modèle de détection » n'est pas la même chose que « triche avérée ». Les propres publications de Fabric donnent ailleurs des chiffres contradictoires (on trouve à la fois 38,5 %, 35 % et 15 %). Si vous le citez, attribuez-le à Fabric et qualifiez-le pour ce qu'il est : une mesure éditeur sur ses propres données, pas un fait établi sur la réalité.

La conclusion ne dépend pas du chiffre de Fabric. Des recruteurs indépendants vous disent que la plupart d'entre eux soupçonnent de la triche et qu'un tiers en ont pris un sur le fait. Cela seul devrait changer votre façon de mener votre processus.

## Pourquoi la détection et la surveillance perdent la course à l'armement

La détection perd parce que les outils sont conçus spécifiquement pour la déjouer. Une surcouche qui s'accroche à la couche graphique est invisible au partage d'écran par construction. Un second appareil posé hors champ est invisible à tout verrouillage du navigateur. Le suivi du regard et l'analyse de frappe produisent des faux positifs qui sanctionnent les candidats honnêtes mais stressés, pendant qu'un tricheur serein passe sans encombre. Chaque couche de détection que vous ajoutez, la prochaine version la contourne, et elle dégrade l'expérience de tous ceux qui ne trichent pas.

La preuve la plus nette de l'échec de la détection, c'est l'expérience contrôlée d'interviewing.io. Ils ont mené 37 entretiens fictifs (32 exploitables) avec des ingénieurs expérimentés (quatre ans d'expérience ou plus), à qui l'on avait demandé d'utiliser secrètement ChatGPT, sans que les recruteurs soient au courant du dispositif. Les résultats sont sans appel :

| Type de question | Taux de réussite avec usage secret de ChatGPT |
|---|---|
| Questions LeetCode reprises mot pour mot | **73 %** |
| LeetCode légèrement modifié | **67 %** |
| Questions originales, sur mesure | **25 %** |
| Témoin (sans triche) | 53 % |

Deux enseignements de cette expérience comptent par-dessus tout. Premièrement, **pas un seul recruteur n'a repéré la triche**, même à 73 % de taux de réussite. Deuxièmement, **81 % des candidats tricheurs étaient convaincus de s'en être tirés**. La détection humaine a totalement échoué face aux questions reprises mot pour mot. Aucun produit de surveillance n'aurait fait mieux, car la sortie de l'IA n'a jamais touché l'écran partagé.

Mais regardez le bas du tableau. La même triche qui marchait 73 % du temps sur les questions reprises mot pour mot ne marchait plus que 25 % du temps sur les questions sur mesure. La détection n'y a rien fait. Le fait de repenser l'épreuve a réduit le succès de la triche d'environ deux tiers. C'est tout l'argument résumé en une seule ligne.

## La solution : repenser les évaluations pour que l'assistance IA soit sans effet ou assumée

La réponse durable n'est pas d'arrêter l'IA à l'entrée. C'est de repenser l'entrée pour que l'assistance IA n'apporte rien, ou bien de partir du principe qu'elle est présente et d'évaluer la maîtrise avec laquelle le candidat s'en sert. Les données d'interviewing.io en montraient déjà la direction : les problèmes originaux, sur mesure, font s'effondrer l'avantage de la triche, car le modèle n'a aucune réponse publique sur laquelle calquer un schéma.

Une réserve issue de la même étude est importante. Se contenter de reformuler un problème LeetCode existant **ne suffit pas**. Les questions légèrement modifiées affichaient encore un taux de réussite par triche de 67 %, à peine en dessous de la version intégrale. Une bonne question sur mesure exige des entrées et des sorties véritablement uniques, idéalement liées à votre propre domaine, pour que le modèle ne puisse pas la reconnaître. Les principes qui reviennent d'une source indépendante à l'autre ressemblent à ceci :

1. **Validez le raisonnement et la démarche, pas la syntaxe de la réponse finale.** La réponse est désormais la partie la moins chère. La façon dont un candidat cadre le problème, arbitre les compromis et se rattrape après une fausse piste, voilà le signal.
2. **Utilisez des problèmes sur mesure, avec des entrées et des sorties originales.** Ni publics, ni publiés, ni un simple relookage d'une énigme connue.
3. **Sondez la compréhension par des relances ligne par ligne.** « Pourquoi avoir choisi cette structure de données ? » « Maintenant, étendez-la pour gérer ce cas. » Un candidat qui s'est appuyé sur une surcouche ne peut ni défendre ni modifier du code qu'il n'a pas raisonné.
4. **Utilisez des tâches réalistes, en plusieurs étapes et plusieurs fichiers.** Les modèles les plus avancés se dégradent encore sur les longues chaînes de raisonnement en plusieurs étapes, et le vrai travail n'est pas une fonction unique avec une seule sortie correcte.
5. **Là où le rôle s'y prête, considérez l'IA comme acquise.** Évaluez la maîtrise avec laquelle le candidat dirige, critique et corrige l'IA, car c'est ça, le métier aujourd'hui.

Ce dernier point, c'est là que se situe la frontière du secteur. CodeSignal a lancé des évaluations assistées par IA qui autorisent les candidats à utiliser l'IA et notent leur façon de s'en servir. La posture mûre n'est pas « bloquer l'IA ». C'est « partir du principe que l'IA est là, et mesurer le jugement humain qui l'entoure ».

Ce n'est pas une vue marginale, et cela ne veut pas dire raser votre processus. Dans le même sondage interviewing.io auprès de 52 répondants FAANG, **aucun n'a déclaré que son entreprise avait abandonné les questions algorithmiques**, mais **58 % ont dit avoir changé le type de questions** qu'ils posent, et environ 11 % seulement avaient adopté un logiciel de détection de triche. Plus de la moitié prédisent que les entretiens algorithmiques perdront en importance d'ici deux à cinq ans. Des recruteurs de Meta ont rapporté un glissement vers des « questions plus ouvertes qui sondent la réflexion ». La voie réaliste, c'est de repenser, pas de surveiller, et pas d'abandonner.

<div class="blog-inline-cta">
  <p><strong>Prêt à bâtir un pipeline qui place le raisonnement en premier ?</strong> Kit vous permet de générer un exercice de code sur mesure, propre à votre entreprise, à partir de votre propre modèle GitHub, puis de l'acheminer vers une revue d'équipe structurée et à l'aveugle, où vous notez la façon dont le candidat a raisonné, et pas seulement si les tests passent.</p>
  <p><a href="/users/sign_up">Démarrez votre essai gratuit</a></p>
</div>

## À quoi ressemble concrètement une évaluation technique résistante à la triche

Une évaluation résistante à la triche, c'est une évaluation où l'assistance IA ne change rien au résultat, parce que vous mesurez des choses que l'IA ne peut pas feindre à la place de quelqu'un : le cadrage métier, des décisions défendables, et la capacité à étendre le travail en direct. Voici la forme concrète.

### Donnez une tâche sur mesure, en plusieurs fichiers, propre à votre entreprise

Remplacez l'énigme algorithmique publique par une petite tranche de votre vrai problème. Un bug dans une base de code réaliste, une fonctionnalité par-dessus un code de départ que vous avez écrit, une tâche de modélisation de données avec des entrées qu'aucun modèle n'a jamais vues. Comme c'est à vous, aucun LLM n'en a mémorisé la réponse, ce qui est exactement la condition qui a fait chuter le taux de réussite par triche de 73 % à 25 %. Pour aller plus loin sur la construction de tâches que les candidats respectent, voir [comment structurer les exercices de code](/blog/how-to-structure-code-assignments).

### Placez une épreuve « expliquez-nous et étendez-le » juste après l'exercice à rendre

C'est le changement à plus fort effet de levier, à lui seul. Programmez une épreuve en direct immédiatement après l'exercice, dont l'unique objet est de faire expliquer au candidat sa solution ligne par ligne, puis de la lui faire étendre sur-le-champ. « Ajoutez ce cas limite. » « Réécrivez ceci pour le rendre plus lisible. » Un candidat qui a réellement résolu la tâche le fait sans peine. Un candidat qui a collé la sortie d'une surcouche en est incapable, car il ne s'est jamais construit le modèle mental. Cela inscrit directement dans votre pipeline le constat d'interviewing.io sur les relances ligne par ligne.

### Notez avec des revues structurées, pondérées et à l'aveugle

Faites évaluer la même copie par plusieurs relecteurs selon les mêmes critères nommés, pondérés selon ce qui compte pour le rôle, avant qu'ils ne voient les votes des autres. Le vote à l'aveugle élimine l'effet d'ancrage. Les grilles de notation pondérées obligent chacun à évaluer les mêmes compétences plutôt que des impressions. C'est là que vous captez le signal de raisonnement qu'une simple coche réussite/échec jette à la poubelle.

### Changez le type de question, ne bannissez pas l'algorithme

Les FAANG n'ont pas abandonné les entretiens algorithmiques ; ils ont changé le genre de question et ajouté des sondes ouvertes. Vous pouvez garder un filtre de présélection tout en rendant les épreuves décisives résistantes aux réponses IA en un coup. L'objectif, c'est le signal, pas la pureté.

## Pourquoi une notation structurée, centrée sur le raisonnement, est la vraie montée en gamme

La notation structurée est l'idée la mieux établie de tout cet article, et elle est antérieure à l'ère de l'IA. Les entretiens structurés, où chaque candidat affronte les mêmes questions notées selon la même grille ancrée sur les comportements, sont environ **deux fois plus prédictifs de la performance au travail** que les entretiens non structurés. Les grilles de notation standardisées réduisent le bruit et les biais, parce qu'elles tiennent tout le monde aux mêmes critères plutôt qu'à l'humeur du recruteur. La recommandation courante est de 5 à 7 compétences pondérées.

La triche par IA n'a pas créé l'argument en faveur de la notation structurée ; elle l'a rendu urgent. Quand la réponse finale est une marchandise, le seul signal durable est la façon dont le candidat y est parvenu et sa capacité à la défendre. Une grille qui note « a expliqué clairement les compromis » et « a étendu correctement la solution sous pression » mesure exactement ce qu'une surcouche ne peut pas fournir. Si vous voulez l'argumentaire détaillé, lisez [grilles de notation d'entretien structuré et validité prédictive](/blog/structured-interview-scorecards-predictive-validity).

Le changement d'état d'esprit, c'est de passer de la traque à la mesure. Arrêtez de demander « cette personne triche-t-elle ? » et commencez à demander « cette personne sait-elle raisonner sur ce problème devant moi ? ». La seconde question est plus difficile à contourner et bien plus prédictive.

## Comment Kit intègre l'évaluation résistante à la triche au cœur du pipeline

Le marché se scinde pour l'essentiel en deux camps. Les éditeurs de détection livrent une course à l'armement contre des outils conçus au niveau de la couche graphique. Les plateformes d'évaluation construisent d'excellents problèmes, mais vivent dans un silo séparé de votre pipeline. Kit emprunte une troisième voie : il fait de l'évaluation structurée, centrée sur le raisonnement, la forme par défaut du pipeline lui-même, si bien que la refonte se construit une fois et se réutilise, au lieu d'être improvisée pour chaque rôle.

Voici comment cela se rattache à tout ce qui précède :

- **Des exercices de code adossés à de vrais dépôts GitHub.** Chaque candidat reçoit un dépôt privé généré à partir de votre propre dépôt modèle, avec votre README, votre code de départ, et même votre CI. C'est ce qui vous permet de livrer une tâche sur mesure, en plusieurs fichiers, propre à votre entreprise, plutôt qu'une énigme publique : précisément le choix de conception qui fait s'effondrer l'avantage de la triche par IA.
- **Une épreuve en direct « défendez et étendez », enchaînée juste après.** Les modèles de processus de Kit vous laissent ordonner librement les étapes : vous pouvez placer une épreuve d'entretien en direct immédiatement après l'exercice de code, dont l'objet est « expliquez-nous et étendez votre solution ». Le candidat qui s'est appuyé sur une surcouche ne peut ni défendre ni modifier le code de façon authentique.
- **Une revue d'équipe structurée, avec vote à l'aveugle et grilles de notation pondérées.** Les relecteurs notent la même copie selon des critères nommés et pondérés, avec des recommandations allant de refus ferme à oui ferme, et peuvent voter à l'aveugle pour que personne ne s'ancre sur l'avis du responsable. C'est la grille structurée qui, d'après les études, double la validité prédictive, appliquée au raisonnement plutôt qu'à une coche verte.
- **Des décisions de panel réfléchies, pas des tampons automatiques.** Le vote prend en charge un seuil de votes positifs, l'exigence de tous les relecteurs, et un véto déclenchant un rejet automatique, les épreuves ambiguës étant acheminées vers un humain avec la mention « décision requise ». Un panel tranche sur la qualité du signal, au lieu qu'un algorithme laisse passer une sortie qu'un bot a peut-être produite.
- **Des modèles de processus réutilisables.** Construisez une fois votre pipeline résistant à la triche sous forme de [modèle de processus](/templates) et réutilisez-le sur tous vos rôles, pour que le recrutement centré sur le raisonnement soit le défaut, et non un exploit ponctuel.

Soyons clairs sur ce que Kit ne fait pas : pas de détection de triche par IA, pas de surveillance, pas de suivi du regard, pas de notation automatique. C'est délibéré. On ne peut pas détecter de façon fiable un outil conçu pour être invisible. Alors Kit ne cherche pas à attraper le tricheur. Il vous aide à mesurer ce que le tricheur ne peut pas feindre, ce qui est la position la plus honnête et la plus solide.

La menace est réelle, et la riposte par la surveillance est un piège. Les surcouches invisibles déjouent le live coding et déjouent la surveillance, et les données montrent zéro recruteur qui s'en aperçoit. Ces mêmes données montrent que les questions sur mesure réduisent l'avantage de la triche de deux tiers, et que la notation structurée double à peu près la validité prédictive. Arrêtez d'essayer d'attraper l'IA à l'entrée. Repensez l'entrée pour que l'assistance IA soit sans effet, et faites de cette refonte la forme par défaut de votre pipeline.

Si vous repensez l'évaluation technique pour l'ère de l'IA, [démarrez un essai gratuit](/users/sign_up) et construisez un pipeline associant exercice de code et revue structurée, qui mesure le raisonnement, pas la syntaxe. Pour la menace voisine sur l'identité, où le candidat lui-même peut être un faux, voir [candidats deepfake et fraude au recrutement par IA](/blog/deepfake-candidates-ai-hiring-fraud).