L'entretien au tableau blanc est mort : recruter de façon équitable et à l'épreuve de l'IA

En 2026, l'IA a fait voler en éclats le tableau blanc et les exercices à la maison. Voici le cadre de décision pour des évaluations sur échantillon de travail équitables et à l'épreuve de l'IA, inspiré des pratiques de recrutement d'Anthropic, Stripe et Linear.

Ernest Bursa

Founder · 15 juin 2026 · 12 min de lecture

Two engineers pair programming on a real codebase at a sunlit co-working table, one narrating a decision while the other types

En tant que signal isolé, l’entretien au tableau blanc est mort. Une étude contrôlée menée par NC State et Microsoft a montré que les candidats observés pendant un entretien technique réussissaient environ deux fois moins bien que ceux qui résolvaient le même problème en privé. Et l’IA générative résout désormais aussi bien les casse-têtes au tableau blanc que les exercices à la maison en quelques minutes. Ce qui les remplace durablement, c’est l’évaluation sur échantillon de travail : une tâche pertinente pour le poste qui se conclut par une soutenance en direct, où le candidat explique et fait évoluer de vraies décisions à voix haute.

Tout se joue dans ce dernier mouvement. Les surcouches d’IA peuvent écrire du code pendant un partage d’écran et boucler un exercice « de 3 heures » en quelques minutes, mais elles ne peuvent pas défendre un arbitrage en temps réel. La réponse stratégique des équipes d’ingénierie les mieux gérées en 2026 n’est pas un logiciel de surveillance. C’est un changement de format vers des évaluations qui testent le jugement et la communication, les deux seules choses que l’IA ne peut toujours pas simuler en direct. Ce guide vous donne le cadre de décision : quel format adopter dès maintenant, comment le rendre à la fois équitable et résistant à la triche sans logiciel espion, et comment Anthropic, Stripe, Vercel et Linear procèdent réellement.

Les entretiens au tableau blanc sont-ils morts ? (Oui, et l’IA n’y est que pour moitié)

Oui, en tant que signal isolé. L’entretien au tableau blanc était déjà cassé avant que l’IA n’y touche, et l’IA a effacé le peu de signal qui restait.

Le premier problème, c’est qu’il n’a jamais mesuré la bonne chose. Dans une expérience contrôlée, Behroozi et ses collègues de NC State et Microsoft (2020) ont fait résoudre le même problème à des candidats dans deux conditions : seuls, puis observés par un examinateur dans un dispositif classique de tableau blanc. Les candidats observés ont réussi environ deux fois moins bien. Le format mesure surtout l’anxiété de performance et la charge sur la mémoire de travail sous observation, pas la compétence en ingénierie. Et il pénalise précisément les personnes que vous voulez recruter équitablement : les introvertis, les candidats neuro-atypiques, et toute personne dont le style de communication ne colle pas à une performance orale sous pression.

Le deuxième problème est arrivé en 2025. Des outils de surcouche comme Cluely, Interview Coder et Leetcode Wizard soufflent désormais les réponses de manière invisible pendant un partage d’écran. Un problème classique de type LeetCode est résolu silencieusement en arrière-plan pendant que le candidat tape. Si votre entretien repose encore sur des casse-têtes de programmation compétitive, vous ne mesurez plus le candidat. Vous mesurez son outillage.

Cela ne veut pas dire que le code en direct ne vaut rien. Cela veut dire que c’est le format casse-tête sous observation qui ne vaut rien. La version qui survit, c’est le code en direct collaboratif : de la programmation en binôme dans un véritable IDE, sur un problème réaliste, où l’examinateur est un partenaire qui réfléchit aux côtés du candidat, et non un surveillant qui attend la bonne réponse. Cela teste la façon dont quelqu’un raisonne, pose des questions et travaille dans du code inconnu, ce qui est à la fois plus proche du métier et bien plus difficile à truquer avec une surcouche.

Pourquoi l’IA a aussi cassé l’exercice à la maison (et pourquoi la surveillance est la mauvaise solution)

L’exercice à la maison non supervisé est désormais le format le plus exposé à l’IA de tous. La solution n’est pas un logiciel de détection. C’est la conception.

Les exercices à la maison ont toujours eu la meilleure validité par rapport au monde réel, et ils restent précieux. Mais une tâche asynchrone, non notée et non soutenue, est la chose la plus facile à boucler par l’IA dans tout votre processus. L’éditeur d’évaluations Fabric rapporte qu’un exercice conçu pour durer trois heures peut être terminé par des outils d’IA en environ huit minutes, et que le recours à la triche dans son vivier de candidats a plus que doublé sur l’année 2025, passant d’environ 15 % à 35 %. Prenez ces chiffres précis comme une tendance plutôt que comme parole d’évangile : ils sont auto-déclarés par l’éditeur et non sourcés. La tendance, en revanche, ne fait aucun doute, et tout responsable d’ingénierie ayant relu un exercice qui « semblait trop propre » le sait déjà.

La réponse tentante consiste à s’en sortir à coups de surveillance : suivi du regard, enregistrement des frappes clavier, verrouillage de l’écran, logiciel espion dans le navigateur. Résistez, pour trois raisons.

C’est conflictuel et nuisible à votre marque. L’ingénierie est une communauté restreinte et bavarde. Les candidats partagent leurs histoires d’horreur sur la surveillance, et vos meilleurs profils se retirent d’eux-mêmes avant même de postuler.

Cela crée ses propres problèmes de biais et d’accessibilité. Les outils de verrouillage et de suivi du regard pénalisent les candidats neuro-atypiques, les candidats en situation de handicap et toute personne ayant un poste de travail non standard. Le Défenseur des droits et la CNIL ont rappelé que l’employeur reste responsable lorsqu’un outil d’évaluation automatisé produit une discrimination indirecte — une pratique en apparence neutre qui désavantage un groupe protégé, au sens de l’article L1132-1 du Code du travail —, quel que soit son concepteur.

Et en plus, cela ne fonctionne même pas. La surveillance s’attaque au symptôme. Un deuxième écran ou un téléphone en vient à bout dans la plupart des cas. Vous dépensez de la confiance et du budget pour finalement perdre quand même.

Contexte local

Pour un employeur français, le cadre déterminant n’est pas l’action d’une agence étrangère mais le règlement européen sur l’IA (Règlement (UE) 2024/1689) : son annexe III (point 4, emploi) classe parmi les « systèmes à haut risque » les outils d’IA servant à recruter, filtrer les candidatures ou évaluer les candidats — la télésurveillance d’examen, elle, relève du point 3 consacré à l’éducation. La documentation technique et la journalisation horodatée incombent avant tout au fournisseur du système (art. 11 et 12) ; côté déployeur, l’employeur reste tenu d’assurer une supervision humaine effective (art. 26 et 14) et d’informer les salariés concernés. Ces obligations « haut risque » devraient s’appliquer à partir du 2 décembre 2027 (report prévu par le Digital Omnibus, accord provisoire de mai 2026, sous réserve d’adoption formelle). Autrement dit, le droit conforte ici la thèse de cet article : une défense en direct centrée sur l’humain vaut mieux qu’un logiciel de surveillance.

La réponse durable, c’est la résistance par la conception : bâtir des formats où le signal réside dans le raisonnement en direct, de sorte qu’il n’y ait rien qu’une surcouche puisse sauver. Pour certains postes, vous pouvez aller plus loin et autoriser explicitement l’IA pendant la tâche, puis noter la façon dont le candidat la pilote et la critique, car c’est le reflet du métier réel.

Quel format d’évaluation adopter dès maintenant ? Un cadre de décision

Faites correspondre le format au quotidien réel du poste, et assurez-vous qu’au moins une étape impose un jugement en temps réel. Il n’existe pas de meilleur format unique ; il existe un meilleur format pour ce poste.

Format	Idéal pour	Pourquoi il résiste à l’IA
Programmation en binôme sur un problème réaliste	Les postes où la collaboration et le travail dans du code inconnu sont le cœur du métier	La réflexion est observée en direct et de façon collaborative ; une surcouche ne peut pas narrer le raisonnement à votre place
Exercice à la maison + soutenance en direct	Les postes où le travail asynchrone, approfondi et autonome est le cœur du métier	La soutenance teste des décisions que le candidat doit assumer à voix haute
Conception de système	Les postes seniors et d’infrastructure	Il s’agit d’arbitrages et de communication, pas de réponses à retrouver
Revue de code asynchrone de vrai code	Les cultures à distance et fortement asynchrones	Teste la compréhension et la critique, pas la génération

Le fil conducteur des quatre formats est le même : le signal le plus à l’épreuve de l’IA, c’est un candidat qui défend de vraies décisions en temps réel. Choisissez le format qui ressemble le plus à un mardi ordinaire dans le poste, puis assurez-vous que le candidat doive expliquer son raisonnement à un humain au moins une fois.

Un choix par défaut pragmatique pour la plupart des postes d’ingénierie en startup, c’est la deuxième ligne : un exercice à la maison court, rémunéré et réaliste qui devient l’ordre du jour d’une conversation en direct. Vous obtenez la validité écologique du travail réel, plus la résistance à la triche d’une soutenance en direct. Si vous voulez les mécaniques tactiques de la conception de cet exercice lui-même — périmètre, budget temps et notation —, lisez notre analyse approfondie sur comment structurer des exercices de code que les candidats ne détestent pas.

Le seul geste qui rend n’importe quel format à l’épreuve de l’IA : la soutenance en direct

Le mécanisme anti-triche le plus durable consiste à conclure chaque livrable asynchrone par une soutenance en direct : « Expliquez-moi votre démarche. Maintenant, changeons l’exigence X. Pourquoi avoir choisi ceci plutôt que l’alternative ? »

Voici pourquoi cela fonctionne. Une surcouche LLM peut produire le code. Elle ne peut pas, en temps réel, expliquer pourquoi un modèle de données l’a emporté sur un autre pour cette contrainte, s’adapter quand vous modifiez le cahier des charges en pleine conversation, ni déboguer la chose qu’elle est censée avoir écrite. Le livrable cesse d’être le signal final et devient l’ordre du jour d’une conversation de 20 à 30 minutes sur le jugement. Celui qui l’a vraiment construit la traverse sans encombre. Celui qui l’a collé depuis un outil cale dès le premier « pourquoi ».

La soutenance en direct corrige aussi, en douceur, le problème d’équité. Vous ne notez plus la vitesse de frappe sous observation — ce que l’étude de NC State a montré être surtout de l’anxiété. Vous notez le raisonnement sur un travail que le candidat a déjà réalisé à son propre rythme, ce qui est à la fois plus équitable et bien meilleur prédicteur de la performance en poste.

Concrètement, voici à quoi ressemble le geste dans n’importe quel processus :

Le candidat réalise un petit échantillon de travail réaliste et rémunéré en asynchrone.
Une session en direct de 25 minutes s’ouvre sur « expliquez-moi votre approche ».
Vous modifiez une exigence en direct et observez son adaptation.
Vous lui demandez de déboguer ou d’étendre un élément sur le moment.
Les relecteurs notent le raisonnement, selon une grille, avant tout débriefing.

Aucun logiciel espion. Aucune accusation. Juste une conversation que l’IA ne peut pas mener à la place du candidat.

Comment Anthropic, Stripe, Vercel et Linear recrutent réellement

Les équipes d’ingénierie les mieux gérées ont déjà opéré ce virage. Aucune d’elles ne s’appuie sur des casse-têtes au tableau blanc sous observation, et aucune ne s’appuie sur la surveillance. Elles s’appuient sur du travail réaliste plus du jugement en direct.

Anthropic déroule un entretien avec un recruteur, un entretien technique téléphonique, puis soit un exercice à la maison, soit une évaluation en direct d’environ 60 minutes (selon le poste, dans CodeSignal, et explicitement pas de style LeetCode), suivie de quatre à six étapes sur site, dont une conception de système et une étape sur les valeurs fortement pondérée. Plus remarquable encore, l’entreprise qui conçoit Claude publie une politique explicite sur l’IA à destination des candidats. Depuis un revirement de juillet 2025, les candidats peuvent utiliser l’IA pour peaufiner leurs documents de candidature, mais elle est interdite lors des entretiens en direct et des exercices à la maison : « Réalisez-les sans Claude, sauf indication contraire de notre part. Nous souhaitons évaluer vos compétences propres. » C’est une conception pensée pour résister à l’IA, doublée d’honnêteté envers les candidats — venant de l’équipe qui a le plus de raisons d’y réfléchir sérieusement.

Stripe déroule un processus délibérément pragmatique : déboguer une base de code inconnue, construire une petite intégration à partir de zéro, traiter des problèmes en plusieurs parties tout en verbalisant votre réflexion. Certaines étapes se déroulent en binôme. C’est volontairement plus proche de l’ingénierie réelle que de la programmation compétitive.

Vercel mise sur une session de code collaborative, façon construction, plus une conception de système, en pondérant fortement le sens du produit côté frontend et la communication.

Linear s’appuie sur un projet court (autour de trois heures), rémunéré, façon période d’essai, suivi d’une discussion de revue de code, et exige un « oui ferme » quasi unanime du jury pour formuler une offre. De la structure, une barre haute et de la pertinence métier, en un seul processus.

Un contraste utile, c’est le modèle façon GitLab : une revue de code asynchrone d’une vraie merge request comme base d’une discussion en direct. Cela teste la lecture et la critique de code réel plutôt que sa génération, ce qui convient à une culture à distance et asynchrone. L’intérêt de lister cinq approches différentes n’est pas qu’une seule soit la bonne. C’est que chaque entreprise a adapté le format à sa façon réelle de travailler, et que toutes se concluent par un moment de jugement en direct, défendable.

Le nouveau format est-il vraiment plus équitable ? Ce que disent les preuves

Les échantillons de travail pertinents pour le poste comptent parmi les méthodes de sélection les plus valides et les moins biaisées — mais seulement lorsqu’ils sont structurés. L’équité vient de la structure, de la pertinence métier et de la cohérence, pas de l’étiquette du format.

Soyez prudent avec les chiffres, car le canon a récemment été corrigé. Sackett, Zhang, Berry et Lievens (2022) ont réanalysé des décennies de recherche sur la sélection du personnel et revu à la baisse plusieurs estimations de validité longtemps citées :

Les entretiens structurés sont désormais le meilleur prédicteur de tous, avec une validité opérationnelle d’environ 0,42 (révisée à la baisse depuis 0,51).
Les tests sur échantillon de travail se situent autour de 0,33 (fortement révisés à la baisse depuis le 0,54 longtemps cité).
L’aptitude cognitive générale se situe autour de 0,31 (en baisse depuis 0,51).

Le classement, voilà l’essentiel : un entretien bien structuré — la soutenance en direct menée avec rigueur — prédit désormais mieux la performance qu’un échantillon de travail brut ou un test cognitif. C’est un argument de poids en faveur de la soutenance en direct pour sa valeur propre, et pas seulement comme tactique anti-triche.

Sur le biais en particulier, appuyez-vous sur des tailles d’effet validées par les pairs plutôt que sur les statistiques marketing recyclées. La méta-analyse d’Aamodt a montré que les entretiens non structurés étaient bien plus sujets au biais (d = 0,59) que les entretiens structurés (d = 0,23), et que les écarts de score selon l’origine ethnique se réduisent à mesure que la structure augmente. Ajoutez un levier de plus : rémunérez les candidats pour les étapes substantielles sur échantillon de travail. Campion et ses collègues (2025) ont constaté que l’entraînement et les tests sur échantillon de travail rémunérés réduisent les différences de score entre sous-groupes ; payer pour du travail réel augmente aussi le taux d’achèvement et aide les aidants familiaux et les candidats à plus faibles revenus, qui ne peuvent pas offrir des heures non rémunérées.

Pourquoi les statistiques « 42 % / 81 % de réduction du biais » que vous avez vues sont peu fiables

Vous trouverez des dizaines de blogs d’éditeurs affirmant que les entretiens structurés « réduisent le biais de genre de 42 %, le biais racial de 35 %, et améliorent la précision de 81 % ». Ces trois chiffres ne renvoient à aucune étude primaire traçable ; ils sont recopiés d’une source à l’autre. Utilisez plutôt les chiffres validés par les pairs ci-dessus. La crédibilité de votre argumentaire sur l’équité dépend de la citation de recherches qui existent vraiment, surtout dans un environnement réglementaire où le Défenseur des droits et la CNIL attendent de vous que vous défendiez votre processus — la CNIL ayant d’ailleurs fait du recrutement, automatisation comprise, un thème de contrôle prioritaire pour 2026.

Concevez des évaluations équitables et à l’épreuve de l’IA par défaut avec Kit

L’IA a cassé le tableau blanc et l’exercice à la maison non supervisé la même année. La solution n’est pas la surveillance. C’est de concevoir le bon format : des échantillons de travail pertinents pour le poste, rémunérés et structurés, qui se concluent toujours par une soutenance en direct. Le problème, quand on fait ça à la main, c’est que les pièces — la tâche réaliste, le paiement, la soutenance planifiée, la notation indépendante — vivent dans cinq outils différents et ont tendance à se désynchroniser. Kit en fait un seul pipeline composable.

Les modèles de processus composables vous permettent d’encoder directement la thèse : un formulaire de candidature enchaîne sur une étape d’exercice de code, puis sur un entretien en direct, puis sur une revue d’équipe et une offre. L’exercice à la maison est conçu pour être l’ordre du jour de la soutenance, pas le signal final.
L’étape d’exercice de code est un échantillon de travail réaliste, pas du LeetCode. Elle utilise un dépôt privé sur GitHub cloné depuis un modèle, avec un véritable flux de travail par branche et par PR, et une date limite configurable. Elle est pertinente pour le poste par construction.
Avec les paiements par étape, vous rémunérez les candidats pour les étapes substantielles sur échantillon de travail, ce qui est à la fois le geste d’équité étayé par Campion (2025) et un signal de respect évident.
La revue d’équipe avec des relecteurs par étape vous donne des grilles d’évaluation structurées et indépendantes avant le débriefing — le mécanisme anti-biais le plus déterminant selon la recherche, et le justificatif auditable qu’attendent le Défenseur des droits et la CNIL.
La planification d’entretiens en direct transforme la soutenance en fonctionnalité, pour que la conversation « expliquez-moi votre démarche » soit une étape intégrée plutôt qu’un détail secondaire.

Si vous voulez l’argumentaire de validité en profondeur, lisez grilles d’évaluation d’entretien structuré et validité prédictive, et pour le virage plus large qui éloigne des entretiens à base de casse-têtes, voyez pourquoi LeetCode est obsolète dans un entretien post-IA.

Le tableau blanc a disparu, et l’exercice à la maison non supervisé est parti avec lui. Ce qui les remplace n’est pas un nouveau gadget. C’est un choix de format : un travail rémunéré, structuré et pertinent pour le poste, que le candidat défend à voix haute. Construisez cela une fois, et votre processus est équitable et à l’épreuve de l’IA par conception. Démarrez votre essai gratuit et composez votre premier pipeline à l’épreuve de l’IA, ou parcourez les modèles de poste pour partir d’un modèle prêt à l’emploi.

L'entretien au tableau blanc est mort : recruter de façon équitable et à l'épreuve de l'IA

Les entretiens au tableau blanc sont-ils morts ? (Oui, et l’IA n’y est que pour moitié)

Pourquoi l’IA a aussi cassé l’exercice à la maison (et pourquoi la surveillance est la mauvaise solution)

Quel format d’évaluation adopter dès maintenant ? Un cadre de décision

Le seul geste qui rend n’importe quel format à l’épreuve de l’IA : la soutenance en direct

Comment Anthropic, Stripe, Vercel et Linear recrutent réellement

Le nouveau format est-il vraiment plus équitable ? Ce que disent les preuves

Pourquoi les statistiques « 42 % / 81 % de réduction du biais » que vous avez vues sont peu fiables

Concevez des évaluations équitables et à l’épreuve de l’IA par défaut avec Kit

Articles similaires

Pret a recruter plus intelligemment ?

Les entretiens au tableau blanc sont-ils morts ? (Oui, et l’IA n’y est que pour moitié)

Pourquoi l’IA a aussi cassé l’exercice à la maison (et pourquoi la surveillance est la mauvaise solution)

Quel format d’évaluation adopter dès maintenant ? Un cadre de décision

Le seul geste qui rend n’importe quel format à l’épreuve de l’IA : la soutenance en direct

Comment Anthropic, Stripe, Vercel et Linear recrutent réellement

Le nouveau format est-il vraiment plus équitable ? Ce que disent les preuves

Pourquoi les statistiques « 42 % / 81 % de réduction du biais » que vous avez vues sont peu fiables

Concevez des évaluations équitables et à l’épreuve de l’IA par défaut avec Kit

Articles similaires

Les références salariales ont leur place dans votre ATS, pas dans un autre onglet

L'épuisement des CISO est un problème opérationnel, pas salarial

La guerre des ATS en 2026 : ce que veulent vraiment les recruteurs

La triche à l'entretien assistée par IA est devenue la norme. Voici comment y remédier

Vos candidats vous croient faux. Prouvez le contraire.

La fenêtre de recrutement en sécurité vient de s'ouvrir : coupes à la CISA + fermeture de Huntr

Pret a recruter plus intelligemment ?

La guerre des ATS en 2026 : ce que veulent vraiment les recruteurs

La fenêtre de recrutement en sécurité vient de s'ouvrir : coupes à la CISA + fermeture de Huntr