L'entretien au tableau blanc est mort : recruter de façon équitable et à l'épreuve de l'IA
En 2026, l'IA a fait voler en éclats le tableau blanc et les exercices à la maison. Voici le cadre de décision pour des évaluations sur échantillon de travail équitables et à l'épreuve de l'IA, inspiré des pratiques de recrutement d'Anthropic, Stripe et Linear.
Ernest Bursa
En tant que signal isolé, l’entretien au tableau blanc est mort. Une étude contrôlée menée par NC State et Microsoft a montré que les candidats observés pendant un entretien technique réussissaient environ deux fois moins bien que ceux qui résolvaient le même problème en privé. Et l’IA générative résout désormais aussi bien les casse-têtes au tableau blanc que les exercices à la maison en quelques minutes. Ce qui les remplace durablement, c’est l’évaluation sur échantillon de travail : une tâche pertinente pour le poste qui se conclut par une soutenance en direct, où le candidat explique et fait évoluer de vraies décisions à voix haute.
Tout se joue dans ce dernier mouvement. Les surcouches d’IA peuvent écrire du code pendant un partage d’écran et boucler un exercice « de 3 heures » en quelques minutes, mais elles ne peuvent pas défendre un arbitrage en temps réel. La réponse stratégique des équipes d’ingénierie les mieux gérées en 2026 n’est pas un logiciel de surveillance. C’est un changement de format vers des évaluations qui testent le jugement et la communication, les deux seules choses que l’IA ne peut toujours pas simuler en direct. Ce guide vous donne le cadre de décision : quel format adopter dès maintenant, comment le rendre à la fois équitable et résistant à la triche sans logiciel espion, et comment Anthropic, Stripe, Vercel et Linear procèdent réellement.
Les entretiens au tableau blanc sont-ils morts ? (Oui, et l’IA n’en est que la moitié de la raison)
Oui, en tant que signal isolé. L’entretien au tableau blanc était déjà cassé avant que l’IA n’y touche, et l’IA a effacé le peu de signal qui restait.
Le premier problème, c’est qu’il n’a jamais mesuré la bonne chose. Dans une expérience contrôlée, Behroozi et ses collègues de NC State et Microsoft (2020) ont fait résoudre le même problème à des candidats dans deux conditions : seuls, puis observés par un examinateur dans un dispositif classique de tableau blanc. Les candidats observés ont réussi environ deux fois moins bien. Le format mesure surtout l’anxiété de performance et la charge sur la mémoire de travail sous observation, pas la compétence en ingénierie. Et il pénalise précisément les personnes que vous voulez recruter équitablement : les introvertis, les candidats neuro-atypiques, et toute personne dont le style de communication ne colle pas à une performance orale sous pression.
Le deuxième problème est arrivé en 2025. Des outils de surcouche comme Cluely, Interview Coder et Leetcode Wizard soufflent désormais les réponses de manière invisible pendant un partage d’écran. Un problème classique de type LeetCode est résolu silencieusement en arrière-plan pendant que le candidat tape. Si votre entretien repose encore sur des casse-têtes de programmation compétitive, vous ne mesurez plus le candidat. Vous mesurez son outillage.
Cela ne veut pas dire que le code en direct ne vaut rien. Cela veut dire que c’est le format casse-tête sous observation qui ne vaut rien. La version qui survit, c’est le code en direct collaboratif : du pair programming dans un véritable IDE, sur un problème réaliste, où l’examinateur est un partenaire qui réfléchit aux côtés du candidat, et non un surveillant qui attend la bonne réponse. Cela teste la façon dont quelqu’un raisonne, pose des questions et travaille dans du code inconnu, ce qui est à la fois plus proche du métier et bien plus difficile à truquer avec une surcouche.
Pourquoi l’IA a aussi cassé l’exercice à la maison (et pourquoi la surveillance est la mauvaise solution)
L’exercice à la maison non supervisé est désormais le format le plus exposé à l’IA de tous. La solution n’est pas un logiciel de détection. C’est la conception.
Les exercices à la maison ont toujours eu la meilleure validité par rapport au monde réel, et ils restent précieux. Mais une tâche asynchrone, non notée et non soutenue, est la chose la plus facile à boucler par l’IA dans tout votre processus. L’éditeur d’évaluations Fabric rapporte qu’un exercice conçu pour durer trois heures peut être terminé par des outils d’IA en environ huit minutes, et que le recours à la triche dans son vivier de candidats a plus que doublé sur l’année 2025, passant d’environ 15 % à 35 %. Prenez ces chiffres précis comme une tendance plutôt que comme parole d’évangile : ils sont auto-déclarés par l’éditeur et non sourcés. La tendance, en revanche, ne fait aucun doute, et tout responsable d’ingénierie ayant relu un exercice qui « sentait le trop propre » le sait déjà.
La réponse tentante consiste à s’en sortir à coups de surveillance : suivi du regard, enregistrement des frappes clavier, verrouillage de l’écran, logiciel espion dans le navigateur. Résistez, pour trois raisons.
- C’est conflictuel et nuisible à votre marque. L’ingénierie est une communauté restreinte et bavarde. Les candidats partagent leurs histoires d’horreur sur la surveillance, et vos meilleurs profils se retirent d’eux-mêmes avant même de postuler.
- Cela crée ses propres problèmes de biais et d’accessibilité. Les outils de verrouillage et de suivi du regard pénalisent les candidats neuro-atypiques, les candidats en situation de handicap et toute personne ayant un poste de travail non standard. L’EEOC et le DOJ ont clairement établi que les employeurs restent responsables lorsqu’un outil d’évaluation automatisé entraîne un impact défavorable, quel qu’en soit le concepteur.
- Et en plus, ça ne marche même pas. La surveillance s’attaque au symptôme. Un deuxième écran ou un téléphone en vient à bout dans la plupart des cas. Vous dépensez de la confiance et du budget pour finalement perdre quand même.
La réponse durable, c’est la résistance par la conception : bâtir des formats où le signal réside dans le raisonnement en direct, de sorte qu’il n’y ait rien qu’une surcouche puisse sauver. Pour certains postes, vous pouvez aller plus loin et autoriser explicitement l’IA pendant la tâche, puis noter la façon dont le candidat la pilote et la critique, car c’est le reflet du métier réel.
Quel format d’évaluation adopter dès maintenant ? Un cadre de décision
Faites correspondre le format au quotidien réel du poste, et assurez-vous qu’au moins une étape impose un jugement en temps réel. Il n’existe pas de meilleur format unique ; il existe un meilleur format pour ce poste.
| Format | Idéal pour | Pourquoi il résiste à l’IA |
|---|---|---|
| Pair programming sur un problème réaliste | Les postes où la collaboration et le travail dans du code inconnu sont le cœur du métier | La réflexion est observée en direct et de façon collaborative ; une surcouche ne peut pas narrer le raisonnement à votre place |
| Exercice à la maison + soutenance en direct | Les postes où le travail asynchrone, approfondi et autonome est le cœur du métier | La soutenance teste des décisions que le candidat doit assumer à voix haute |
| Conception de système | Les postes seniors et d’infrastructure | Il s’agit d’arbitrages et de communication, pas de réponses à retrouver |
| Revue de code asynchrone de vrai code | Les cultures remote-first, fortement asynchrones | Teste la compréhension et la critique, pas la génération |
Le fil conducteur des quatre formats est le même : le signal le plus à l’épreuve de l’IA, c’est un candidat qui défend de vraies décisions en temps réel. Choisissez le format qui ressemble le plus à un mardi ordinaire dans le poste, puis assurez-vous que le candidat doive expliquer son raisonnement à un humain au moins une fois.
Une valeur par défaut pragmatique pour la plupart des postes d’ingénierie en startup, c’est la deuxième ligne : un exercice à la maison court, rémunéré et réaliste qui devient l’ordre du jour d’une conversation en direct. Vous obtenez la validité écologique du travail réel, plus la résistance à la triche d’une soutenance en direct. Si vous voulez les mécaniques tactiques de la conception de cet exercice lui-même — périmètre, budget temps et notation —, lisez notre analyse approfondie sur comment structurer des exercices de code que les candidats ne détestent pas.
Le seul geste qui rend n’importe quel format à l’épreuve de l’IA : la soutenance en direct
Le mécanisme anti-triche le plus durable consiste à conclure chaque livrable asynchrone par une soutenance en direct : « Expliquez-moi votre démarche. Maintenant, changeons l’exigence X. Pourquoi avoir choisi ceci plutôt que l’alternative ? »
Voici pourquoi ça marche. Une surcouche LLM peut produire le code. Elle ne peut pas, en temps réel, expliquer pourquoi un modèle de données l’a emporté sur un autre pour cette contrainte, s’adapter quand vous modifiez le cahier des charges en pleine conversation, ni déboguer la chose qu’elle est censée avoir écrite. Le livrable cesse d’être le signal final et devient l’ordre du jour d’une conversation de 20 à 30 minutes sur le jugement. Celui qui l’a vraiment construit la traverse sans encombre. Celui qui l’a collé depuis un outil cale dès le premier « pourquoi ».
La soutenance en direct corrige aussi, en douceur, le problème d’équité. Vous ne notez plus la vitesse de frappe sous observation — ce que l’étude de NC State a montré être surtout de l’anxiété. Vous notez le raisonnement sur un travail que le candidat a déjà réalisé à son propre rythme, ce qui est à la fois plus équitable et bien meilleur prédicteur de la performance en poste.
Concrètement, voici à quoi ressemble le geste dans n’importe quel processus :
- Le candidat réalise un petit échantillon de travail réaliste et rémunéré en asynchrone.
- Une session en direct de 25 minutes s’ouvre sur « expliquez-moi votre approche ».
- Vous modifiez une exigence en direct et observez son adaptation.
- Vous lui demandez de déboguer ou d’étendre un élément sur le moment.
- Les relecteurs notent le raisonnement, selon une grille, avant tout débriefing.
Aucun logiciel espion. Aucune accusation. Juste une conversation que l’IA ne peut pas mener à la place du candidat.
Comment Anthropic, Stripe, Vercel et Linear recrutent réellement
Les équipes d’ingénierie les mieux gérées ont déjà opéré ce virage. Aucune d’elles ne s’appuie sur des casse-têtes au tableau blanc sous observation, et aucune ne s’appuie sur la surveillance. Elles s’appuient sur du travail réaliste plus du jugement en direct.
Anthropic déroule un entretien avec un recruteur, un entretien technique téléphonique, puis soit un exercice à la maison, soit une évaluation en direct d’environ 60 minutes (selon le poste, dans CodeSignal, et explicitement pas de style LeetCode), suivie de quatre à six étapes sur site, dont une conception de système et une étape sur les valeurs au poids très élevé. Plus remarquable encore, l’entreprise qui conçoit Claude publie une politique explicite sur l’IA à destination des candidats. Depuis un revirement de juillet 2025, les candidats peuvent utiliser l’IA pour peaufiner leurs documents de candidature, mais elle est interdite lors des entretiens en direct et des exercices à la maison : « Réalisez-les sans Claude, sauf indication contraire de notre part. Nous souhaitons évaluer vos compétences propres. » C’est de la mise à l’épreuve de l’IA par conception, plus de l’honnêteté envers les candidats — venant de l’équipe qui a le plus de raisons d’y réfléchir sérieusement.
Stripe déroule un processus délibérément pragmatique : déboguer une base de code inconnue, construire une petite intégration à partir de zéro, traiter des problèmes en plusieurs parties tout en verbalisant votre réflexion. Certaines étapes se font en pair programming. C’est volontairement plus proche de l’ingénierie réelle que de la programmation compétitive.
Vercel mise sur une session de code collaborative, façon construction, plus une conception de système, en pondérant fortement le jugement produit côté frontend et la communication.
Linear s’appuie sur un projet court (autour de trois heures), rémunéré, façon période d’essai, suivi d’une discussion de revue de code, et exige un « strong yes » quasi unanime du panel pour formuler une offre. De la structure, une barre haute et de la pertinence métier, en un seul processus.
Un contraste utile, c’est le modèle façon GitLab : une revue de code asynchrone d’une vraie merge request comme base d’une discussion en direct. Cela teste la lecture et la critique de code réel plutôt que sa génération, ce qui convient à une culture remote-async. L’intérêt de lister cinq approches différentes n’est pas qu’une seule soit la bonne. C’est que chaque entreprise a adapté le format à sa façon réelle de travailler, et que toutes se concluent par un moment de jugement en direct, défendable.
Le nouveau format est-il vraiment plus équitable ? Ce que disent les preuves
Les échantillons de travail pertinents pour le poste comptent parmi les méthodes de sélection les plus valides et les moins biaisées — mais seulement lorsqu’ils sont structurés. L’équité vient de la structure, de la pertinence métier et de la cohérence, pas de l’étiquette du format.
Soyez prudent avec les chiffres, car le canon a récemment été corrigé. Sackett, Zhang, Berry et Lievens (2022) ont réanalysé des décennies de recherche sur la sélection du personnel et revu à la baisse plusieurs estimations de validité longtemps citées :
- Les entretiens structurés sont désormais le tout meilleur prédicteur, avec une validité opérationnelle d’environ 0,42 (révisée à la baisse depuis 0,51).
- Les tests sur échantillon de travail se situent autour de 0,33 (fortement révisés à la baisse depuis le 0,54 longtemps cité).
- L’aptitude cognitive générale se situe autour de 0,31 (en baisse depuis 0,51).
Le classement, voilà l’essentiel : un entretien bien structuré — la soutenance en direct menée avec rigueur — prédit désormais mieux la performance qu’un échantillon de travail brut ou un test cognitif. C’est un argument de poids en faveur de la soutenance en direct pour sa valeur propre, et pas seulement comme tactique anti-triche.
Sur le biais en particulier, appuyez-vous sur des tailles d’effet validées par les pairs plutôt que sur les statistiques marketing recyclées. La méta-analyse d’Aamodt a montré que les entretiens non structurés étaient bien plus sujets au biais (d = 0,59) que les entretiens structurés (d = 0,23), et que les écarts de score selon l’origine ethnique se réduisent à mesure que la structure augmente. Ajoutez un levier de plus : rémunérez les candidats pour les étapes substantielles sur échantillon de travail. Campion et ses collègues (2025) ont constaté que l’entraînement et les tests sur échantillon de travail rémunérés réduisent les différences de score entre sous-groupes ; payer pour du travail réel augmente aussi le taux d’achèvement et aide les aidants familiaux et les candidats à plus faibles revenus, qui ne peuvent pas offrir des heures non rémunérées.
Pourquoi les statistiques « 42 % / 81 % de réduction du biais » que vous avez vues sont peu fiables
Vous trouverez des dizaines de blogs d’éditeurs affirmant que les entretiens structurés « réduisent le biais de genre de 42 %, le biais racial de 35 %, et améliorent la précision de 81 % ». Ces trois chiffres ne renvoient à aucune étude primaire traçable ; ils sont recopiés d’une source à l’autre. Utilisez plutôt les chiffres validés par les pairs ci-dessus. La crédibilité de votre argumentaire sur l’équité dépend de la citation de recherches qui existent vraiment, surtout dans un environnement réglementaire où l’EEOC et le DOJ attendent de vous que vous défendiez votre processus.
Concevez des évaluations équitables et à l’épreuve de l’IA par défaut avec Kit
L’IA a cassé le tableau blanc et l’exercice à la maison non supervisé la même année. La solution n’est pas la surveillance. C’est de concevoir le bon format : des échantillons de travail pertinents pour le poste, rémunérés et structurés, qui se concluent toujours par une soutenance en direct. Le problème, quand on fait ça à la main, c’est que les pièces — la tâche réaliste, le paiement, la soutenance planifiée, la notation indépendante — vivent dans cinq outils différents et ont tendance à se désynchroniser. Kit en fait un seul pipeline composable.
- Les modèles de processus composables vous permettent d’encoder directement la thèse : un formulaire de candidature enchaîne sur une étape d’exercice de code, puis sur un entretien en direct, puis sur une revue d’équipe et une offre. L’exercice à la maison est conçu pour être l’ordre du jour de la soutenance, pas le signal final.
- L’étape d’exercice de code est un échantillon de travail réaliste, pas du LeetCode. Elle utilise un dépôt privé sur GitHub cloné depuis un modèle, avec un véritable workflow de branche et de PR et une date limite configurable. Elle est pertinente pour le poste par construction.
- Les paiements par étape vous permettent de rémunérer les candidats pour les étapes substantielles sur échantillon de travail, ce qui est à la fois le geste d’équité étayé par Campion (2025) et un signal de respect évident.
- La revue d’équipe avec des relecteurs par étape vous donne des fiches d’évaluation structurées et indépendantes avant le débriefing — le mécanisme anti-biais au plus fort effet de levier dans la recherche, et le justificatif auditable qu’attendent l’EEOC et le DOJ.
- La planification d’entretiens en direct transforme la soutenance en fonctionnalité, pour que la conversation « expliquez-moi votre démarche » soit une étape intégrée plutôt qu’un détail de dernière minute.
Si vous voulez l’argumentaire de validité en profondeur, lisez fiches d’évaluation d’entretien structuré et validité prédictive, et pour le virage plus large qui éloigne des entretiens à base de casse-têtes, voyez pourquoi LeetCode est obsolète dans un entretien post-IA.
Le tableau blanc a disparu, et l’exercice à la maison non supervisé est parti avec lui. Ce qui les remplace n’est pas un nouveau gadget. C’est un choix de format : un travail rémunéré, structuré et pertinent pour le poste, que le candidat défend à voix haute. Construisez cela une fois, et votre processus est équitable et à l’épreuve de l’IA par conception. Démarrez un essai gratuit et composez votre premier pipeline à l’épreuve de l’IA, ou parcourez les modèles de poste pour partir d’un modèle prêt à l’emploi.
Articles similaires
Litiges sur les primes de bug bounty : SLA et équité dans votre VDP
AMD a mis 124 jours à corriger une faille critique, puis a refusé la prime de 10 000 $ du chercheur au motif qu'elle était hors périmètre. Voici comment piloter un VDP avec des SLA publiés et une grille des primes transparente, consignée dans un grand livre.
Le retour aux candidats n'est pas une politesse. C'est un levier de revenus.
La plupart des candidats n'apprennent jamais pourquoi ils ont été refusés, et cela vous coûte des clients, des recommandations et de futures recrues. Comment donner un retour qui renforce votre marque.
Recruter une équipe distribuée sur plusieurs fuseaux horaires
Recruter sur plusieurs fuseaux horaires fait voler en éclats le cycle d'entretiens synchrones. Voici le processus async-first : des SLA d'étape équitables, des entretiens enregistrés que les candidats ne détestent pas, et un onboarding distribué.
Pret a recruter plus intelligemment ?
Commencez gratuitement. Aucune carte de credit requise. Configurez votre premier pipeline de recrutement en quelques minutes.
Commencer gratuitement