La entrevista de pizarra ha muerto: contratar de forma justa y a prueba de IA

En 2026 la IA dejó inservibles las pizarras y los ejercicios para casa. Aquí tienes el marco de decisión para evaluar con muestras de trabajo justas y a prueba de IA, basado en cómo contratan Anthropic, Stripe y Linear.

Ernest Bursa

Founder · 15 de junio de 2026 · 12 min de lectura

Two engineers pair programming on a real codebase at a sunlit co-working table, one narrating a decision while the other types

Como señal aislada, la entrevista de pizarra ha muerto. Un estudio controlado de NC State y Microsoft descubrió que los candidatos sometidos a entrevistas técnicas con observador rendían más o menos la mitad de bien que quienes resolvían el mismo problema en privado, y la IA generativa hoy resuelve en minutos tanto los acertijos de pizarra como los ejercicios para casa. El sustituto que aguanta es la evaluación con muestra de trabajo: una tarea relevante para el puesto que termina en una defensa en vivo, donde el candidato explica y modifica decisiones reales en voz alta.

Ese último paso lo es todo. Las superposiciones con IA pueden escribir código durante una sesión compartida de pantalla y terminar un ejercicio «de 3 horas» en minutos, pero no pueden defender una concesión de diseño en tiempo real. La respuesta estratégica de los mejores equipos de ingeniería en 2026 no es un software de vigilancia. Es un cambio de formato hacia evaluaciones que ponen a prueba el criterio y la comunicación, las dos cosas que la IA todavía no puede fingir en vivo. Esta guía te da el marco de decisión: qué formato usar ahora, cómo hacerlo justo y resistente al fraude sin spyware, y cómo eligen de verdad Anthropic, Stripe, Vercel y Linear.

¿Han muerto las entrevistas de pizarra? (Sí, y la IA es solo la mitad del motivo)

Sí, como señal aislada. La entrevista de pizarra ya estaba rota antes de que la IA la tocara, y la IA terminó de borrar la poca señal que quedaba.

El primer problema es que nunca midió lo que debía. En un experimento controlado, Behroozi y sus colegas en NC State y Microsoft (2020) pusieron a los candidatos a resolver el mismo problema en dos condiciones: solos, y observados por un entrevistador en el clásico montaje de pizarra. Los candidatos en la condición observada rindieron aproximadamente la mitad de bien. El formato mide sobre todo la ansiedad de rendimiento y la carga sobre la memoria de trabajo bajo observación, no la competencia como ingeniero. Y además penaliza precisamente a las personas a las que quieres dar una oportunidad justa: introvertidos, candidatos neurodivergentes y cualquiera cuyo estilo de comunicación no encaje con una actuación verbal bajo presión.

El segundo problema llegó en 2025. Herramientas de superposición como Cluely, Interview Coder y Leetcode Wizard hoy soplan respuestas de forma invisible durante una pantalla compartida. Un problema típico al estilo LeetCode se resuelve en silencio, de fondo, mientras el candidato teclea. Si tu cribado todavía depende de acertijos de programación competitiva, ya no estás midiendo al candidato. Estás midiendo sus herramientas.

Esto no significa que el código en vivo no valga nada. Significa que el formato de acertijo observado no vale. La versión que sobrevive es el código en vivo colaborativo: programar en pareja en un IDE real sobre un problema realista, donde el entrevistador es un compañero que piensa junto al candidato, no un vigilante esperando la respuesta correcta. Eso mide cómo razona alguien, cómo pregunta y cómo se mueve en código desconocido, que está mucho más cerca del trabajo real y es mucho más difícil de fingir con una superposición.

Por qué la IA también rompió el ejercicio para casa (y por qué la vigilancia es la solución equivocada)

El ejercicio para casa sin supervisión es hoy, de todos, el formato más expuesto a la IA. El arreglo no es un software de detección. Es el diseño.

Los ejercicios para casa siempre tuvieron el mejor argumento de validez frente al mundo real, y siguen siendo valiosos. Pero una tarea asíncrona sin calificar ni defender es lo más fácil de completar con IA en todo tu proceso. El proveedor de evaluaciones Fabric informa de que un ejercicio diseñado para llevar tres horas puede completarse con herramientas de IA en unos ocho minutos, y que las trampas entre sus candidatos más que se duplicaron a lo largo de 2025, pasando de en torno al 15 % al 35 %. Trata esas cifras exactas como una dirección, no como un dogma; son autoinformadas por el proveedor y sin fuente citada. La tendencia, eso sí, no está en discusión, y cualquier líder de ingeniería que haya revisado un ejercicio que «parecía demasiado limpio» ya lo sabe.

La respuesta tentadora es comprar una salida con proctoring: seguimiento ocular, registro de pulsaciones, bloqueo de pantalla, spyware de navegador. Resístete, por tres razones.

Es hostil y daña tu marca. La ingeniería es una comunidad pequeña y muy habladora. Los candidatos comparten sus historias de terror con la vigilancia, y tus mejores aspirantes se autodescartan antes incluso de presentar candidatura.
Crea sus propios problemas de sesgo y accesibilidad. Las herramientas de bloqueo y seguimiento ocular penalizan a candidatos neurodivergentes, a candidatos con discapacidad y a cualquiera con un montaje no estándar. El Reglamento (UE) 2024/1689 (el Reglamento de IA) clasifica los sistemas de IA usados para el reclutamiento y la selección o evaluación de candidatos como de alto riesgo (Anexo III, punto 4.a) y sitúa las obligaciones sobre el empleador que los despliega; y la AEPD (Agencia Española de Protección de Datos) ha sancionado la vigilancia y el proctoring biométrico o de reconocimiento facial impuestos sin una base jurídica válida ni una alternativa real no biométrica. El empleador sigue siendo responsable de una evaluación automatizada discriminatoria o desproporcionada, sin importar qué proveedor haya construido la herramienta.
Ni siquiera funciona. La vigilancia combate el síntoma. Un segundo monitor o un teléfono burlan casi todo. Gastas confianza y presupuesto para perder igualmente.

Contexto local

En España, «resistirse al proctoring» no es solo un consejo de marca: la vigilancia biométrica de candidatos es una responsabilidad regulatoria concreta. Bajo el RGPD, tal y como lo aplica la AEPD, el proctoring biométrico obligatorio (reconocimiento facial, seguimiento ocular, doble cámara) sin una alternativa no biométrica real e igual de válida es ilícito: el consentimiento no es «libre» si rechazarlo implica perder la oportunidad de ser evaluado, y el principio de minimización de datos exige el método menos intrusivo (un bloqueo del navegador con preguntas aleatorizadas y límite de tiempo puede sustituir a la biometría). La AEPD multó a la Universidad Internacional de Valencia (VIU) con unos 650 000 € por exactamente esto. Antes de usar cualquier vigilancia biométrica necesitas una Evaluación de Impacto (EIPD/DPIA).

La respuesta que aguanta es la resistencia por diseño: construir formatos donde la señal viva en el razonamiento en vivo, de modo que no haya nada que una superposición pueda rescatar. En algunos puestos puedes ir más allá y permitir explícitamente la IA durante la tarea, y luego puntuar lo bien que el candidato la dirige y la critica, porque eso refleja el trabajo de verdad.

¿Qué formato de evaluación deberías usar ahora? Un marco de decisión

Ajusta el formato a la realidad cotidiana del puesto, y asegúrate de que al menos una ronda fuerce el criterio en tiempo real. No hay un único mejor formato; hay un mejor formato para este puesto.

Formato	Mejor para	Por qué resiste a la IA
Programación en pareja sobre un problema realista	Puestos donde colaborar y moverse en código desconocido es el trabajo	El razonamiento se observa en vivo y en colaboración; una superposición no puede narrar tu razonamiento por ti
Ejercicio para casa + defensa en vivo	Puestos donde el trabajo asíncrono, profundo e independiente es lo esencial	La ronda de defensa pone a prueba decisiones que el candidato tiene que asumir en voz alta
Diseño de sistemas	Puestos sénior y de infraestructura	Va de concesiones de diseño y comunicación, no de respuestas que se puedan recuperar
Revisión de código asíncrona de código real	Culturas de trabajo remoto por defecto, muy asíncronas	Mide la comprensión y la crítica, no la generación

El hilo conductor de los cuatro es el mismo: la señal más a prueba de IA es un candidato que defiende decisiones reales en tiempo real. Elige el formato que más se parezca a un martes normal en el puesto, y luego asegúrate de que el candidato tenga que explicar su razonamiento a una persona al menos una vez.

Una opción por defecto y práctica para la mayoría de los puestos de ingeniería en startups es la segunda fila: un ejercicio para casa breve, pagado y realista que se convierte en el guion de una conversación en vivo. Obtienes la validez ecológica del trabajo real más la resistencia al fraude de una defensa en vivo. Si quieres la mecánica táctica de diseñar ese ejercicio en sí —alcance, presupuesto de tiempo y calificación—, mira nuestro análisis a fondo sobre cómo estructurar ejercicios de código que los candidatos no odien.

El único cambio que vuelve cualquier formato a prueba de IA: la defensa en vivo

El mecanismo anti-fraude más duradero, por sí solo, es cerrar cada entregable asíncrono con una defensa en vivo: «Explícame esto. Ahora cambia el requisito X. ¿Por qué elegiste esto en lugar de la alternativa?».

He aquí por qué funciona. Una superposición con LLM puede producir el código. Lo que no puede, en tiempo real, es explicar por qué un modelo de datos le ganó a otro para esta restricción concreta, adaptarse cuando cambias la especificación a mitad de conversación, o depurar aquello que supuestamente escribió. El entregable deja de ser la señal final y se convierte en el guion de una conversación de 20 a 30 minutos sobre criterio. Quien lo construyó de verdad lo pasa sin despeinarse. Quien lo pegó desde una herramienta se atasca en el primer «¿por qué?».

La defensa en vivo también arregla, sin hacer ruido, el problema de la equidad. Ya no estás puntuando la velocidad al teclear bajo observación —eso que el estudio de NC State demostró que es sobre todo ansiedad—. Estás puntuando el razonamiento sobre un trabajo que el candidato ya hizo a su propio ritmo, lo cual es a la vez más justo y un predictor mucho mejor del rendimiento en el puesto.

En concreto, en cualquier proceso esto se traduce en lo siguiente:

El candidato completa de forma asíncrona una muestra de trabajo pequeña, realista y pagada.
Una sesión en vivo de 25 minutos arranca con «explícame tu enfoque».
Cambias un requisito en vivo y observas cómo se adapta.
Le pides que depure o amplíe una parte sobre la marcha.
Los revisores puntúan el razonamiento, con un cuadro de evaluación, antes de que nadie haga la puesta en común.

Sin spyware. Sin acusaciones. Solo una conversación que una IA no puede mantener en nombre del candidato.

Cómo contratan de verdad Anthropic, Stripe, Vercel y Linear

Los equipos de ingeniería mejor gestionados ya han dado el cambio. Ninguno se apoya en acertijos de pizarra observados, y ninguno se apoya en la vigilancia. Se apoyan en trabajo realista más criterio en vivo.

Anthropic hace un cribado con un reclutador, una entrevista técnica telefónica y luego o bien un ejercicio para casa o bien una evaluación en vivo de unos 60 minutos (según el puesto, en CodeSignal, y explícitamente no al estilo LeetCode), seguida de cuatro a seis rondas presenciales que incluyen diseño de sistemas y una ronda de valores con mucho peso. Y lo más llamativo: la empresa que crea Claude publica una política de IA explícita para candidatos. Tras un giro de julio de 2025, los candidatos pueden usar IA para pulir los materiales de la candidatura, pero queda prohibida en entrevistas en vivo y ejercicios para casa: «Complétalos sin Claude salvo que indiquemos lo contrario. Queremos evaluar tus habilidades únicas». Eso es resistencia a la IA por diseño más honestidad con los candidatos, viniendo del equipo que más motivos tiene para pensárselo a fondo.

Stripe aplica un proceso deliberadamente práctico: depurar una base de código desconocida, construir una pequeña integración desde cero, resolver problemas de varias partes narrando tu razonamiento. Algunas rondas se hacen en pareja. Está más cerca de la ingeniería real que de la programación competitiva, y a propósito.

Vercel usa una sesión de código colaborativa, de estilo «construir», más diseño de sistemas, con peso hacia el criterio de producto en frontend y la comunicación.

Linear usa un proyecto breve (de unas tres horas), pagado y al estilo prueba de trabajo, seguido de una conversación de revisión de código, y exige un «sí rotundo» casi unánime del panel para hacer una oferta. Estructura, listón alto y relevancia para el puesto, en un solo proceso.

Un contraste útil es el patrón al estilo GitLab: una revisión de código asíncrona de un merge request real como base para una conversación en vivo. Mide la lectura y la crítica de código real en vez de su generación, lo que encaja con una cultura remota y asíncrona. El sentido de listar cinco enfoques distintos no es que uno sea el correcto. Es que cada empresa ajustó el formato a cómo trabaja de verdad, y todas terminan en un momento de criterio en vivo y defendible.

¿Es el nuevo formato realmente más justo? Qué dicen los datos

Las muestras de trabajo relevantes para el puesto están entre los métodos de selección más válidos y con menos sesgo, pero solo cuando están estructuradas. La equidad viene de la estructura, de la relevancia para el puesto y de aplicar siempre el mismo criterio, no de la etiqueta del formato.

Cuidado con las cifras, porque el canon se corrigió hace poco. Sackett, Zhang, Berry y Lievens (2022) reanalizaron décadas de investigación en selección de personal y rebajaron varias estimaciones de validez citadas durante mucho tiempo:

Las entrevistas estructuradas son ahora el mejor predictor individual, con una validez operativa de en torno a 0,42 (revisada a la baja desde 0,51).
Las pruebas con muestra de trabajo se sitúan en torno a 0,33 (revisadas con fuerza a la baja desde el citadísimo 0,54).
La capacidad cognitiva general se sitúa en torno a 0,31 (a la baja desde 0,51).

El titular es el orden: una entrevista bien estructurada —la defensa en vivo hecha con rigor— hoy predice el rendimiento mejor que una muestra de trabajo en bruto o una prueba cognitiva. Eso es un argumento sólido a favor de la defensa en vivo por méritos propios, no solo como táctica anti-fraude.

Sobre el sesgo en concreto, usa tamaños de efecto revisados por pares en lugar de las estadísticas de marketing recicladas. El metaanálisis de Aamodt halló que las entrevistas no estructuradas son mucho más susceptibles al sesgo (d = 0,59) que las estructuradas (d = 0,23), y que las brechas raciales en las puntuaciones se reducen a medida que aumenta la estructura. Añade una palanca más: paga a los candidatos por las etapas de muestra de trabajo sustanciales. Campion y sus colegas (2025) hallaron que la práctica y las pruebas con muestra de trabajo pagadas reducen las diferencias de puntuación entre subgrupos, y pagar por trabajo real también eleva la tasa de finalización y ayuda a los cuidadores y a los candidatos de menores ingresos que no pueden donar horas sin cobrar.

Por qué las estadísticas de «reducción del sesgo del 42 % / 81 %» que has visto no son fiables

Encontrarás docenas de blogs de proveedores que afirman que las entrevistas estructuradas «reducen el sesgo de género un 42 %, el sesgo racial un 35 % y mejoran la precisión un 81 %». Esas tres cifras no tienen ningún estudio primario rastreable; se copian de una fuente a la siguiente. Usa en su lugar las cifras revisadas por pares de arriba. La credibilidad de tu argumento sobre la equidad depende de citar investigación que existe de verdad, sobre todo en un entorno regulatorio donde un proceso de selección documentado y auditable es lo que exigen los deberes de supervisión humana, registro y transparencia del Reglamento de IA para los sistemas de reclutamiento de alto riesgo y, en lo que respecta a las decisiones que afectan al empleo, lo que el artículo 64.4.d del Estatuto de los Trabajadores (añadido por la Ley 12/2021, la «Ley Rider») te obliga a poder explicar: los parámetros, las reglas y la lógica de cualquier algoritmo o IA que incida en el acceso al empleo o en su mantenimiento.

Diseña evaluaciones justas y a prueba de IA por defecto con Kit

La IA rompió la pizarra y el ejercicio para casa sin supervisión en el mismo año. El arreglo no es la vigilancia. Es diseñar el formato correcto: muestras de trabajo relevantes para el puesto, pagadas y estructuradas, que siempre terminan en una defensa en vivo. El problema de hacer esto a mano es que las piezas —la tarea realista, el pago, la defensa programada, la puntuación independiente— viven en cinco herramientas distintas y tienden a desincronizarse. Kit las convierte en un único pipeline componible.

Las plantillas de proceso componibles te dejan codificar la tesis directamente: un formulario de candidatura fluye hacia una etapa de ejercicio de código, luego hacia una ronda de entrevista en vivo, luego hacia una revisión del equipo y una oferta. El ejercicio para casa se construye para ser el guion de la defensa, no la señal final.
La etapa de ejercicio de código es una muestra de trabajo realista, no LeetCode. Usa un repositorio privado en GitHub clonado a partir de una plantilla, con un flujo real de rama y PR y un plazo configurable. Es relevante para el puesto por construcción.
Los pagos por etapa te permiten pagar a los candidatos por las etapas de muestra de trabajo sustanciales, que es a la vez la palanca de equidad respaldada por Campion (2025) y una clara señal de respeto.
La revisión del equipo con revisores por etapa te da cuadros de evaluación estructurados e independientes antes de la puesta en común: el mecanismo anti-sesgo de mayor palanca según la investigación y el documento auditable que exigen el Reglamento de IA (supervisión humana y registro de los sistemas de alto riesgo) y el artículo 64.4.d del Estatuto de los Trabajadores.
La programación de entrevistas en vivo convierte la ronda de defensa en producto, de modo que la conversación de «explícame esto» es una etapa integrada y no una ocurrencia de última hora.

Si quieres el argumento de validez a fondo, lee cuadros de evaluación en entrevistas estructuradas y validez predictiva, y para el cambio más amplio que deja atrás los cribados con acertijos, mira por qué LeetCode quedó obsoleto en una entrevista post-IA.

La pizarra ya no está, y el ejercicio para casa sin supervisión se fue con ella. Lo que las sustituye no es un nuevo cacharro. Es una elección de formato: trabajo pagado, estructurado y relevante para el puesto que un candidato defiende en voz alta. Constrúyelo una vez y tu proceso será justo y a prueba de IA por diseño. Empieza tu prueba gratuita y compón tu primer pipeline a prueba de IA, o explora las plantillas de puestos para arrancar desde una ya hecha.

La entrevista de pizarra ha muerto: contratar de forma justa y a prueba de IA

¿Han muerto las entrevistas de pizarra? (Sí, y la IA es solo la mitad del motivo)

Por qué la IA también rompió el ejercicio para casa (y por qué la vigilancia es la solución equivocada)

¿Qué formato de evaluación deberías usar ahora? Un marco de decisión

El único cambio que vuelve cualquier formato a prueba de IA: la defensa en vivo

Cómo contratan de verdad Anthropic, Stripe, Vercel y Linear

¿Es el nuevo formato realmente más justo? Qué dicen los datos

Por qué las estadísticas de «reducción del sesgo del 42 % / 81 %» que has visto no son fiables

Diseña evaluaciones justas y a prueba de IA por defecto con Kit

Artículos relacionados

¿Listo para contratar de forma más inteligente?

¿Han muerto las entrevistas de pizarra? (Sí, y la IA es solo la mitad del motivo)

Por qué la IA también rompió el ejercicio para casa (y por qué la vigilancia es la solución equivocada)

¿Qué formato de evaluación deberías usar ahora? Un marco de decisión

El único cambio que vuelve cualquier formato a prueba de IA: la defensa en vivo

Cómo contratan de verdad Anthropic, Stripe, Vercel y Linear

¿Es el nuevo formato realmente más justo? Qué dicen los datos

Por qué las estadísticas de «reducción del sesgo del 42 % / 81 %» que has visto no son fiables

Diseña evaluaciones justas y a prueba de IA por defecto con Kit

Artículos relacionados

Las referencias salariales van en tu ATS, no en otra pestaña

El burnout de los CISO es un problema de operaciones, no de sueldo

La guerra de productos ATS en 2026: qué quieren de verdad los reclutadores

Hacer trampas con IA en las entrevistas ya es la norma. Aquí tienes la solución

Tus candidatos creen que tu reclutador es falso. Demuéstrales que es real.

Se acaba de abrir la ventana del talento en seguridad: recortes en CISA + cierre de Huntr

¿Listo para contratar de forma más inteligente?