La entrevista de pizarra ha muerto: contratar de forma justa y a prueba de IA
En 2026 la IA dejó inservibles las pizarras y los ejercicios para casa. Aquí tienes el marco de decisión para evaluar con muestras de trabajo justas y a prueba de IA, basado en cómo contratan Anthropic, Stripe y Linear.
Ernest Bursa
Como señal aislada, la entrevista de pizarra ha muerto. Un estudio controlado de NC State y Microsoft descubrió que los candidatos sometidos a entrevistas técnicas con observador rendían más o menos la mitad de bien que quienes resolvían el mismo problema en privado, y la IA generativa hoy resuelve en minutos tanto los acertijos de pizarra como los ejercicios para casa. El sustituto que aguanta es la evaluación con muestra de trabajo: una tarea relevante para el puesto que termina en una defensa en vivo, donde el candidato explica y modifica decisiones reales en voz alta.
Ese último paso lo es todo. Las superposiciones con IA pueden escribir código durante una sesión compartida de pantalla y terminar un ejercicio “de 3 horas” en minutos, pero no pueden defender una concesión de diseño en tiempo real. La respuesta estratégica de los mejores equipos de ingeniería en 2026 no es un software de vigilancia. Es un cambio de formato hacia evaluaciones que ponen a prueba el criterio y la comunicación, las dos cosas que la IA todavía no puede fingir en vivo. Esta guía te da el marco de decisión: qué formato usar ahora, cómo hacerlo justo y resistente al fraude sin spyware, y cómo eligen de verdad Anthropic, Stripe, Vercel y Linear.
¿Han muerto las entrevistas de pizarra? (Sí, y la IA es solo la mitad del motivo)
Sí, como señal aislada. La entrevista de pizarra ya estaba rota antes de que la IA la tocara, y la IA terminó de borrar la poca señal que quedaba.
El primer problema es que nunca midió lo que debía. En un experimento controlado, Behroozi y sus colegas en NC State y Microsoft (2020) pusieron a los candidatos a resolver el mismo problema en dos condiciones: solos, y observados por un entrevistador en el clásico montaje de pizarra. Los candidatos en la condición observada rindieron aproximadamente la mitad de bien. El formato mide sobre todo la ansiedad de rendimiento y la carga sobre la memoria de trabajo bajo observación, no la competencia como ingeniero. Y además penaliza precisamente a las personas a las que quieres dar una oportunidad justa: introvertidos, candidatos neurodivergentes y cualquiera cuyo estilo de comunicación no encaje con una actuación verbal bajo presión.
El segundo problema llegó en 2025. Herramientas de superposición como Cluely, Interview Coder y Leetcode Wizard hoy soplan respuestas de forma invisible durante una pantalla compartida. Un problema típico al estilo LeetCode se resuelve en silencio, de fondo, mientras el candidato teclea. Si tu cribado todavía depende de acertijos de programación competitiva, ya no estás midiendo al candidato. Estás midiendo sus herramientas.
Esto no significa que el código en vivo no valga nada. Significa que el formato de acertijo observado no vale. La versión que sobrevive es el código en vivo colaborativo: programar en pareja en un IDE real sobre un problema realista, donde el entrevistador es un compañero que piensa junto al candidato, no un vigilante esperando la respuesta correcta. Eso mide cómo razona alguien, cómo pregunta y cómo se mueve en código desconocido, que está mucho más cerca del trabajo real y es mucho más difícil de fingir con una superposición.
Por qué la IA también rompió el ejercicio para casa (y por qué la vigilancia es la solución equivocada)
El ejercicio para casa sin supervisión es hoy, de todos, el formato más expuesto a la IA. El arreglo no es un software de detección. Es el diseño.
Los ejercicios para casa siempre tuvieron el mejor argumento de validez frente al mundo real, y siguen siendo valiosos. Pero una tarea asíncrona sin calificar ni defender es lo más fácil de completar con IA en todo tu proceso. El proveedor de evaluaciones Fabric informa de que un ejercicio diseñado para llevar tres horas puede completarse con herramientas de IA en unos ocho minutos, y que la adopción del fraude en su bolsa de candidatos más que se duplicó a lo largo de 2025, pasando de en torno al 15 % al 35 %. Trata esas cifras exactas como una dirección, no como un dogma; son autoinformadas por el proveedor y sin fuente citada. La tendencia, eso sí, no está en discusión, y cualquier líder de ingeniería que haya revisado un ejercicio que “parecía demasiado limpio” ya lo sabe.
La respuesta tentadora es comprar una salida con proctoring: seguimiento ocular, registro de pulsaciones, bloqueo de pantalla, spyware de navegador. Resístete, por tres razones.
- Es hostil y daña tu marca. La ingeniería es una comunidad pequeña y muy habladora. Los candidatos comparten sus historias de terror con la vigilancia, y tus mejores aspirantes se autodescartan antes incluso de presentar candidatura.
- Crea sus propios problemas de sesgo y accesibilidad. Las herramientas de bloqueo y seguimiento ocular penalizan a candidatos neurodivergentes, a candidatos con discapacidad y a cualquiera con un montaje no estándar. La EEOC y el DOJ han dejado claro que el empleador sigue siendo responsable cuando una herramienta de evaluación automatizada provoca un impacto adverso, sin importar quién la haya construido.
- Ni siquiera funciona. La vigilancia combate el síntoma. Un segundo monitor o un teléfono burlan casi todo. Gastas confianza y presupuesto para perder igualmente.
La respuesta que aguanta es la resistencia por diseño: construir formatos donde la señal viva en el razonamiento en vivo, de modo que no haya nada que una superposición pueda rescatar. En algunos puestos puedes ir más allá y permitir explícitamente la IA durante la tarea, y luego puntuar lo bien que el candidato la dirige y la critica, porque eso refleja el trabajo de verdad.
¿Qué formato de evaluación deberías usar ahora? Un marco de decisión
Ajusta el formato a la realidad cotidiana del puesto, y asegúrate de que al menos una ronda fuerce el criterio en tiempo real. No hay un único mejor formato; hay un mejor formato para este puesto.
| Formato | Mejor para | Por qué resiste a la IA |
|---|---|---|
| Programación en pareja sobre un problema realista | Puestos donde colaborar y moverse en código desconocido es el trabajo | El razonamiento se observa en vivo y en colaboración; una superposición no puede narrar tu razonamiento por ti |
| Ejercicio para casa + defensa en vivo | Puestos donde el trabajo asíncrono, profundo e independiente es lo esencial | La ronda de defensa pone a prueba decisiones que el candidato tiene que asumir en voz alta |
| Diseño de sistemas | Puestos sénior y de infraestructura | Va de concesiones de diseño y comunicación, no de respuestas que se puedan recuperar |
| Revisión de código asíncrona de código real | Culturas remote-first, muy asíncronas | Mide la comprensión y la crítica, no la generación |
El hilo conductor de los cuatro es el mismo: la señal más a prueba de IA es un candidato defendiendo decisiones reales en tiempo real. Elige el formato que más se parezca a un martes normal en el puesto, y luego asegúrate de que el candidato tenga que explicar su razonamiento a una persona al menos una vez.
Una opción por defecto y práctica para la mayoría de los puestos de ingeniería en startups es la segunda fila: un ejercicio para casa breve, pagado y realista que se convierte en el guion de una conversación en vivo. Obtienes la validez ecológica del trabajo real más la resistencia al fraude de una defensa en vivo. Si quieres la mecánica táctica de diseñar ese ejercicio en sí —alcance, presupuesto de tiempo y calificación—, mira nuestro análisis a fondo sobre cómo estructurar ejercicios de código que los candidatos no odien.
El único movimiento que hace cualquier formato a prueba de IA: la defensa en vivo
El mecanismo anti-fraude más duradero, por sí solo, es cerrar cada artefacto asíncrono con una defensa en vivo: “Explícame esto. Ahora cambia el requisito X. ¿Por qué elegiste esto en lugar de la alternativa?”.
He aquí por qué funciona. Una superposición con LLM puede producir el código. Lo que no puede, en tiempo real, es explicar por qué un modelo de datos le ganó a otro para esta restricción concreta, adaptarse cuando cambias la especificación a mitad de conversación, o depurar aquello que supuestamente escribió. El artefacto deja de ser la señal final y se convierte en el guion de una conversación de 20 a 30 minutos sobre criterio. Quien lo construyó de verdad navega sin problemas. Quien lo pegó desde una herramienta se atasca en el primer “¿por qué?”.
La defensa en vivo también arregla, sin hacer ruido, el problema de la justicia. Ya no estás puntuando la velocidad al teclear bajo observación —eso que el estudio de NC State demostró que es sobre todo ansiedad—. Estás puntuando el razonamiento sobre un trabajo que el candidato ya hizo a su propio ritmo, lo cual es a la vez más justo y un predictor mucho mejor del rendimiento en el puesto.
En concreto, en cualquier proceso el movimiento se ve así:
- El candidato completa de forma asíncrona una muestra de trabajo pequeña, realista y pagada.
- Una sesión en vivo de 25 minutos arranca con “explícame tu enfoque”.
- Cambias un requisito en vivo y observas cómo se adapta.
- Le pides que depure o amplíe una parte sobre la marcha.
- Los revisores puntúan el razonamiento, con una rúbrica, antes de que nadie haga el debrief.
Sin spyware. Sin acusaciones. Solo una conversación que una IA no puede mantener en nombre del candidato.
Cómo contratan de verdad Anthropic, Stripe, Vercel y Linear
Los equipos de ingeniería mejor gestionados ya han dado el cambio. Ninguno se apoya en acertijos de pizarra observados, y ninguno se apoya en la vigilancia. Se apoyan en trabajo realista más criterio en vivo.
Anthropic hace un cribado con un reclutador, una entrevista técnica telefónica y luego o bien un ejercicio para casa o bien una evaluación en vivo de unos 60 minutos (según el puesto, en CodeSignal, y explícitamente no al estilo LeetCode), seguida de cuatro a seis rondas presenciales que incluyen diseño de sistemas y una ronda de valores con mucho peso. Y lo más llamativo: la empresa que crea Claude publica una política de IA explícita para candidatos. Tras un giro de julio de 2025, los candidatos pueden usar IA para pulir los materiales de la candidatura, pero queda prohibida en entrevistas en vivo y ejercicios para casa: “Complétalos sin Claude salvo que indiquemos lo contrario. Queremos evaluar tus habilidades únicas”. Eso es resistencia a la IA por diseño más honestidad con los candidatos, viniendo del equipo que más motivos tiene para pensárselo a fondo.
Stripe aplica un proceso deliberadamente práctico: depurar una base de código desconocida, construir una pequeña integración desde cero, trabajar problemas de varias partes narrando tu razonamiento. Algunas rondas se hacen en pareja. Está más cerca de la ingeniería real que de la programación competitiva, y a propósito.
Vercel usa una sesión de código colaborativa, de estilo “construir”, más diseño de sistemas, con peso hacia el criterio de producto en frontend y la comunicación.
Linear usa un proyecto breve (de unas tres horas), pagado y al estilo prueba de trabajo, seguido de una conversación de revisión de código, y exige un “sí rotundo” casi unánime del panel para hacer una oferta. Estructura, listón alto y relevancia para el puesto, en un solo proceso.
Un contraste útil es el patrón al estilo GitLab: una revisión de código asíncrona de un merge request real como base para una conversación en vivo. Mide la lectura y la crítica de código real en vez de su generación, lo que encaja con una cultura remota y asíncrona. El sentido de listar cinco enfoques distintos no es que uno sea el correcto. Es que cada empresa ajustó el formato a cómo trabaja de verdad, y todas terminan en un momento de criterio en vivo y defendible.
¿Es el nuevo formato realmente más justo? Qué dice la evidencia
Las muestras de trabajo relevantes para el puesto están entre los métodos de selección más válidos y con menos sesgo, pero solo cuando están estructuradas. La justicia viene de la estructura, la relevancia para el puesto y la consistencia, no de la etiqueta del formato.
Cuidado con las cifras, porque el canon se corrigió hace poco. Sackett, Zhang, Berry y Lievens (2022) reanalizaron décadas de investigación en selección de personal y rebajaron varias estimaciones de validez citadas durante mucho tiempo:
- Las entrevistas estructuradas son ahora el mejor predictor individual, con una validez operativa de en torno a 0,42 (revisada a la baja desde 0,51).
- Las pruebas con muestra de trabajo se sitúan en torno a 0,33 (revisadas con fuerza a la baja desde el citadísimo 0,54).
- La capacidad cognitiva general se sitúa en torno a 0,31 (a la baja desde 0,51).
El titular es el orden: una entrevista bien estructurada —la defensa en vivo hecha con rigor— hoy predice el rendimiento mejor que una muestra de trabajo en bruto o una prueba cognitiva. Eso es un argumento sólido a favor de la defensa en vivo por méritos propios, no solo como táctica anti-fraude.
Sobre el sesgo en concreto, usa tamaños de efecto revisados por pares en lugar de las estadísticas de marketing recicladas. El metaanálisis de Aamodt halló que las entrevistas no estructuradas son mucho más susceptibles al sesgo (d = 0,59) que las estructuradas (d = 0,23), y que las brechas raciales en las puntuaciones se reducen a medida que aumenta la estructura. Añade una palanca más: paga a los candidatos por las etapas de muestra de trabajo sustanciales. Campion y sus colegas (2025) hallaron que la práctica y las pruebas con muestra de trabajo pagadas reducen las diferencias de puntuación entre subgrupos, y pagar por trabajo real también eleva la finalización y ayuda a los cuidadores y a los candidatos de menores ingresos que no pueden donar horas sin cobrar.
Por qué las estadísticas de “reducción del sesgo del 42 % / 81 %” que has visto no son fiables
Encontrarás docenas de blogs de proveedores que afirman que las entrevistas estructuradas “reducen el sesgo de género un 42 %, el sesgo racial un 35 % y mejoran la precisión un 81 %”. Esas tres cifras no tienen ningún estudio primario rastreable; se copian de una fuente a la siguiente. Usa en su lugar las cifras revisadas por pares de arriba. La credibilidad de tu argumento sobre la justicia depende de citar investigación que existe de verdad, sobre todo en un entorno regulatorio donde la EEOC y el DOJ esperan que defiendas tu proceso.
Diseña evaluaciones justas y a prueba de IA por defecto con Kit
La IA rompió la pizarra y el ejercicio para casa sin supervisión en el mismo año. El arreglo no es la vigilancia. Es diseñar el formato correcto: muestras de trabajo relevantes para el puesto, pagadas y estructuradas, que siempre terminan en una defensa en vivo. El problema de hacer esto a mano es que las piezas —la tarea realista, el pago, la defensa programada, la puntuación independiente— viven en cinco herramientas distintas y tienden a desincronizarse. Kit las convierte en un único pipeline componible.
- Las plantillas de proceso componibles te dejan codificar la tesis directamente: un formulario de candidatura fluye hacia una etapa de ejercicio de código, luego hacia una ronda de entrevista en vivo, luego hacia una revisión del equipo y una oferta. El ejercicio para casa se construye para ser el guion de la defensa, no la señal final.
- La etapa de ejercicio de código es una muestra de trabajo realista, no LeetCode. Usa un repositorio privado en GitHub clonado a partir de una plantilla, con un flujo real de rama y PR y un plazo configurable. Es relevante para el puesto por construcción.
- Los pagos por etapa te permiten pagar a los candidatos por las etapas de muestra de trabajo sustanciales, que es a la vez el movimiento de justicia respaldado por Campion (2025) y una clara señal de respeto.
- La revisión del equipo con revisores por etapa te da tarjetas de puntuación estructuradas e independientes antes del debrief: el mecanismo anti-sesgo de mayor palanca según la investigación y el artefacto auditable que esperan la EEOC y el DOJ.
- La programación de entrevistas en vivo convierte la ronda de defensa en producto, de modo que la conversación de “explícame esto” es una etapa integrada y no una ocurrencia de última hora.
Si quieres el argumento de validez a fondo, lee tarjetas de puntuación de entrevistas estructuradas y validez predictiva, y para el cambio más amplio que deja atrás los cribados con acertijos, mira por qué LeetCode quedó obsoleto en una entrevista post-IA.
La pizarra ya no está, y el ejercicio para casa sin supervisión se fue con ella. Lo que las sustituye no es un nuevo cacharro. Es una elección de formato: trabajo pagado, estructurado y relevante para el puesto que un candidato defiende en voz alta. Constrúyelo una vez y tu proceso será justo y a prueba de IA por diseño. Empieza una prueba gratuita y compón tu primer pipeline a prueba de IA, o explora las plantillas de puestos para arrancar desde una ya hecha.
Artículos relacionados
Disputas por el pago de recompensas: SLA y equidad en tu VDP
AMD tardó 124 días en parchear un fallo crítico y luego negó al investigador su recompensa de 10.000 dólares por estar fuera de alcance. Así se gestiona un VDP con SLA publicados y una matriz de pagos transparente y registrada en el libro mayor.
El feedback a los candidatos no es un detalle bonito. Es una palanca de ingresos.
Casi ningún candidato llega a saber por qué lo rechazaron, y eso te cuesta clientes, recomendaciones y futuras contrataciones. Cómo dar feedback que construye tu marca.
Contratar un equipo distribuido a través de husos horarios
Contratar a través de husos horarios rompe el ciclo de entrevistas síncronas. Aquí tienes el proceso async-first: SLA de etapa justos, entrevistas grabadas que los candidatos no detestan y onboarding distribuido.
¿Listo para contratar de forma más inteligente?
Empiece gratis. Sin tarjeta de crédito. Configure su primer pipeline de contratación en minutos.
Empiece gratis