LeetCode es obsoleto: cómo entrevistar ingenieros en la era de la IA

Las entrevistas algorítmicas ya no predicen el rendimiento laboral. Un marco de 4 pilares para evaluar ingenieros de software cuando la IA escribe el código.

Ernest Bursa

Ernest Bursa

Founder · · 11 min de lectura

La entrevista de programación algorítmica es una reliquia. Cuando Claude 3.7 Sonnet, GPT-4.5 y DeepSeek V3 resuelven problemas “Hard” de LeetCode en menos de un segundo, evaluar a humanos en las mismas tareas no mide nada excepto memorización y tolerancia a la ansiedad. Un estudio de 2020 de la North Carolina State University y Microsoft, publicado en el Journal of Systems and Software, confirmó lo que la mayoría de los ingenieros ya sospechaban: las entrevistas técnicas miden principalmente si un candidato tiene ansiedad de rendimiento, no si puede construir software. El cuello de botella de la ingeniería ha pasado de escribir código a gobernar las máquinas que lo escriben. Tu proceso de entrevistas necesita evolucionar con él.

Por qué las entrevistas algorítmicas dejaron de funcionar

La premisa detrás de las entrevistas estilo LeetCode era simple: si puedes mantener sintaxis compleja en la memoria de trabajo y desplegarla bajo presión, probablemente eres un buen ingeniero. Esa premisa se derrumbó cuando la IA convirtió en commodity las habilidades exactas que estas pruebas miden.

Considera la brecha entre máquinas y humanos en las tareas que evalúan las entrevistas de pizarra:

Capacidad Modelos de IA (2026) Humano (entrevista en vivo)
Programación dinámica Resuelto al instante, precisión casi perfecta Altamente variable, se degrada bajo presión
Lógica algorítmica compleja Resuelve problemas de nivel “Hard” de forma rutinaria El éxito depende en gran medida de la memorización y la práctica reciente
Velocidad de salida 48-92 tokens/segundo Menos de 1 token/segundo
Consistencia Determinista entre intentos Muy afectada por ansiedad, sueño y tiempo de preparación

La propia investigación interna de Google descubrió que los acertijos y las entrevistas de puzzle tienen prácticamente cero correlación con el rendimiento laboral a largo plazo. Estas pruebas miden dos cosas: la memorización mecánica de patrones algorítmicos y la capacidad psicológica de rendir bajo estrés artificial. Ninguna de las dos predice cómo alguien va a diseñar un sistema distribuido, detectar un bug sutil en una revisión de código o rechazar un pull request generado por IA que está equivocado con total confianza.

La paradoja del síndrome del impostor

Los datos de experiencia de candidatos muestran que el 93% de quienes buscan empleo experimentan ansiedad severa relacionada con entrevistas, una condición que distorsiona los resultados de evaluación y suprime la función cognitiva. Pero la distorsión no se distribuye de manera uniforme.

Los ingenieros senior con profunda sabiduría arquitectónica y autocrítica constructiva a menudo rinden por debajo de su nivel en entrevistas de pizarra. Son intensamente conscientes de los casos límite, las restricciones de producción y la brecha entre las soluciones de libro y los sistemas reales. Esa consciencia los ralentiza bajo la presión artificial del tiempo.

Mientras tanto, los candidatos que pasaron cientos de horas practicando en LeetCode sin haber desplegado código en producción prosperan en este entorno teatral. La entrevista selecciona por tiempo de preparación, no por capacidad como ingeniero.

Esto se agrava con el sesgo socioeconómico. La investigación sobre sesgos algorítmicos en contratación muestra que las entrevistas de puzzle crean un “monocultivo algorítmico” que favorece sistemáticamente a los candidatos con más tiempo disponible para practicar. Padres trabajadores, personas en transición de carrera e ingenieros de orígenes no tradicionales son filtrados antes de que sus habilidades reales sean evaluadas.

Qué cambió la IA en la productividad de la ingeniería

El giro hacia otro tipo de entrevistas no es ideológico. Está impulsado por una transformación medible en cómo se construye el software.

Un experimento controlado con GitHub Copilot encontró que los desarrolladores completaron una tarea de servidor HTTP un 55,8% más rápido con asistencia de IA. Encuestas adicionales muestran que el 73% de los desarrolladores mantienen un flujo cognitivo más profundo al usar herramientas de IA, y el 87% reporta mayor resistencia mental porque la IA se encarga del boilerplate repetitivo.

Cuando la IA genera código base más rápido y más limpio que la mayoría de los humanos, la definición de un ingeniero productivo cambia de raíz. El cuello de botella ya no es traducir lógica en sintaxis. El cuello de botella es todo lo que rodea al código:

  • Arquitectura de sistemas: diseñar sistemas distribuidos tolerantes a fallos que manejen escala exponencial
  • Criterio en revisiones de código: detectar cuándo el código generado por IA es sutil pero catastróficamente defectuoso
  • Razonamiento sobre modos de fallo: anticipar fallos en cascada, tormentas de reintentos, condiciones de carrera y casos límite que la IA no puede prever
  • Comunicación técnica: traducir los compromisos arquitectónicos para stakeholders no técnicos y mentorear a ingenieros junior

La capacidad de un candidato para invertir un árbol binario de memoria no te dice nada sobre si puede asegurar una base de datos distribuida, diseñar una cola idempotente o rechazar un pull request equivocado generado con total confianza por un asistente de IA.

El problema de la abdicación cognitiva

Hay un peligro real en el flujo de trabajo asistido por IA. La descarga cognitiva (dejar que la IA se encargue de tareas rutinarias) puede deslizarse hacia la delegación no verificada, que se convierte en una abdicación completa de la responsabilidad ingenieril.

Este es un escenario que se repite a diario en 2026: un ingeniero le pide a un asistente de IA que implemente una migración de base de datos. El código generado se ve limpio, pasa una revisión superficial y se mergea. Tres semanas después, el equipo descubre que la migración introdujo una foreign key sin índice que degrada el rendimiento de las consultas 100 veces a escala. La IA estaba “equivocada con total confianza” y nadie lo detectó porque nadie verificó la salida contra el schema real.

Los LLM son sistemas probabilísticos. Alucinan APIs inexistentes, referencian métodos deprecados y producen lógica estructuralmente defectuosa envuelta en código perfectamente formateado. Tu proceso de entrevista debe evaluar si un candidato confiará ciegamente en la salida de la máquina o si posee el conocimiento fundacional para auditarla, corregirla y desplegarla de forma segura. La entrevista tradicional no evaluaba ninguna de estas cosas.

El marco de cuatro pilares para entrevistas post-IA

Reemplazar la pizarra requiere más que simplemente quitarla. Necesitas un marco estructurado que mida lo que realmente predice el rendimiento laboral en 2026. El metaanálisis de referencia de Schmidt y Hunter sobre 85 años de investigación en selección de personal encontró que los work sample tests tienen la mayor validez predictiva de cualquier método de contratación (coeficiente de validez de 0,33, que sube a 0,63 cuando se combina con entrevistas estructuradas), superando con creces las entrevistas no estructuradas y los puzzles algorítmicos.

Estos son los cuatro pilares:

1. Revisiones de repositorio

En lugar de escribir código en el vacío, los candidatos presentan su trabajo real de ingeniería. Los evaluadores analizan el historial de commits, las discusiones de pull requests, las configuraciones de CI/CD y los registros de decisiones arquitectónicas.

Esto revela hábitos que importan desde el primer día. ¿Escriben tests antes de hacer deploy? ¿Abordan la deuda técnica de forma incremental en lugar de dejarla acumularse? ¿Documentan las decisiones de diseño para el ingeniero que mantendrá ese código dentro de dos años? ¿Dan revisiones de código constructivas y específicas, o sellan todo con un “LGTM”?

La trampa que hay que evitar: portfolios generados por IA. Los candidatos ahora pueden generar archivos README impecables, mensajes de commit convencionales y proyectos personales sobrediseñados que impresionan pero no revelan nada. La señal real está en las partes desordenadas: discusiones en el issue tracker, resolución de conflictos de merge, manejo de dependencias deprecadas e hilos profundamente anidados en PR.

Para candidatos cuyo trabajo está bajo NDA (común en finanzas, defensa y salud), ofrece alternativas: muestras de código no confidenciales curadas, registros escritos de decisiones arquitectónicas o un camino directo al proyecto para llevar a casa.

2. Evaluaciones de fluidez con IA

Esto no es “¿sabes escribir un prompt?”. Cualquier trabajador del conocimiento puede hacer eso. Fluidez con IA significa escepticismo epistemológico: la capacidad de desconfiar, verificar y corregir código generado por máquinas.

Presenta a los candidatos un pull request realista generado por IA, quizás 500-2.000 líneas de código funcional pero defectuoso. El código se ve limpio pero contiene problemas sutiles: una consulta a base de datos sin índice que fallará a escala, un endpoint de API alucinado, un memory leak oculto detrás de lógica que parece razonable.

Los candidatos fuertes van a:

  • Negarse a hacer merge sin tests
  • Validar las suposiciones de la IA contra la documentación real
  • Identificar casos límite que el modelo ignoró
  • Articular el costo de mantenimiento de aceptar código generado y frágil

Esto mide la responsabilidad ingenieril, que es el rasgo más importante en un flujo de trabajo asistido por IA.

3. Diseño de sistemas contextual

Abandona los prompts de “diseña Twitter” que los candidatos memorizan de guías de preparación. En su lugar, presenta problemas limitados por las realidades operativas reales de tu empresa: requisitos de latencia específicos, presupuestos de costo de infraestructura, regulaciones de cumplimiento de datos.

Por ejemplo, en lugar de “diseña un acortador de URLs”, pregunta: “Nuestro pipeline de analítica procesa 50M de eventos por día con un requisito de latencia P99 de 200ms. Necesitamos agregar detección de anomalías en tiempo real sin superar nuestro presupuesto actual de $8K/mes en infraestructura. Explícame tu enfoque.” Este tipo de problema no se puede memorizar. Requiere que el candidato razone sobre compromisos en vivo, con restricciones reales.

Indaga agresivamente sobre el razonamiento de modos de fallo: ¿Cómo se degrada el sistema durante una caída del centro de datos? ¿Cómo previenes tormentas de reintentos distribuidos que colapsen los servicios downstream? ¿Qué pasa cuando el tráfico se multiplica por 10 durante el lanzamiento de un producto?

Esto también evalúa la comunicación, una competencia que importa más en 2026 que nunca. ¿Puede el candidato justificar decisiones de compromiso ante un stakeholder no técnico? ¿Puede debatir alternativas sin ponerse a la defensiva? ¿Puede explicar arquitectura compleja sin esconderse detrás de la jerga? Los mejores arquitectos son los que pueden traducir restricciones técnicas a lenguaje de negocio.

4. Proyectos para llevar a casa (remunerados)

Reemplaza la ronda de live coding por completo con un proyecto realista y compensado. Dale a los candidatos un codebase real (reducido de forma segura) con fallos operativos reales, lógica de negocio compleja y requisitos deliberadamente ambiguos. Déjalos usar su propio IDE, sus propias herramientas de IA y su propio flujo de trabajo, exactamente como lo harían en su primer día.

Califica las entregas con una rúbrica estandarizada que cubra durabilidad de la arquitectura, exhaustividad de los tests, claridad de la documentación y calidad del código. Esto neutraliza la ansiedad de rendimiento y deja que la capacidad ingenieril genuina salga a la superficie.

La objeción del costo es la más ruidosa y la más fácil de refutar. Compensar a un candidato por 4-6 horas de trabajo cuesta unos cientos de dólares. Según la Society for Human Resource Management (SHRM), una mala contratación cuesta como mínimo el 30% del salario del primer año del empleado. Para un ingeniero senior con un salario base de $120K-$160K, el daño total (reclutamiento, onboarding, productividad perdida, retrasos en proyectos e indemnización) alcanza con facilidad $150.000-$240.000, una cifra consistente con lo que vemos en post-mortems de startups. El proyecto para llevar a casa no es un gasto. Es un seguro.

Para un desglose detallado de cómo definir el alcance y estructurar estos proyectos, consulta nuestra guía sobre cómo estructurar pruebas de código que los candidatos no odien.

Cómo se comparan los métodos de evaluación

No todos los formatos de entrevista son iguales. Décadas de investigación en ciencias de la selección, especialmente el metaanálisis de Schmidt y Hunter en Psychological Bulletin, apuntan claramente a qué métodos predicen el rendimiento laboral:

Método Validez predictiva Riesgo de sesgo
Work sample tests (para llevar a casa) Más alta (r = 0,33, o 0,63 con entrevista estructurada) Bajo (basado en rúbrica)
Entrevistas estructuradas conductuales / de diseño de sistemas Muy alta Bajo a medio
Tests de conocimiento laboral (contextuales) Alta Medio
Entrevistas conversacionales no estructuradas Baja Muy alto
Puzzles algorítmicos / acertijos Casi nula Más alto (crea monocultivos algorítmicos)

La parte inferior de esta tabla es donde la mayoría de las empresas siguen operando. La parte superior es donde la evidencia dice que deberían estar.

El cambio cultural que esto requiere

La parte más difícil de esta transición no es la logística. Es lograr que los líderes de ingeniería abandonen un sistema que validó sus propias carreras. La entrevista algorítmica es cómoda: fácil de administrar, fácil de puntuar, fácil de defender. Permite a los entrevistadores sacar un problema de programación dinámica de un banco de preguntas diez minutos antes de la entrevista y generar un aprobado/reprobado binario sin involucrarse profundamente con el pensamiento real del candidato.

El marco moderno exige más de los entrevistadores:

  • Formación: los evaluadores deben aprender a simular entornos de ingeniería reales e indagar en el razonamiento profundo, no en respuestas memorizadas
  • Calibración: la puntuación debe anclarse a indicadores de comportamiento específicos (¿detectó el candidato de forma independiente el método alucinado en el PR de prueba?)
  • Inversión de tiempo: revisar repositorios y calificar proyectos para llevar a casa lleva más tiempo que ver a alguien luchar con una pizarra

Esta inversión se paga sola. Las organizaciones que implementan contratación estructurada y basada en evidencia ven menores tasas de malas contrataciones, menor rotación (porque los candidatos que tuvieron un proceso de entrevista respetuoso son empleados más comprometidos) y equipos de ingeniería más fuertes.

El mercado de talento refuerza esto. Los mejores ingenieros rechazan cada vez más a las empresas que los someten a seis rondas de pruebas de pizarra irrelevantes. En mercados competitivos, las empresas que respetan el tiempo de los candidatos y evalúan habilidades relevantes ganan la guerra por el talento.

Cómo Kit apoya la contratación técnica post-IA

El pipeline de contratación de Kit está construido exactamente para esta transición. En lugar de acoplar métodos de evaluación modernos a un ATS heredado, Kit es un sistema de seguimiento de candidatos nativo de IA que proporciona la infraestructura para ejecutar evaluaciones basadas en evidencia de forma nativa.

Las pruebas de código están integradas directamente en el pipeline de contratación con creación de repositorios en GitHub desde plantillas, invitaciones automáticas a candidatos, gestión de plazos y acceso para revisores, todo sin salir de Kit. Los candidatos se autentican con un magic link (sin contraseñas, sin fricción) y envían su trabajo a través de un portal limpio.

La revisión en equipo y votación permite que múltiples entrevistadores puntúen a los candidatos contra rúbricas estructuradas de forma independiente antes de ver las evaluaciones de los demás, reduciendo el pensamiento grupal y el sesgo de anclaje.

Cada etapa del pipeline, desde la revisión de repositorios hasta el diseño de sistemas y la entrega del proyecto, vive en un solo lugar con visibilidad completa para el equipo de contratación. Sin hojas de cálculo, sin herramientas desconectadas, sin candidatos que se pierden en el proceso.

La entrevista algorítmica tuvo su era. Esa era terminó cuando la IA aprendió a aprobarla. Las organizaciones que construirán los mejores equipos de ingeniería en 2026 no son las que contratan ingenieros capaces de escribir algoritmos de ordenamiento más rápido. Son las que identifican ingenieros con el criterio arquitectónico, la fluidez con IA y el escepticismo crítico para gobernar las máquinas de forma segura. Tu proceso de entrevistas está seleccionando por esas habilidades o seleccionando en contra de ellas.

Articulos relacionados

Listo para contratar de forma mas inteligente?

Empieza gratis. Sin tarjeta de credito. Configura tu primer pipeline de contratacion en minutos.

Empieza gratis