Hacer trampa con IA en entrevistas es indetectable. Rediseña la prueba.
Las superposiciones invisibles de IA como Cluely vencen al live coding y a la supervisión remota. La solución no es más vigilancia, sino rediseñar las evaluaciones para medir un razonamiento que la IA no puede fingir.
Ernest Bursa
Hacer trampa con IA en entrevistas se basa en superposiciones invisibles en pantalla, como Cluely e Interview Coder, que le pasan al candidato respuestas generadas por IA durante las entrevistas técnicas en vivo. Esas superposiciones se enganchan a la capa gráfica, así que son invisibles tanto para la pantalla compartida como para la supervisión remota. Como las herramientas están diseñadas para ser indetectables, intentar pillarlas es una carrera armamentística que tienes perdida. La solución duradera es rediseñar tu evaluación para medir razonamiento y criterio, que es justo lo que la IA no puede fingir.
Ese es el giro incómodo que vive ahora mismo la contratación técnica. Tu ronda de live coding y tu ejercicio para casa eran las señales de confianza. Una categoría de herramientas de consumo ha roto ambas de forma invisible, y la mayoría de los equipos aún no se ha dado cuenta. Este artículo repasa cómo funciona la trampa, qué cifras puedes creerte de verdad, por qué la detección es un callejón sin salida y qué pinta tiene en la práctica una evaluación resistente a las trampas.
¿Qué es hacer trampa con IA en entrevistas y cómo funcionan Cluely e Interview Coder?
Las herramientas para hacer trampa con IA en entrevistas capturan el audio del entrevistador y el texto del problema que aparece en pantalla, lo pasan por un modelo de lenguaje grande y muestran la respuesta en una superposición que el candidato ve pero la pantalla compartida no. Logran ser invisibles enganchándose directamente a la capa gráfica (DirectX en Windows, Metal en macOS), de modo que la respuesta nunca aparece en la ventana compartida. La latencia de respuesta declarada ronda uno o dos segundos.
Interview Coder lo construyeron dos estudiantes de Columbia, Chungin “Roy” Lee y Neel Shanmugam, para vencer las entrevistas tipo LeetCode. Lee se grabó usando la superposición invisible para superar una entrevista técnica de Amazon, lo publicó abiertamente, y la pareja fue suspendida de Columbia. En abril de 2025 el proyecto se rebautizó y se amplió en Cluely, cuyo eslogan era, sin rodeos, “haz trampa en todo”.
Esto no es un truco marginal de un aficionado. Cluely levantó una ronda Serie A de 15 millones de dólares liderada por Andreessen Horowitz en junio de 2025, unos dos meses después de una ronda semilla de 5,3 millones. Hay capital real e ingeniería real detrás de hacer que las trampas en entrevistas sean cómodas e invisibles.
Hay una ironía muy oportuna en la que merece la pena detenerse. En una entrevista con TechCrunch en marzo de 2026, Roy Lee admitió que la cifra de “7 millones de dólares de ARR” que había proclamado públicamente el julio anterior era inventada; sus datos reales de Stripe mostraban unos 5,2 millones. Lo describió como “lo único descaradamente deshonesto que he dicho en público”. A una empresa cuyo producto entero es la deshonestidad indetectable la pillaron siendo deshonesta. La lección para los equipos de contratación es directa: no puedes ganarle por detección a una herramienta, ni a una cultura, construida para engañar. Tienes que cambiar lo que mides.
¿Qué tamaño tiene el problema y qué cifras puedes creerte?
La respuesta honesta es que la trampa está extendida, pero la estadística más citada es la menos fiable. Empieza por la evidencia independiente y luego trata las cifras de los proveedores con la desconfianza que merecen.
La señal independiente más sólida viene de interviewing.io, que en octubre de 2025 encuestó a 67 entrevistadores de empresas FAANG y similares. Los resultados:
- El 81 % sospecha que algún candidato ha usado IA para hacer trampa en sus entrevistas.
- Alrededor del 33 % ha pillado de verdad a alguien haciéndolo.
- El 75 % cree que la asistencia de IA permite que candidatos más flojos superen entrevistas que de otro modo suspenderían.
Eso triangula con Karat, cuyo cofundador informó de que aproximadamente el 80 % de los candidatos usa modelos de lenguaje en las pruebas de código incluso cuando se les dice explícitamente que no lo hagan. Dos fuentes independientes de profesionales del sector apuntando en la misma dirección.
Ahora la cifra de titular que probablemente hayas visto. Fabric, una plataforma de entrevistas con IA, informó de que se marcó al 38,5 % de los candidatos por hacer trampa a lo largo de 19 368 entrevistas realizadas en su propia plataforma entre julio de 2025 y enero de 2026. Tómatela con cautela, y aquí tienes exactamente por qué. La cifra viene de un único proveedor que vende el producto de detección, midiendo la “trampa” como una puntuación de probabilidad por encima de un umbral según su propio modelo, en entrevistas realizadas en su propia plataforma dirigida por IA. “Marcado por un modelo de detección” no es lo mismo que “trampa confirmada”. Las propias publicaciones de Fabric dan cifras contradictorias en otros sitios (aparecen el 38,5 %, el 35 % y el 15 %). Si la citas, atribúyela a Fabric y etiquétala por lo que es: una autoevaluación de un proveedor, no un hecho establecido sobre la realidad.
La conclusión no depende de la cifra de Fabric. Entrevistadores independientes te dicen que la mayoría sospecha que hay trampa y que un tercio la ha pillado. Eso solo ya debería cambiar cómo gestionas tu proceso.
Por qué la detección y la supervisión remota pierden la carrera armamentística
La detección pierde porque las herramientas están diseñadas específicamente para vencerla. Una superposición que se engancha a la capa gráfica es invisible para la pantalla compartida por diseño. Un segundo dispositivo fuera de cámara es invisible para cualquier bloqueo del navegador. El seguimiento ocular y el análisis de pulsaciones producen falsos positivos que castigan a candidatos nerviosos pero honestos mientras un tramposo tranquilo pasa sin problemas. Cada capa de detección que añades es una que la siguiente versión esquivará, y empeora la experiencia para todos los que no hacen trampa.
La prueba más limpia de que la detección fracasa es el experimento controlado de interviewing.io. Realizaron 37 entrevistas simuladas (32 utilizables) con ingenieros experimentados (cuatro o más años de experiencia) a los que se instruyó para que usaran ChatGPT en secreto, mientras los entrevistadores desconocían el montaje. Los resultados son contundentes:
| Tipo de pregunta | Tasa de aprobado usando ChatGPT en secreto |
|---|---|
| Preguntas de LeetCode al pie de la letra | 73 % |
| LeetCode ligeramente modificado | 67 % |
| Preguntas propias e inéditas | 25 % |
| Control (sin trampa) | 53 % |
Dos hallazgos de ese experimento son los que más importan. Primero, ni un solo entrevistador detectó la trampa, ni siquiera con una tasa de aprobado del 73 %. Segundo, el 81 % de los candidatos que hicieron trampa estaba convencido de haber salido impune. La detección humana fracasó por completo frente a las preguntas literales. Ningún producto de supervisión remota lo habría hecho mejor, porque la salida de la IA nunca tocó la pantalla compartida.
Pero mira la parte de abajo de esa tabla. La misma trampa que funcionó el 73 % de las veces con preguntas literales funcionó solo el 25 % de las veces con preguntas propias. La detección no hizo nada. El rediseño recortó el éxito de la trampa en unos dos tercios. Ahí tienes todo el argumento en una sola fila.
La solución: rediseñar las evaluaciones para que la asistencia de IA sea irrelevante o esperada
La respuesta duradera no es pillar la IA en la puerta. Es rediseñar la puerta para que la asistencia de IA no sirva de nada, o para que des por hecho que está presente y evalúes cómo de bien la maneja el candidato. Los datos de interviewing.io ya marcaban el camino: los problemas propios e inéditos hunden la ventaja de la trampa porque el modelo no tiene una respuesta pública contra la que hacer coincidencia de patrones.
Hay una advertencia de esa misma investigación que es importante. Limitarse a reformular un problema de LeetCode existente no es suficiente. Las preguntas ligeramente modificadas seguían teniendo una tasa de aprobado con trampa del 67 %, apenas por debajo de las literales. Una pregunta propia eficaz necesita entradas y salidas genuinamente únicas, idealmente ligadas a tu propio dominio, para que el modelo no la reconozca. Los principios recurrentes en las distintas fuentes independientes son estos:
- Valida el razonamiento y el proceso, no la sintaxis de la respuesta final. La respuesta es ahora la parte barata. Cómo plantea el candidato el problema, cómo sopesa las concesiones y cómo se recupera de un paso en falso: esa es la señal.
- Usa problemas propios con entradas y salidas inéditas. No públicos, no publicados, no un maquillaje de un acertijo conocido.
- Sondea la comprensión con preguntas de seguimiento línea por línea. “¿Por qué elegiste esta estructura de datos?” “Ahora amplíala para manejar este caso.” Un candidato que se apoyó en una superposición no puede defender ni modificar un código que no razonó.
- Usa tareas realistas, de varios pasos y varios archivos. Los modelos de última generación todavía se degradan en cadenas de razonamiento largas y de varios pasos, y el trabajo real no es una sola función con una única salida correcta.
- Donde encaje con el puesto, da por hecho que habrá IA. Evalúa cómo de bien dirige, critica y corrige el candidato a la IA, porque ese es el trabajo real ahora.
Ese último punto es hacia donde se dirige la frontera del sector. CodeSignal lanzó evaluaciones asistidas por IA que permiten a los candidatos usar IA y puntúan cómo de bien la usan. La postura madura no es “dejar la IA fuera”. Es “da por hecho que la IA está presente y mide el criterio humano que la rodea”.
Esto no es una opinión marginal, y no significa quemar tu proceso entero. En la misma encuesta de interviewing.io a 52 personas de empresas FAANG, nadie dijo que su empresa hubiera abandonado las preguntas algorítmicas, pero el 58 % dijo que había cambiado los tipos de preguntas que plantea, y solo alrededor del 11 % había adoptado software de detección de trampas. Más de la mitad pronosticó que las entrevistas algorítmicas perderán protagonismo en un plazo de dos a cinco años. Entrevistadores de Meta declararon que se han pasado a “preguntas más abiertas que sondean el pensamiento”. El camino realista es el rediseño, no la vigilancia, y tampoco el abandono.
Qué pinta tiene en la práctica una evaluación técnica resistente a las trampas
Una evaluación resistente a las trampas es aquella en la que la asistencia de IA no cambia el resultado, porque estás midiendo cosas que la IA no puede fingir en nombre de otra persona: el encuadre del dominio, las decisiones defendibles y la capacidad de ampliar el trabajo en vivo. Esta es la forma concreta.
Plantea una tarea propia, de varios archivos y específica de tu empresa
Sustituye el acertijo de algoritmos público por una pequeña porción de tu problema real. Un bug en una base de código realista, una funcionalidad encima de un código de arranque que escribiste tú, una tarea de modelado de datos con entradas que ningún modelo ha visto. Como es tuya, ningún modelo de lenguaje tiene una respuesta memorizada, que es exactamente la condición que hundió la tasa de aprobado con trampa del 73 % al 25 %. Para profundizar en cómo construir tareas que los candidatos respeten, mira cómo estructurar ejercicios de código.
Coloca una ronda de “explícanoslo y amplíalo” justo después del ejercicio para casa
Este es el cambio con más palanca de todos. Programa una ronda en vivo inmediatamente después del ejercicio cuyo único cometido sea que el candidato explique su solución línea por línea y luego la amplíe sobre la marcha. “Añade este caso límite.” “Refactoriza esto para que sea más legible.” Un candidato que resolvió la tarea de verdad hace esto sin esfuerzo. Un candidato que pegó la salida de una superposición no puede, porque nunca construyó el modelo mental. Esto lleva el hallazgo del seguimiento línea por línea de interviewing.io directamente al interior de tu pipeline.
Puntúa con revisiones estructuradas, ponderadas y a ciegas
Haz que varios revisores evalúen la misma entrega según los mismos criterios nombrados, ponderados según lo que importa para el puesto, antes de que vean los votos de los demás. La votación a ciegas elimina el efecto ancla. Las plantillas de puntuación ponderadas obligan a todos a evaluar las mismas competencias en lugar de sensaciones. Aquí es donde capturas la señal de razonamiento que un simple aprobado/suspenso tira a la basura.
Cambia el tipo de pregunta, no prohíbas el algoritmo
Las FAANG no abandonaron las entrevistas algorítmicas; cambiaron el tipo de pregunta y añadieron sondeos abiertos. Puedes mantener un filtro de cribado mientras haces que las rondas decisivas sean resistentes a las respuestas de IA al primer intento. El objetivo es la señal, no la pureza.
Por qué la puntuación estructurada y centrada en el razonamiento es la verdadera mejora
La puntuación estructurada es la idea mejor asentada de todo este artículo, y es anterior a la era de la IA. Las entrevistas estructuradas, en las que cada candidato afronta las mismas preguntas puntuadas con la misma rúbrica anclada en comportamientos, son aproximadamente el doble de predictivas del desempeño laboral que las no estructuradas. Las plantillas de puntuación estandarizadas reducen el ruido y el sesgo porque someten a todos a los mismos criterios en lugar de al humor del entrevistador. La recomendación habitual es de 5 a 7 competencias ponderadas.
La trampa con IA no creó el argumento a favor de la puntuación estructurada; lo volvió urgente. Cuando la respuesta final es un producto básico, la única señal duradera es cómo llegó hasta ahí el candidato y si puede defenderla. Una rúbrica que puntúa “explicó las concesiones con claridad” y “amplió la solución correctamente bajo presión” mide exactamente lo que una superposición no puede suministrar. Si quieres el argumento más a fondo, lee plantillas de puntuación de entrevistas estructuradas y validez predictiva.
El cambio de mentalidad va de pillar a medir. Deja de preguntar “¿esta persona está haciendo trampa?” y empieza a preguntar “¿puede esta persona razonar sobre este problema delante de mí?”. La segunda pregunta es más difícil de hackear y mucho más predictiva.
Cómo Kit integra la evaluación resistente a las trampas en el pipeline
La mayor parte del mercado se divide en dos bandos. Los proveedores de detección libran una carrera armamentística contra herramientas diseñadas a nivel de la capa gráfica. Las plataformas de evaluación construyen problemas excelentes pero viven en un silo separado de tu pipeline. Kit toma el tercer camino: convierte la evaluación estructurada y centrada en el razonamiento en la forma por defecto del propio pipeline, de modo que el rediseño se construye una vez y se reutiliza, en lugar de improvisarse para cada puesto.
Así es como eso se conecta con todo lo anterior:
- Ejercicios de código respaldados por repos reales de GitHub. Cada candidato recibe un repo privado generado a partir de tu propia plantilla, con tu README, tu código de arranque e incluso tu CI. Eso es lo que te permite enviar una tarea propia, de varios archivos y específica de tu empresa en lugar de un acertijo público, que es la decisión de diseño que hunde la ventaja de la trampa con IA.
- Una ronda en vivo de defender y ampliar, secuenciada justo después. Las plantillas de proceso de Kit te dejan ordenar las etapas libremente, así que puedes colocar una ronda de entrevista en vivo inmediatamente después del ejercicio de código cuyo propósito sea “explícanos y amplía tu solución”. El candidato que se apoyó en una superposición no puede defender ni modificar el código de forma auténtica.
- Revisión del equipo estructurada con votación a ciegas y plantillas de puntuación ponderadas. Los revisores puntúan la misma entrega según criterios nombrados y ponderados, con recomendaciones que van del no rotundo al sí rotundo, y pueden votar a ciegas para que nadie se ancle en quien lleva la voz cantante. Esta es la rúbrica estructurada que, según la investigación, duplica la validez predictiva, aplicada al razonamiento en lugar de a una marca verde de aprobado.
- Decisiones de panel deliberadas, no sellos de goma. La votación admite un umbral de votos positivos, la exigencia de todos los revisores y el veto que rechaza automáticamente, y encauza las rondas ambiguas hacia un “necesita una decisión” humano. Un panel decide en función de la calidad de la señal en lugar de que un algoritmo deje pasar una salida que quizá produjo un bot.
- Plantillas de proceso reutilizables. Construye el pipeline resistente a las trampas una sola vez como plantilla de proceso y reutilízala en todos los puestos, para que la contratación centrada en el razonamiento sea lo por defecto y no una heroicidad puntual.
Para que quede claro lo que Kit no hace: no hay detección de trampas con IA, no hay supervisión remota, no hay seguimiento ocular ni autocorrector. Es deliberado. No puedes detectar de forma fiable una herramienta construida para ser invisible. Por eso Kit no intenta pillar la trampa. Te ayuda a medir lo que la trampa no puede fingir, que es la posición honesta y más sólida.
La amenaza es real y la respuesta basada en la vigilancia es una trampa. Las superposiciones invisibles vencen al live coding y vencen a la supervisión remota, y los datos muestran a cero entrevistadores dándose cuenta. Esos mismos datos muestran que las preguntas propias recortan la ventaja de la trampa en dos tercios y que la puntuación estructurada duplica más o menos la validez predictiva. Deja de intentar pillar la IA en la puerta. Rediseña la puerta para que la asistencia de IA sea irrelevante, y haz que ese rediseño sea la forma por defecto de tu pipeline.
Si estás replanteándote la evaluación técnica para la era de la IA, empieza una prueba gratuita y construye un ejercicio de código más un pipeline de revisión estructurada que mida razonamiento, no sintaxis. Para la amenaza de identidad contigua, donde el propio candidato puede ser falso, mira candidatos deepfake y fraude de IA en la contratación.
Artículos relacionados
La reunión de evaluación es donde mueren las buenas contrataciones
No es la entrevista, sino la reunión de evaluación posterior donde se rompe la calidad de tu contratación. La voz más fuerte gana y los entrevistadores junior se pliegan. Aquí tienes la ciencia y la solución.
Contratación inclusiva: cómo las revisiones ancladas cierran la brecha
Las entrevistas no estructuradas penalizan en silencio a los candidatos infrarrepresentados. Las revisiones ancladas, basadas en criterios, reducen la brecha de avance y predicen mejor el desempeño.
Disputas por el pago de recompensas: SLA y equidad en tu VDP
AMD tardó 124 días en parchear un fallo crítico y luego negó al investigador su recompensa de 10.000 dólares por estar fuera de alcance. Así se gestiona un VDP con SLA publicados y una matriz de pagos transparente y registrada en el libro mayor.
¿Listo para contratar de forma más inteligente?
Empiece gratis. Sin tarjeta de crédito. Configure su primer pipeline de contratación en minutos.
Empiece gratis