Plantillas de evaluación para entrevistas estructuradas: el fin del fichaje por intuición
Las plantillas de evaluación para entrevistas estructuradas casi duplican la validez predictiva y superan tanto a los debriefs por intuición como a la IA de caja negra. Las pruebas, y cómo aplicarlas.
Ernest Bursa
Las entrevistas estructuradas predicen el rendimiento laboral aproximadamente el doble de bien que las no estructuradas. El metaanálisis moderno más riguroso, el de Sackett, Zhang, Berry y Lievens (2022), sitúa las entrevistas estructuradas en r ≈ .42 frente a r ≈ .19 de las no estructuradas, y las clasifica como la herramienta de selección más válida que existe. Una plantilla de evaluación para entrevistas estructuradas es el artefacto que hace posible esa validez: un conjunto fijo de competencias específicas del puesto, una escala de valoración compartida y notas con evidencias que cada entrevistador completa de forma independiente antes de que nadie hable.
Esa última parte es el truco entero. Sin plantilla, una entrevista es una conversación que termina en una sensación. Con ella, se convierte en una medición. Este artículo te da las pruebas honestas que respaldan esa afirmación, el mecanismo por el que funcionan las plantillas, qué debe figurar exactamente en una y por qué la valoración estructurada hecha por personas es el punto intermedio defendible entre los debriefs por intuición y la nueva ola de filtros de IA de caja negra.
Fichar por intuición se parece bastante a lanzar una moneda al aire
La mayoría de los equipos de contratación sobrevaloran su propio criterio. En una encuesta de CareerBuilder de 2017, el 74 % de los empleadores admitió haber contratado a la persona equivocada, con un coste medio de 14.900 dólares por mala contratación. La cifra del Departamento de Trabajo de EE. UU. que circula por todo el sector estima el coste de una mala contratación hasta en un 30 % del salario del primer año de esa persona, una vez sumados el tiempo de adaptación, la productividad perdida y la sustitución.
El motivo no es que los entrevistadores sean descuidados. Es que una entrevista no estructurada apenas mide nada de forma fiable. Con r ≈ .19, una entrevista no estructurada explica menos del 4 % de la variación en el rendimiento laboral final. Estás tomando una decisión de seis cifras y varios años basándote en una señal apenas distinguible del ruido, y luego rellenas la confianza que te falta con un debrief en el que suele ganar la voz más veterana o más segura de sí misma.
Una plantilla no vuelve más inteligente a la gente. Cambia lo que el proceso tiene permitido medir, y pone un tope a cuánto de esa medición puede secuestrar el sesgo.
¿Cuánto más precisas son las entrevistas estructuradas? Las cifras honestas
Las entrevistas estructuradas duplican aproximadamente la validez predictiva de las no estructuradas. Sackett et al. (2022), el reanálisis actual más riguroso sobre la validez de los métodos de selección, informa de r ≈ .42 para las entrevistas estructuradas frente a r ≈ .19 para las no estructuradas, y coloca las estructuradas en lo más alto de toda la jerarquía de métodos de selección, por encima de los tests de capacidad cognitiva.
Hay dos detalles que importan a quien quiera usar estas cifras sin que lo pillen exagerando.
Primero, la estimación de las entrevistas estructuradas lleva asociado un intervalo de credibilidad del 80 % que va de .18 a .66 aproximadamente. La estructura sube tanto el suelo como el techo, pero la ejecución sigue contando; un proceso “estructurado” hecho de cualquier manera acaba en la parte baja de ese rango.
Segundo, el reanálisis de 2022 rebajó deliberadamente la mayoría de las estimaciones históricas de validez entre .10 y .20, porque los metaanálisis anteriores aplicaban correcciones de restricción de rango que inflaban los coeficientes. Las cifras más antiguas que verás por todas partes vienen de la tradición de Schmidt y Hunter (1998): .51 para las estructuradas frente a .38 para las no estructuradas. McDaniel, Whetzel, Schmidt y Maurer (1994) informaron de .44 frente a .33, con las entrevistas situacionales en .50.
| Fuente | Estructuradas | No estructuradas | Notas |
|---|---|---|---|
| Sackett et al. (2022) | r ≈ .42 | r ≈ .19 | Consenso actual; sitúa las estructuradas en el nº 1 absoluto |
| Schmidt y Hunter (1998) | .51 | .38 | Muy citado pero desactualizado; sus correcciones ahora se consideran infladas |
| McDaniel et al. (1994) | .44 | .33 | Entrevistas situacionales en .50 |
Todas las fuentes coinciden en la dirección y el orden de magnitud: la estructura duplica aproximadamente la validez. La cifra de referencia en la que confiar en 2026 es la de Sackett et al.: .42 frente a .19.
Por qué el viejo dato de “.20 → .57” está exagerado
Verás una afirmación llamativa repetida por blogs de proveedores: que las plantillas estructuradas llevan la validez de en torno a .20 hasta .51, o incluso .57 con escalas de valoración ancladas en conductas. Es orientativo, no algo zanjado. La cadena cose la estimación histórica más baja para las entrevistas no estructuradas con las estimaciones históricas más altas para las estructuradas y las ancladas con BARS, maximizando la brecha aparente, y además es anterior a la corrección de 2022 que tiró todas estas cifras hacia abajo.
Usa mejor el marco honesto: la entrevista estructurada duplica aproximadamente la validez predictiva y hoy es la herramienta de selección más válida que existe. Esa versión aguanta el escrutinio. La de .20 a .57 no, y citarla te delata como alguien que copió el blog de un competidor en lugar de leer la investigación.
Por qué funcionan las plantillas: el sesgo es un problema de diseño, no de formación
Las plantillas funcionan porque convierten un juicio global (“me cayó bien”) en varias valoraciones independientes, ancladas en evidencias y emitidas antes de la discusión en grupo. Ese único cambio estructural interrumpe los cuatro sesgos que arruinan la contratación no estructurada:
- Efecto halo. Un rasgo fuerte (una buena universidad, una respuesta elocuente, un origen compartido) se filtra en todas las demás valoraciones. La puntuación por competencia te obliga a valorar la comunicación y el diseño de sistemas por separado, así que un candidato carismático no puede vivir de rentas de un solo buen momento.
- Anclaje. En un debrief en directo, la primera opinión —o la más veterana— fija el punto de referencia que todos ajustan a partir de ahí. Las puntuaciones independientes enviadas antes del debrief eliminan el ancla por completo.
- Sesgo de confirmación. Una primera impresión fulminante en los dos minutos iniciales orienta en silencio qué preguntas de seguimiento se acaban haciendo. Un conjunto fijo de preguntas y una rúbrica lo amortiguan.
- Sesgo de recencia. En un debrief en grupo, lo último que se dice de un candidato pesa de forma desproporcionada. Un agregado de puntuaciones numéricas registradas de antemano es inmune a quién habló el último.
Por eso la reducción del sesgo es un problema de diseño, no de formación. No puedes formar a los entrevistadores para que se libren de sesgos cognitivos que operan por debajo de la conciencia; décadas de formación en sesgos inconscientes muestran efectos débiles y de corta vida. Lo que sí puedes hacer es construir un proceso en el que la propia estructura ponga un tope a cuánto sesgo se permite que entre. La plantilla es esa estructura.
Qué incluye una buena plantilla de evaluación para entrevistas
Una buena plantilla de evaluación tiene cinco elementos. Defínelos todos antes de ver a ningún candidato.
- Competencias específicas del puesto, fijadas de antemano. De cuatro a seis competencias clave para la mayoría de los puestos, y hasta unas doce para los más complejos. Salen del trabajo real, no de una plantilla genérica, y se fijan antes de empezar a buscar candidatos.
- Una escala de valoración compartida. Una escala coherente (lo habitual es del 1 al 4, deliberadamente par para forzar una postura) aplicada de forma idéntica por cada entrevistador.
- Anclajes conductuales. Descripciones claras de a qué se parece cada puntuación, para que un “3” signifique lo mismo para todo el mundo. Esta es la capa BARS que se explica más abajo.
- Notas de evidencia por competencia. Una cita, un momento o un ejemplo concreto detrás de cada valoración. “Fuerte depurando” es una sensación; “explicó cómo aisló una condición de carrera en el ejercicio para casa, minuto 14:20” es evidencia.
- Una recomendación explícita de contratar o no contratar. Una decisión clara más una justificación de una línea, registradas antes del debrief.
Mantén modesto el número de competencias. Más casillas no significan más rigor; significan valoraciones apresuradas y de baja calidad. Cuatro a seis competencias afiladas le ganan a doce vagas.
Escalas de valoración ancladas en conductas, en breve
Una escala de valoración anclada en conductas (BARS, por sus siglas en inglés) sustituye las etiquetas abstractas por conductas descritas. En lugar de pedir a los entrevistadores que puntúen la “comunicación” del 1 al 4 en abstracto, una BARS detalla a qué se parece cada nivel: un 4 podría ser “estructuró la respuesta, sacó a la luz compensaciones sin que se las pidieran, comprobó que yo le había entendido”; un 2 podría ser “respondió a la pregunta que se le hizo, pero necesitó que lo empujaran para profundizar”. Los anclajes son lo que impide que tu escala derive hacia un concurso de personalidad, y son la diferencia entre una plantilla que mejora la validez y otra que solo añade papeleo.
La trampa de la IA de caja negra y el camino intermedio con puntuación humana
Las herramientas de filtrado con IA pueden acelerar de verdad la búsqueda de candidatos y la captura de evidencias. El peligro está en dejar que un modelo opaco tome la decisión de verdad. Un evaluador de currículos o de vídeos de caja negra reintroduce justo el problema que la entrevista estructurada nació para resolver: un juicio imposible de auditar. Solo que ahora ni siquiera puedes preguntarle al entrevistador “por qué”, porque no hay entrevistador, solo una puntuación de confianza que no puedes interrogar ni defender.
La brecha de confianza es real. El informe Future of Recruiting 2025 de LinkedIn descubrió que solo el 25 % de los profesionales de talento confía mucho en poder medir siquiera la calidad de la contratación, mientras que el 61 % espera que la IA les ayude a hacerlo. Eso es aspiración, no prueba. Comprar un modelo que rechaza automáticamente a candidatos que no puedes medir no arregla el problema de medición; lo esconde detrás de una API.
El camino defendible es la puntuación humana sobre una rúbrica estructurada y auditable, con la IA echando una mano en las partes en las que de verdad es buena. Deja que la IA transcriba las entrevistas, saque a la luz los momentos relevantes y busque entre conversaciones pasadas, para que un entrevistador pueda adjuntar evidencia real a una valoración. Mantén la decisión en manos de una persona y la rúbrica transparente. Ganas velocidad sin renunciar a la rendición de cuentas, y sigues pudiendo responder al “por qué” de cada candidato. Tratamos el modo de fallo más amplio en contratación basada en competencias con plantillas estructuradas.
El beneficio en cumplimiento normativo
Una plantilla puntuada y con notas de evidencia es el artefacto defendible que un debrief por intuición nunca podrá producir. La EEOC exige a los empleadores conservar los registros de personal y de empleo durante al menos un año (dos años para los contratistas federales cubiertos con 150 empleados o más y contratos de al menos 150.000 dólares), y más tiempo una vez presentada una reclamación.
Imagina el escenario que todo fundador teme: un candidato rechazado alega sesgo. Con las plantillas, presentas las valoraciones por competencia y las notas de evidencia, conservadas según el calendario, que muestran exactamente por qué cada candidato puntuó como puntuó frente a la misma rúbrica. Con un debrief en Slack, presentas un hilo de opiniones, o nada en absoluto. La puntuación estructurada no es solo mejor contratación. Es el rastro documental que hace auditable una decisión de contratación.
Cómo lo hace Google, y cómo copiarlo a escala de startup
La guía re:Work de Google codificó el manual moderno de la entrevista estructurada: las mismas preguntas para cada candidato, una rúbrica estandarizada, los requisitos definidos antes de que empiecen las entrevistas y comités de contratación que revisan los expedientes de la entrevista en lugar de conocer a los candidatos en persona. Esa última jugada es deliberada. Al mantener a quienes deciden fuera de la sala, Google elimina de la decisión final el carisma presencial y el pensamiento de grupo. Los datos internos de Google revelaron que las entrevistas estructuradas predicen mejor el rendimiento en todas las funciones y niveles, y constataron que incluso los candidatos rechazados se iban más contentos: alrededor del 35 % valoró la experiencia como mejor que la de una entrevista típica.
No necesitas la escala de Google para copiar las jugadas clave:
- Escribe las preguntas y la rúbrica antes de abrir el puesto.
- Haz que cada entrevistador entregue puntuaciones numéricas, ancladas y con evidencia antes del debrief.
- Que la puntuación final sea un agregado de esas valoraciones independientes, no una votación en directo.
- Incluye al menos a una persona que decida y que no haya estado en ninguna de las salas de entrevista y solo lea el expediente.
El modelo del expediente es el motor. La puntuación independiente antes del debrief es la jugada antisesgo de mayor apalancamiento que puedes hacer, y no cuesta nada más que disciplina. Si tu proceso es además demasiado largo, arréglalo a la vez; escribimos sobre cuándo demasiadas rondas de entrevista te cuestan a los mejores candidatos.
Usa plantillas estructuradas por defecto con Kit
Las entrevistas estructuradas, auditables y puntuadas por personas son el antídoto tanto contra el fichaje por intuición como contra el filtrado opaco con IA. Kit Hiring está construido sobre exactamente las primitivas que valida esta investigación, así que las aplicas por defecto en lugar de improvisarlas.
- Revisiones por etapa y puntuación estructurada. La etapa de revisión del equipo de Kit es la primitiva de la plantilla: valoraciones de competencias capturadas por etapa, por entrevistador, sobre una rúbrica compartida.
- Puntuaciones independientes antes del debrief. Como las revisiones son asíncronas y por revisor, cada miembro del panel registra su criterio antes de que se instale el pensamiento de grupo. Es el modelo de expediente de Google, hecho producto.
- Evidencia consultable detrás de cada valoración. Las entrevistas en directo, las grabaciones en vídeo y la búsqueda en transcripciones permiten a los entrevistadores adjuntar la cita o el momento concreto detrás de una puntuación, convirtiendo el “me cayó bien” en una marca de tiempo.
- Etapas componibles y auditables. Formulario de candidatura, ejercicio de código, cuestionario, revisión del equipo, entrevista y oferta. Cada puntuación y cada nota se conservan, lo que te da el artefacto defendible para la EEOC por defecto.
- Puntuación humana, no caja negra. Kit mantiene a las personas tomando la decisión sobre una rúbrica transparente y usa la IA para la captura de evidencias y la búsqueda, nunca para el rechazo automático opaco.
Las pruebas están lo bastante asentadas como para actuar: la estructura duplica aproximadamente lo bien que tus entrevistas predicen el rendimiento, y lo hace cambiando el proceso, no pidiéndole a la gente que se esfuerce más. Construye la plantilla una vez, puntúa de forma independiente antes del debrief y guarda los justificantes. Empieza una prueba gratuita y haz tu próxima contratación sobre una plantilla estructurada en lugar de sobre una corazonada.
Artículos relacionados
Contratar sin reclutador: el manual del fundador
Los fundadores se encargan de la contratación hasta los 40-50 empleados. Aquí tienes un manual de 7 pasos para montar un proceso estructurado y sin reclutador en una sola tarde.
Tasas de respuesta en outreach de reclutamiento: qué funciona de verdad
Las cifras verificadas sobre el outreach personalizado de reclutamiento frente al spam genérico, más el sistema de investigación a respuesta que multiplica por 2-3 la tasa de respuesta de los candidatos.
Leyes de transparencia salarial 2026: cómo publicar rangos de salario honestos
La transparencia salarial ya cubre 16 estados más D.C., y los reguladores señalan como mala fe las bandas demasiado amplias. Cómo fijar un rango defendible a partir de datos de mercado.
¿Listo para contratar de forma más inteligente?
Empiece gratis. Sin tarjeta de crédito. Configure su primer pipeline de contratación en minutos.
Empiece gratis