Logo de Adafaceadaface

¿Matará ChatGPT las pruebas previas al empleo?

El auge de ChatGPT y LLMs similares ha suscitado muchas preguntas sobre sus impactos en varias industrias, tanto positivos como negativos. Una pregunta que me hacen regularmente es si este será el fin de las pruebas de habilidades automatizadas.

Para entender cómo ChatGPT impacta las pruebas de habilidades y las pruebas de codificación, primero necesitamos entender qué puede o no puede hacer ChatGPT:

Qué puede hacer ChatGPT

  • Soluciones rápidas: ChatGPT puede proporcionar fragmentos de código o soluciones a problemas comunes en segundos. Esto podría potencialmente reducir la necesidad de que los codificadores de nivel inicial aborden tareas básicas.
  • Ayuda de depuración: Al describir un error o problema en particular, los desarrolladores pueden obtener consejos sobre la depuración, reduciendo el tiempo y el esfuerzo en la resolución de problemas.
  • Aprendizaje y tutoriales: Los principiantes pueden preguntar y aprender rápidamente del modelo, lo que puede reducir la dependencia de los métodos o plataformas de aprendizaje tradicionales.

Qué no puede hacer ChatGPT (todavía)

  • Resolución de problemas complejos: El desarrollo de software del mundo real a menudo requiere una comprensión profunda de los requisitos específicos, la lógica empresarial y la experiencia del usuario. ChatGPT aún no puede comprender o crear soluciones intrincadas y a medida por sí solo.
  • Conocimiento técnico profundo: Si bien ChatGPT tiene un conocimiento extenso, todavía existen nichos y campos de vanguardia donde los expertos humanos sobresalen.
  • Precisión: Uno de los mayores inconvenientes de ChatGPT es que se confunde fácilmente si la pregunta es lo suficientemente compleja, y puede estar muy seguro de una respuesta incorrecta que proporcionó.

Me sorprendió una charla que Yejin Choi (una experta en PNL) dio ayer en Berkeley, sobre algunas debilidades sorprendentes de GPT4: Como muchos humanos saben, 237*757=179.409 pero GPT4 dijo 179.289.

Para el problema fácil de multiplicar dos números de 3 dígitos, midieron que la precisión de GPT4 era solo… pic.twitter.com/kp3TDBaWId

— Alex Dimakis (@AlexGDimakis) 16 de agosto de 2023

Eliminación en lugar de selección

Si crees que ChatGPT hará que tu prueba de pre-empleo sea inútil, probablemente los estés usando incorrectamente. El punto de una prueba de habilidades es eliminar, no seleccionar. Por lo tanto, la métrica que debes optimizar es el número de candidatos no calificados que te permite rechazar con confianza, frente al número de candidatos que podrían hacer trampa en la prueba y obtener buenos resultados.

La prueba automatizada de habilidades está destinada a ser un primer paso en empresas que reciben demasiadas solicitudes. En lugar de que un reclutador revise el currículum y decida a quién avanzar en función de lo que dice su currículum, una prueba de 30-40 minutos puede ayudarte rápidamente a identificar el 20% superior.

A partir de ahí, el resto de tu proceso puede ser semiautomático o manual.

Como regla general, la prueba debe ser tan fácil que si alguien no la aprueba, no tiene sentido entrevistarlo. Como parte de trabajar con miles de empresas para evaluar candidatos, hemos visto que una prueba corta de 40 minutos, fácil, puede filtrar fácilmente el 70-80% de los candidatos. Si algunos de los mejores candidatos del 20% han logrado pasar utilizando medios desleales, eso suele ser muy fácil de detectar en el proceso de entrevista.

Lea también: El caso de usar preguntas fáciles en las pruebas de codificación

También, dadas las funciones de supervisión que existen hoy en día, es realmente difícil hacer trampas. Si alguien logra pasar la prueba supervisada, lo hace bien y termina entrevistándose con su empresa, probablemente sea inteligente y debería entrevistarlo. Saben cómo hacer las cosas.

Impacto en las pruebas de habilidades

Cuando los Entornos de Desarrollo Integrados (IDE) cobraron protagonismo por primera vez, existían preocupaciones de que harían obsoletas ciertas tareas de codificación, gracias a funciones como la autocompletación, el resaltado de errores y la refactorización automatizada. Si bien agilizaron muchos procesos, los IDE no reemplazaron la necesidad de desarrolladores capacitados ni de pruebas de codificación. Se convirtieron en herramientas que mejoraron la productividad.

Dado que ChatGPT puede resolver fácilmente preguntas básicas/de libro de texto, los reclutadores deben ser más cuidadosos con la calidad de las preguntas en sus pruebas. Este siempre ha sido el caso: las respuestas a las preguntas de estilo libro de texto están fácilmente disponibles en línea. Es importante asegurarse de que, además de que las preguntas sean a prueba de Google, ahora también sean a prueba de IA.

Pruebas de aptitud son una excelente manera de filtrar candidatos en todos los roles. Una simple prueba de aptitud de 25 minutos puede brindarle muchos puntos de datos sobre la capacidad de aprendizaje de los candidatos. A lo largo de las décadas, varios estudios de investigación han concluido que las pruebas de múltiples medidas o de aptitud son los mejores predictores del éxito en el trabajo.

Validez predictiva de los métodos de contratación

Las plataformas de evaluación de habilidades pueden implementar controles de supervisión (anti-trampas) más estrictos para evitar que los candidatos utilicen medios desleales o consulten modelos de IA como ChatGPT durante la prueba.

Pregunta basada en imágenes + texto

En Adaface, probamos nuestras preguntas contra los chatbots LLM más avanzados del mercado cada pocas semanas. Esto se hace para garantizar la integridad de la prueba.

La mayoría de las preguntas de Adaface tienen imágenes, donde la imagen contiene información crítica necesaria para resolver la pregunta. Esto dificulta que el candidato use ChatGPT (u otros bots de IA) para resolverlo.

Pregunta de ejemplo de PHP con imagen

Una de las características de supervisión más recientes que hemos lanzado en Adaface es la supervisión de pantalla compartida.

Es una función opcional. Si está habilitada, Ada (el chatbot de evaluación) pedirá a los candidatos que compartan toda su pantalla durante la prueba. Si abandonan la ventana o abren otra ventana durante la prueba, Ada capturará una captura de pantalla de su pantalla. El cuadro de mando mostrará las imágenes capturadas para la detección avanzada de trampas.

Así que si tus candidatos están usando ChatGPT para responder preguntas en la prueba, lo sabrás a partir de sus hojas de puntuación.

Ejemplo de hoja de puntuación con supervisión de pantalla compartida

Protección contra copiar y pegar + línea de tiempo de codificación

El editor de código tiene protección contra copiar y pegar y cortar y pegar. No se permitirá a los candidatos copiar código de otro lugar y pegarlo en su editor de código en Adaface. También se te notificará si los candidatos utilizan la Consola de Desarrollador para anular la protección.

También puedes ver la línea de tiempo completa de cómo el candidato escribió el código para una pregunta en particular. La línea de tiempo te ayuda a visualizar el proceso de pensamiento del candidato y, si pega código de otro lugar, verás un delta repentino en la línea de tiempo.

Conclusión

Las plataformas de pruebas de habilidades podrían evolucionar, pero no desaparecerán. Cambiarán de enfoque, adaptándose a ser a prueba de ChatGPT e implementando soluciones avanzadas contra el engaño.

Las empresas también deben tener en cuenta que, siempre que utilicen pruebas de habilidades para la eliminación (no la selección), un pequeño porcentaje de candidatos que puedan pasar a la siguiente ronda no hace que las pruebas de habilidades sean inútiles. Pueden ser identificados fácilmente en las entrevistas.