¿Es hora de cambiar la forma en que evaluamos a la #IA?
La respuesta podría estar en la «#PSICOLOGÍA de las #MAQUINAS» 🧠
¿Estamos realmente entendiendo lo que sucede dentro de los Modelos de Lenguaje a gran escala (#LLMs), o es momento de replantear cómo los evaluamos?
A medida que estos modelos se vuelven más poderosos y omnipresentes, surge una pregunta crucial: ¿Deberíamos empezar a aplicarles herramientas y marcos provenientes de la psicología para comprender mejor sus capacidades emergentes y patrones de comportamiento?
La investigación titulada «Machine Psychology», liderada por Thilo Hagendorff de la University of Stuttgart, junto con destacados investigadores de Google DeepMind, plantea precisamente esta cuestión. El estudio sugiere que, en lugar de enfocarnos exclusivamente en los tradicionales puntos de referencia de rendimiento, debemos considerar un enfoque más amplio que tome en cuenta los comportamientos observables de los LLMs, de manera similar a cómo estudiamos la inteligencia humana.
https://arxiv.org/abs/2303.13988
¿Repensando la evaluación? 🤔
Los métodos tradicionales de evaluación, centrados en conjuntos de datos de referencia que miden habilidades específicas, no son suficientes para captar las capacidades más profundas y emergentes de los LLMs
Este cambio de enfoque permite explorar aspectos de los LLMs que antes pasaban desapercibidos, la psicología del desarrollo estudia cómo las personas desarrollan inteligencia social a lo largo de sus vidas.
Aplicando pruebas como la «teoría de la mente», un concepto en psicología que trata de la capacidad de una persona para entender que otras personas tienen sus propios pensamientos, creencias, deseos diferentes de los suyos. Es una habilidad crucial para la empatía y la interacción social.
Los investigadores han intentado ver si estos modelos pueden mostrar una forma rudimentaria de «teoría de la mente». O sea, si un modelo de lenguaje puede deducir lo que otro agente, ya sea una persona u otro modelo, podría estar pensando o creyendo, según la información disponible.
Para hacer esta publicación más tangible, imagina que estás enseñando a un niño a tocar el piano. Al principio, le das partituras específicas y le enseñas a tocar las notas correctas. Este enfoque es similar a los benchmarks de rendimiento tradicionales. Sin embargo, a medida que practica, el niño empieza a improvisar y a crear música propia, aplicando lo que ha aprendido de manera creativa y no prevista. De la misma manera, los LLMs, aunque entrenados para tareas específicas, muestran capacidades emergentes que no fueron explícitamente enseñadas.
Comprender estas capacidades requiere un enfoque que vaya más allá de los tradicionales puntos de referencia y que explore cómo «piensan» y se comportan en escenarios no entrenados.
La pregunta que me hago es, ¿Obtenemos lo que buscamos cuando evaluamos un modelo? o más allá ¿qué buscamos realmente?, ¿solo comparar? 🙃