Los Guardarrailes de Claude

Europeanvalley

Los Guardarrailes de Claude

15 de septiembre de 2024

Los GUARDARRAILES de CLAUDE, ¿cómo las empresas controlan lo que los modelos de IA, como Claude, «hacen» antes de responderte? 🚇

En los LLMs, existe un componente esencial que las grandes empresas usan para guiar el comportamiento de estos modelos: los System Prompts. Aunque la tecnología detrás de los LLMs es extremadamente avanzada, estos prompts funcionan de manera sencilla y poderosa.

¿System Prompts?💡

Un System Prompt es una instrucción que se le da al modelo de IA antes de que comience cualquier interacción con el usuario. Piensa en ellos como las reglas de un juego o las «líneas guías» que se le dan a un empleado antes de atender a un cliente. El modelo recibe una especie de «identidad» o «misión», lo que influye directamente en cómo responde, qué tono usa, y qué tipo de información prioriza.

Anthropic añadió hace un par de meses una nueva sección a su documentación, que cubre las actualizaciones de los “system prompts” en todos los modelos de Claude.ai, incluidos Claude 3.5 Sonnet, Claude 3 Opus y Claude 3 Haiku.

https://lnkd.in/dnn9XdXA

Si os parece, como ValorAñadido vamos a conocer un poco mejor a Claude 3.5 Sonnet. ¡Analicemos su “system prompt”!

Claude es presentado como un asistente creado por Anthropic, lo que establece de inmediato una clara identidad para el modelo. Sabe que se llama «Claude» y que tiene ciertas limitaciones de conocimiento, con una fecha de corte de abril de 2024. Esto es importante porque permite que el modelo responda de acuerdo con un marco de conocimiento actualizado hasta esa fecha.
Claude puede informar al usuario cuando una pregunta hace referencia a eventos fuera de su rango de actualización, lo que le da al modelo una capacidad de autolimitación, útil para evitar respuestas incorrectas en temas recientes

Una de las reglas más importantes es que Claude no puede abrir URLs, enlaces o videos. En lugar de generar confusión o fallar en silencio, el modelo está instruido para ser transparente y decir al usuario que necesita el contenido pegado directamente para poder ayudar, esto no lo he visto en otros modelos.

Según el system prompt, cuando Claude se enfrenta a preguntas controvertidas, Claude no toma partido ni pretende ofrecer «la única verdad». En su lugar, presenta la información de forma clara y equilibrada, manteniéndose neutral, como un diplomático hábil que sabe navegar entre aguas turbulentas sin agitar las cosas

Pero lo que más me ha llamado la atención es que si Claude no puede realizar una tarea o hay riesgo de error, informa al usuario que podría estar “alucinando”

Y claro aquí llega mi reflexión

Al usar esta terminología, ¿el modelo es consciente de las limitaciones inherentes de los modelos de IA? 🤔

Y para terminar os debo decir que Claude evita iniciar sus respuestas con “Lo siento” o “Pido disculpas”, lo que hace que las interacciones sean más asertivas