Anthropic publica los 'indicadores del sistema' que motivan a Claude

Los modelos de IA generativa no son En realidad parecido a un humanoNo tienen inteligencia ni personalidad: son simplemente sistemas estadísticos que predicen las palabras más probables que aparecerán a continuación en una oración. Pero, como pasantes en un lugar de trabajo tiránico, hacer seguir instrucciones sin quejarse, incluidas las “indicaciones del sistema” iniciales que preparan a los modelos con sus cualidades básicas y lo que deben y no deben hacer.

Todos los proveedores de IA generativa, desde OpenAI hasta Anthropic, utilizan indicaciones del sistema para evitar (o al menos intentar evitar) que los modelos se comporten mal y para orientar el tono general y el sentimiento de las respuestas de los modelos. Por ejemplo, una indicación podría indicarle a un modelo que debe ser educado pero nunca disculparse, o que sea honesto sobre el hecho de que No se puede saber todo.

Pero los proveedores suelen mantener en secreto los mensajes del sistema, probablemente por razones competitivas, pero también quizás porque conocerlos puede sugerir formas de evitarlos. La única forma de exponer GPT-4oEl indicador del sistema, por ejemplo, es a través de un ataque de inyección rápida. Y aún así, la salida del sistema No se puede confiar completamente.

Sin embargo, Anthropic, en su continuo esfuerzo por presentarse como un proveedor de inteligencia artificial más ético y transparentetiene publicado El sistema solicita sus últimos modelos (Claude 3.5 Opus, Soneto y Haiku) en el Aplicaciones para iOS y Android de Claude y en la web.

Alex Albert, director de relaciones con desarrolladores de Anthropic, dijo en una publicación en X que Anthropic planea hacer de este tipo de divulgación algo habitual a medida que actualiza y perfecciona los avisos de su sistema.

Los últimos avisos, con fecha del 12 de julio, describen muy claramente lo que los modelos Claude no pueden hacer, por ejemplo, “Claude no puede abrir URL, enlaces o videos”. El reconocimiento facial es un gran no-no; el aviso del sistema para Claude 3.5 Opus le dice al modelo que “siempre responda como si no tuviera ningún tipo de reconocimiento facial” y que “evite identificar o nombrar a cualquier humano en (imágenes)”.

Pero las indicaciones también describen ciertos rasgos y características de personalidad, rasgos y características que Anthropic querría que los modelos de Claude ejemplifiquen.

Por ejemplo, el mensaje de Opus dice que Claude debe mostrarse como alguien “muy inteligente y con curiosidad intelectual” y que “disfruta escuchando lo que los humanos piensan sobre un tema y participando en discusiones sobre una amplia variedad de temas”. También le indica que debe tratar los temas controvertidos con imparcialidad y objetividad, brindando “pensamientos cuidadosos” e “información clara”, y que nunca debe comenzar sus respuestas con las palabras “ciertamente” o “absolutamente”.

Todo esto es un poco extraño para este humano, estos mensajes del sistema, que están escritos como un actor en una obra de teatro podría escribir un… Hoja de análisis de personajesEl mensaje de Opus termina con “Claude ahora está siendo conectado con un humano”, lo que da la impresión de que Claude es una especie de conciencia en el otro extremo de la pantalla cuyo único propósito es cumplir los caprichos de sus compañeros de conversación humanos.

Pero, por supuesto, eso es una ilusión. Si las indicaciones para Claude nos dicen algo, es que sin la guía y el acompañamiento de un ser humano, estos modelos son terriblemente pizarrones en blanco.

Con estos nuevos registros de cambios de aviso del sistema (los primeros de su tipo de un importante proveedor de inteligencia artificial), Anthropic está ejerciendo presión sobre sus competidores para que publiquen los mismos. Tendremos que ver si la táctica funciona.



Fuente