El nuevo modelo de IA de Anthropic puede controlar tu PC

en un paso A los inversores la primavera pasada, Anthropic dijo que tenía la intención de crear inteligencia artificial para impulsar asistentes virtuales que pudieran realizar investigaciones, responder correos electrónicos y manejar otros trabajos administrativos por sí solos. La compañía se refirió a esto como un “algoritmo de próxima generación para el autoaprendizaje de la IA”, uno que creía que podría, si todo va según lo planeado, automatizar grandes porciones de la economía algún día.

Ha tardado un poco, pero esa IA está empezando a llegar.

Antrópico el martes liberado una versión mejorada de su Soneto de Claude 3.5 modelo que puede comprender e interactuar con cualquier aplicación de escritorio. A través de una nueva API de “Uso de computadora”, ahora en versión beta abierta, el modelo puede imitar pulsaciones de teclas, clics de botones y gestos del mouse, emulando esencialmente a una persona sentada frente a una PC.

“Entrenamos a Claude para ver lo que sucede en una pantalla y luego usar las herramientas de software disponibles para realizar tareas”, escribió Anthropic en una publicación de blog compartida con TechCrunch. “Cuando un desarrollador le pide a Claude que use un software de computadora y le da el acceso necesario, Claude mira capturas de pantalla de lo que es visible para el usuario y luego cuenta cuántos píxeles vertical u horizontalmente necesita para mover el cursor y hacer clic. el lugar correcto”.

Los desarrolladores pueden probar el uso de la computadora a través de la API de Anthropic, Roca Amazónicay Google Cloud IA de vértice plataforma. El nuevo Soneto 3.5 sin El uso de la computadora se está implementando en aplicaciones claudey trae varias mejoras de rendimiento con respecto al modelo saliente 3.5 Sonnet.

Automatizar aplicaciones

Una herramienta que pueda automatizar tareas en una PC no es una idea novedosa. Innumerables empresas ofrecen este tipo de herramientas, desde Proveedores de RPA con décadas de antigüedad a nuevos advenedizos como Relé, IA induciday Aparato mecánico.

En la carrera por desarrollar los llamados “agentes de IA”, el campo sólo se ha vuelto más saturado. Agentes de IA sigue siendo un término mal definido, pero generalmente se refiere a la IA que puede automatizar el software.

Alguno analistas dicen que los agentes de IA podrían proporcionar a las empresas un camino más fácil para monetizar el miles de millones de dólares que están invirtiendo en la IA. Las empresas parecen estar de acuerdo: según un reciente informe de Capgemini encuestael 10% de las organizaciones ya utilizan agentes de IA y el 82% los integrará en los próximos tres años.

Salesforce hizo anuncios llamativos sobre su tecnología de agente de IA este verano, mientras que Microsoft promocionado Nuevas herramientas para construir agentes de IA ayer. OpenAI, que es trazando su propia marca de agentes de IAve la tecnología como un paso hacia la IA superinteligente.

Anthropic llama a su versión del concepto de agente de IA una “capa de ejecución de acción” que permite al nuevo Sonnet 3.5 ejecutar comandos a nivel de escritorio. Gracias a su capacidad para navegar por la web (no es una novedad para los modelos de IA, pero sí una novedad para Anthropic), 3.5 Sonnet puede utilizar cualquier sitio web y cualquier aplicación.

La nueva IA de Anthropic puede controlar aplicaciones en una PC. Créditos de imagen:antrópico

“Los humanos mantienen el control al proporcionar indicaciones específicas que dirigen las acciones de Claude, como 'usar datos de mi computadora y en línea para completar este formulario'”, dijo un portavoz de Anthropic a TechCrunch. “La gente habilita el acceso y lo limita según sea necesario. Claude divide las indicaciones del usuario en comandos de computadora (por ejemplo, mover el cursor, hacer clic, escribir) para realizar esa tarea específica”.

La plataforma de desarrollo de software Replit ha utilizado una versión anterior del nuevo modelo 3.5 Sonnet para crear un “verificador autónomo” que puede evaluar aplicaciones mientras se crean. Mientras tanto, Canva dice que está explorando formas en que el nuevo modelo podría respaldar el proceso de diseño y edición.

Pero, ¿en qué se diferencia esto de los otros agentes de IA que existen? Es una pregunta razonable. Inicio de dispositivos de consumo Conejo está creando un agente web que pueda hacer cosas como comprar entradas de cine en línea; Adeptoque fue recientemente adquirido por Amazon, entrena modelos para navegar por sitios web y navegar por software; y Laboratorios gemelos está utilizando modelos disponibles en el mercado, incluido OpenAI GPT-4opara automatizar procesos de escritorio.

Anthropic afirma que el nuevo Sonnet 3.5 es simplemente un modelo más fuerte y robusto que puede funcionar mejor en tareas de codificación que incluso el buque insignia de OpenAI. o1según el punto de referencia verificado por SWE-bench. A pesar de no estar capacitado explícitamente para hacerlo, el Sonnet 3.5 actualizado se autocorrige y reintenta las tareas cuando encuentra obstáculos, y puede trabajar hacia objetivos que requieren docenas o cientos de pasos.

Claude 3.5 Soneto nuevo
Las prestaciones del nuevo modelo Claude 3.5 Sonnet en diferentes pruebas. Créditos de imagen:antrópico

Pero no despidas a tu secretaria todavía.

En una evaluación diseñada para probar la capacidad de un agente de IA para ayudar con tareas de reserva de aerolíneas, como modificar una reserva de vuelo, el nuevo 3.5 Sonnet logró completar menos de la mitad de las tareas con éxito. En una prueba separada que involucraba tareas como iniciar una devolución, 3.5 Sonnet falló aproximadamente un tercio de las veces.

Anthropic admite que el Sonnet 3.5 actualizado tiene problemas con acciones básicas como desplazarse y hacer zoom, y que puede perder acciones y notificaciones “de corta duración” debido a la forma en que toma capturas de pantalla y las une.

“El uso de la computadora por parte de Claude sigue siendo lento y, a menudo, propenso a errores”, escribe Anthropic en su publicación. “Alentamos a los desarrolladores a comenzar la exploración con tareas de bajo riesgo”.

Negocio arriesgado

¿Pero es el nuevo Sonnet 3.5 lo suficientemente capaz como para ser peligroso? Probablemente.

Un reciente estudiar encontró que los modelos sin la capacidad de usar aplicaciones de escritorio, como GPT-4o de OpenAI, estaban dispuestos a participar en un “comportamiento de agente de varios pasos” dañino, como solicitar un pasaporte falso a alguien en la web oscura, cuando eran “atacados” usando técnicas de jailbreak. Según los investigadores, los jailbreak condujeron a altas tasas de éxito en la realización de tareas dañinas incluso para modelos protegidos por filtros y salvaguardas.

Uno puede imaginarse cómo un modelo con el acceso al escritorio podría causar más estragos – digamos, por explotando vulnerabilidades de la aplicación para comprometer información personal (o almacenar chats en texto plano). Aparte de las palancas de software a su disposición, las conexiones en línea y de aplicaciones del modelo podrían abrir vías para jailbreakers maliciosos.

Anthropic no niega que existe riesgo al lanzar el nuevo Sonnet 3.5. Pero la empresa sostiene que los beneficios de observar cómo se utiliza el modelo en la naturaleza superan en última instancia este riesgo.

“Creemos que es mucho mejor dar acceso a las computadoras a los modelos actuales más limitados y relativamente más seguros”, escribió la compañía. “Esto significa que podemos comenzar a observar y aprender de cualquier problema potencial que surja en este nivel inferior, aumentando el uso de la computadora y las mitigaciones de seguridad de manera gradual y simultánea”.

Claude 3.5 Soneto nuevo
Créditos de imagen:antrópico

Anthropic también dice que ha tomado medidas para disuadir el uso indebido, como no entrenar el nuevo Sonnet 3.5 en las capturas de pantalla y las indicaciones de los usuarios, y evitar que el modelo acceda a la web durante el entrenamiento. La compañía dice que desarrolló clasificadores para alejar a 3.5 Sonnet de acciones percibidas como de alto riesgo, como publicar en redes sociales, crear cuentas e interactuar con sitios web gubernamentales.

A medida que se acercan las elecciones generales de Estados Unidos, Anthropic dice que se centra en mitigar el abuso de sus modelos relacionado con las elecciones. El Instituto de seguridad de IA de EE. UU. y Instituto de seguridad del Reino Unidodos agencias gubernamentales independientes pero aliadas dedicadas a evaluar el riesgo del modelo de IA, probaron el nuevo 3.5 Sonnet antes de su implementación.

Anthropic dijo a TechCrunch que tiene la capacidad de restringir el acceso a sitios web y funciones adicionales “si es necesario”, para proteger contra spam, fraude y desinformación, por ejemplo. Como medida de seguridad, la empresa conserva las capturas de pantalla capturadas por Computer Use durante al menos 30 días, un período de retención que podría alarmar a algunos desarrolladores.

Le preguntamos a Anthropic bajo qué circunstancias, si las hubiera, entregaría capturas de pantalla a un tercero (por ejemplo, autoridades policiales) si se lo solicitaran. Un portavoz dijo que la empresa “cumpliría con las solicitudes de datos en respuesta a un proceso legal válido”.

“No existen métodos infalibles y evaluaremos e iteraremos continuamente nuestras medidas de seguridad para equilibrar las capacidades de Claude con el uso responsable”, dijo Anthropic. “Aquellos que utilizan la versión de Claude para computadora deben tomar las precauciones pertinentes para minimizar este tipo de riesgos, incluido aislar a Claude de datos particularmente confidenciales en su computadora”.

Con suerte, eso será suficiente para evitar que ocurra lo peor.

Un modelo más barato

El producto estrella de hoy podría haber sido el modelo Sonnet 3.5 actualizado, pero Anthropic también dijo que una versión actualizada de Haiku, el modelo más barato y eficiente de su serie Claude, está en camino.

Claude 3.5 Haiku, previsto para las próximas semanas, igualará el rendimiento de Claude 3 Opus, que alguna vez fue el modelo de última generación de Anthropic, en ciertos puntos de referencia al mismo costo y “velocidad aproximada” de Claude 3 Haiku.

“Con baja latencia, seguimiento de instrucciones mejorado y uso de herramientas más preciso, Claude 3.5 Haiku es ideal para productos orientados al usuario, tareas especializadas de subagente y generación de experiencias personalizadas a partir de grandes volúmenes de datos, como historial de compras, precios o datos de inventario”, escribió Anthropic en un publicación de blog.

3.5 Haiku estará disponible inicialmente como un modelo de solo texto y luego como parte de un paquete multimodal que puede analizar tanto texto como imágenes.

Claude 3.5 Haiku
3.5 Rendimiento comparativo de Haiku. Créditos de imagen:antrópico

Entonces, una vez que 3.5 Haiku esté disponible, ¿habrá muchas razones para usar 3 Opus? ¿Qué pasa con 3.5 Opus, el sucesor de 3 Opus, del que Anthropic adelantó en junio?

“Todos los modelos de la familia Claude 3 tienen sus usos individuales para los clientes”, dijo el portavoz de Anthropic. “Claude 3.5 Opus está en nuestra hoja de ruta y nos aseguraremos de compartir más tan pronto como podamos”.

¡TechCrunch tiene un boletín informativo centrado en la IA! Regístrate aquí para recibirlo en tu bandeja de entrada todos los miércoles.

Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here