SynthID de código abierto de Google es una marca de agua en el texto generado por IA

SynthID de Google ahora marcará el texto generado por IA basándose en el token generado por LLM para los textos, palabras y oraciones.

Los modelos de AI Generator han inundado el mundo digital con contenido generado por AI, incluidos videos, imágenes, diseños, texto y música. Si bien los chatbots brindan todo tipo de contenido, algunas de las herramientas también brindan una opción para humanizar los multimedia generados por IA. Google está abordando este problema con un motivo diferente al de otros, ya que ha abierto SynthID para marcar el texto generado por IA.

SynthID es una herramienta de marca de agua con IA de Google DeepMind que ahora está disponible para marcar el texto generado con IA. Anteriormente, la herramienta solo podía marcar imágenes, videos y música generados por IA y estaba disponible para un número limitado de personas. En mayo, Google aplicó SynthID en su Aplicación Géminis y otros chatbots para tener retroalimentación sobre el desempeño de la herramienta.

Pushmeet Kohli, vicepresidente de investigación de Google DeepMind, dijo a MIT Technology Review: “Ahora, otros desarrolladores de IA (generativa) podrán utilizar esta tecnología para ayudarles a detectar si las salidas de texto provienen de sus propios (modelos de lenguaje grandes), lo que facilitará que más desarrolladores creen IA de manera responsable”.

¿Cómo identifica SynthID el texto generado por IA?

Google ha abierto la herramienta, que ya ha sido integrado con el chatbot Gemini. Los desarrolladores y las empresas ahora pueden utilizar la herramienta para determinar si la salida de texto proviene de sus chatbots generadores de IA. Actualmente, sólo Google y el desarrollador con acceso a un detector que identifica la marca de agua pueden utilizar la herramienta.

SynthID funciona reconociendo los tokens utilizados por los LLM en la salida de texto. LLM es un modelo de lenguaje grande que admite chatbots y genera texto con un token a la vez. Para generar una secuencia de textos, el modelo predice el siguiente token para el texto. Estos tokens pueden representar un carácter, palabra o frase.

LLM hace predicciones basadas en las palabras anteriores y se asigna la puntuación de probabilidad a cada token para el siguiente texto. Todo el proceso se repite a lo largo del texto generado, lo que permite que una sola oración contenga diez o más puntuaciones de probabilidad. El patrón final de puntuaciones, que combina las elecciones de palabras del modelo con las puntuaciones de probabilidad ajustadas, se denomina marca de agua.

La precisión de SynthID aumenta con la longitud del texto generado, ya que contiene una gran cantidad de puntuaciones de probabilidad. Kohli dijo: “Si bien SynthID no es una solución milagrosa para identificar contenido generado por IA, es un componente importante para desarrollar herramientas de identificación de IA más confiables”.

Incluso después de la prueba del millón de indicaciones, los investigadores han alegado que es fácil alterar los textos generados por Gemini y engañar al detector. Sin embargo, es difícil para los usuarios comunes entender la forma correcta de alternar el texto o identificar las palabras particulares que deben cambiarse. También puede haber muchos bucles en SynthID, pero Google afirma que es el más preciso hasta el momento.

Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here