La promesa y los peligros de los datos sintéticos

¿Es posible que una IA se entrene únicamente con datos generados por otra IA? Puede parecer una idea descabellada. Pero es algo que existe desde hace bastante tiempo y, a medida que es cada vez más difícil conseguir datos nuevos y reales, ha ido ganando terreno.

Anthropic utilizó algunos datos sintéticos para entrenar uno de sus modelos emblemáticos, Soneto de Claude 3.5. Meta afinó su Llama 3.1 modelos utilizando datos generados por IA. Y se dice que OpenAI obtiene datos de entrenamiento sintéticos de o1su modelo de “razonamiento”, para los próximos Orión.

Pero, en primer lugar, ¿por qué la IA necesita datos y qué amable ¿Qué datos necesita? ¿Y estos datos pueden en realidad ¿Será reemplazado por datos sintéticos?

La importancia de las anotaciones

Los sistemas de IA son máquinas estadísticas. Capacitados con muchos ejemplos, aprenden los patrones en esos ejemplos para hacer predicciones, como ese “a quién” en un correo electrónico generalmente precede a “puede interesar”.

Las anotaciones, normalmente texto que etiqueta el significado o partes de los datos que estos sistemas ingieren, son una pieza clave en estos ejemplos. Sirven como guías, “enseñando” un modelo a distinguir entre cosas, lugares e ideas.

Considere un modelo de clasificación de fotografías en el que se muestran muchas fotografías de cocinas etiquetadas con la palabra “cocina”. A medida que se entrena, el modelo comenzará a hacer asociaciones entre “cocina” y general. características de las cocinas (por ejemplo, que contengan frigoríficos y encimeras). Después del entrenamiento, ante una foto de una cocina que no estaba incluida en los ejemplos iniciales, el modelo debería poder identificarla como tal. (Por supuesto, si las imágenes de las cocinas estuvieran etiquetadas como “vaca”, se identificarían como vacas, lo que enfatiza la importancia de una buena anotación).

El apetito por la IA y la necesidad de proporcionar datos etiquetados para su desarrollo han disparado el mercado de servicios de anotación. Investigación de mercado de dimensiones estimaciones que vale 838,2 millones de dólares hoy… y que valdrá 10.340 millones de dólares en los próximos diez años. Si bien no existen estimaciones precisas de cuántas personas participan en el trabajo de etiquetado, para 2022 papel fija el número en “millones”.

Las empresas grandes y pequeñas dependen de los trabajadores empleados por las empresas de anotación de datos para crear etiquetas para los conjuntos de capacitación de IA. Algunos de estos trabajos pagan razonablemente bien, especialmente si el etiquetado requiere conocimientos especializados (por ejemplo, conocimientos de matemáticas). Otros pueden ser agotadores. Anotadores en países en desarrollo se les paga solo unos pocos dólares por hora en promedio sin ningún beneficio ni garantía de futuros conciertos.

Un pozo de datos de secado

Así que existen razones humanistas para buscar alternativas a las etiquetas generadas por los humanos. Pero también los hay prácticos.

Los humanos solo pueden etiquetar con cierta rapidez. Los anotadores también tienen prejuicios que pueden manifestarse en sus anotaciones y, posteriormente, en cualquier modelo entrenado en ellas. Los anotadores hacen erroreso conseguir tropezó mediante instrucciones de etiquetado. Y pagar a los humanos para que hagan cosas es caro.

Datos en general es caro, de hecho. Shutterstock está cobrando a los proveedores de IA decenas de millones de dólares por acceder a su archivomientras Reddit tiene Ganó cientos de millones con la concesión de licencias de datos a Google, OpenAI y otros.

Por último, los datos también son cada vez más difíciles de adquirir.

La mayoría de los modelos se basan en colecciones masivas de datos públicos, datos que los propietarios eligen cada vez más ocultar por temor a que sus datos sean plagiadoo que no recibirán crédito o atribución por ello. Más del 35% de los 1.000 sitios web más importantes del mundo ahora bloquea el raspador web de OpenAI. Y alrededor del 25% de los datos de fuentes de “alta calidad” han sido restringidos de los principales conjuntos de datos utilizados para entrenar modelos, según un estudio reciente. estudiar encontró.

Si continúa la actual tendencia de bloqueo de acceso, el grupo de investigación Epoch AI proyectos que los desarrolladores se quedarán sin datos para entrenar modelos de IA generativa entre 2026 y 2032. Eso, combinado con los temores de demandas por derechos de autor y material objetable abrirse paso en conjuntos de datos abiertos ha obligado a los proveedores de IA a tomar decisiones.

Alternativas sintéticas

A primera vista, los datos sintéticos parecen ser la solución a todos estos problemas. ¿Necesita anotaciones? Generarlos. ¿Más datos de ejemplo? Ningún problema. El cielo es el límite.

Y hasta cierto punto, esto es cierto.

“Si 'los datos son el nuevo petróleo', los datos sintéticos se presentan como biocombustibles, que se pueden crear sin las externalidades negativas del producto real”, dijo a TechCrunch Os Keyes, candidato a doctorado en la Universidad de Washington que estudia el impacto ético de las tecnologías emergentes. . “Se puede tomar un pequeño conjunto inicial de datos y simular y extrapolar nuevas entradas a partir de él”.

La industria de la IA ha tomado el concepto y lo ha aplicado.

Este mes, Writer, una empresa de inteligencia artificial generativa centrada en la empresa, presentó un modelo, Palmyra X 004, entrenado casi en su totalidad con datos sintéticos. Desarrollarlo costó sólo 700.000 dólares, afirma Writer. comparado a estimaciones de 4,6 millones de dólares para un modelo OpenAI de tamaño comparable.

Microsoft Fi Los modelos abiertos se entrenaron utilizando datos sintéticos, en parte. También lo fueron los de Google Gema modelos. NVIDIA este verano presentó una familia de modelos diseñada para generar datos de entrenamiento sintéticos, y la startup de inteligencia artificial Hugging Face lanzó recientemente lo que afirma es el conjunto de datos de entrenamiento de IA más grande de texto sintético.

La generación de datos sintéticos se ha convertido en un negocio por derecho propio, uno que podría valer 2.340 millones de dólares para 2030. Gartner predice que el 60% de los datos utilizados para proyectos de inteligencia artificial y análisis este año se generarán sintéticamente.

Luca Soldaini, científico investigador senior del Instituto Allen de IA, señaló que se pueden utilizar técnicas de datos sintéticos para generar datos de entrenamiento en un formato que no se obtiene fácilmente mediante scraping (o incluso mediante licencias de contenido). Por ejemplo, al entrenar su generador de video. Generación de películasMeta usó Llama 3 para crear subtítulos para las imágenes en los datos de entrenamiento, que luego los humanos refinaron para agregar más detalles, como descripciones de la iluminación.

En esta misma línea, OpenAI dice que afinó GPT-4o usando datos sintéticos para construir el cuaderno de bocetos Lienzo función para ChatGPT. Y Amazon tiene dicho que genera datos sintéticos para complementar los datos del mundo real que utiliza para entrenar modelos de reconocimiento de voz para Alexa.

“Los modelos de datos sintéticos se pueden utilizar para ampliar rápidamente la intuición humana sobre qué datos se necesitan para lograr un comportamiento de modelo específico”, dijo Soldaini.

Riesgos sintéticos

Sin embargo, los datos sintéticos no son una panacea. Sufre el mismo problema de “entra basura, sale basura” que toda la IA. Modelos crear datos sintéticos, y si los datos utilizados para entrenar estos modelos tienen sesgos y limitaciones, sus resultados estarán igualmente contaminados. Por ejemplo, los grupos mal representados en los datos base lo estarán en los datos sintéticos.

“El problema es que no se puede hacer mucho”, dijo Keyes. “Digamos que solo tienes 30 personas negras en un conjunto de datos. Extrapolar podría ayudar, pero si esas 30 personas son todas de clase media o de piel clara, así se verán todos los datos 'representativos'”.

Hasta este punto, un 2023 estudiar Investigadores de la Universidad Rice y Stanford descubrieron que la dependencia excesiva de datos sintéticos durante el entrenamiento puede crear modelos cuya “calidad o diversidad disminuyen progresivamente”. El sesgo de muestreo (mala representación del mundo real) hace que la diversidad de un modelo empeore después de algunas generaciones de entrenamiento, según los investigadores (aunque también descubrieron que mezclar un poco de datos del mundo real ayuda a mitigar esto).

Keyes ve riesgos adicionales en modelos complejos como el o1 de OpenAI, que cree que podrían producir modelos más difíciles de detectar. alucinaciones en sus datos sintéticos. Esto, a su vez, podría reducir la precisión de los modelos entrenados con los datos, especialmente si las fuentes de las alucinaciones no son fáciles de identificar.

“Los modelos complejos alucinan; Los datos producidos por modelos complejos contienen alucinaciones”, añadió Keyes. “Y con un modelo como o1, los propios desarrolladores no necesariamente pueden explicar por qué aparecen los artefactos”.

Las alucinaciones agravadas pueden conducir a modelos que arrojan galimatías. A estudiar publicado en la revista Nature revela cómo los modelos, entrenados con datos plagados de errores, generan aún más datos plagados de errores y cómo este circuito de retroalimentación degrada las generaciones futuras de modelos. Los investigadores descubrieron que los modelos pierden la comprensión de conocimientos más esotéricos a lo largo de generaciones, volviéndose más genéricos y a menudo produciendo respuestas irrelevantes a las preguntas que se les hacen.

Créditos de imagen:Ilia Shumailov et al.

un seguimiento estudiar muestra que otros tipos de modelos, como los generadores de imágenes, no son inmunes a este tipo de colapso:

Créditos de imagen:Ilia Shumailov et al.

Soldaini está de acuerdo en que no se puede confiar en los datos sintéticos “en bruto”, al menos si el objetivo es evitar entrenar chatbots olvidadizos y generadores de imágenes homogéneos. Para utilizarlo “de forma segura”, afirma, es necesario revisarlo, seleccionarlo y filtrarlo minuciosamente e, idealmente, combinarlo con datos nuevos y reales, tal como lo haría con cualquier otro conjunto de datos.

No hacerlo podría eventualmente conducir al colapso del modelodonde un modelo se vuelve menos “creativo” (y más sesgado) en sus resultados, lo que eventualmente compromete seriamente su funcionalidad. Aunque este proceso podría identificarse y detenerse antes de que se vuelva grave, es un riesgo.

“Los investigadores deben examinar los datos generados, repetir el proceso de generación e identificar salvaguardas para eliminar puntos de datos de baja calidad”, dijo Soldaini. “Los canales de datos sintéticos no son una máquina que se mejora a sí misma; su producción debe ser inspeccionada y mejorada cuidadosamente antes de ser utilizada para capacitación”.

El director ejecutivo de OpenAI, Sam Altman, argumentó una vez que la IA algún día producir datos sintéticos lo suficientemente buenos como para entrenarse efectivamente. Pero, suponiendo que eso sea factible, la tecnología aún no existe. Ningún laboratorio importante de IA ha lanzado un modelo entrenado basándose únicamente en datos sintéticos.

Al menos en el futuro previsible, parece que necesitaremos humanos informados. en algún lugar para asegurarse de que el entrenamiento de un modelo no salga mal.

Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here