Un estudio reciente publicado en el Nexo PNAS La revista sugiere el surgimiento de modelos de IA como ChatGPT puede estar desafiando el dominio de los sitios tradicionales de intercambio de conocimientos como Reddit y el foro de programación Stack Overflow. Este cambio podría afectar la disponibilidad de información pública de libre acceso.
La investigación, realizada por María del Rio-Chanona y sus colegas, muestra que Stack Overflow experimentó una disminución del 25 % en la actividad de los usuarios en tan solo seis meses después del lanzamiento de ChatGPT.
Esta caída no se observó en sitios similares donde el acceso a ChatGPT está restringido, lo que destaca el impacto significativo de la rápida adopción del modelo de IA. Según el estudio, los usuarios pueden estar recurriendo a respuestas generadas por IA en lugar de buscar contenido impulsado por humanos, cambiando la forma en que las personas obtienen información en línea.
“Los LLM son tan poderosos, tienen un valor tan alto y tienen un impacto enorme en el mundo. Uno comienza a preguntarse sobre su futuro”, dice Del Rio-Chanona, quien también es miembro asociado del cuerpo docente en la Centro de Ciencias de la Complejidad (CSH). Los hallazgos plantean la preocupación de que una creciente dependencia de la IA podría reducir la cantidad de contribuciones a foros públicos, lo que llevaría a una escasez de datos diversos y auténticos necesarios para entrenar modelos futuros. “Esto tiene implicaciones bastante grandes. Esto significa que puede que no haya suficientes datos públicos para entrenar modelos en el futuro”, advierte.
Pitón y JavaScript
La tendencia podría alterar el ecosistema web abierto, ya que las herramientas de inteligencia artificial como ChatGPT dependen del conocimiento compartido públicamente para los datos de entrenamiento. “Incluso los modelos de IA como ChatGPT se entrenan en contenido generado por humanos, como publicaciones de Stack Overflow”, explica Johannes Wachs, miembro del cuerpo docente de CSH. Irónicamente, a medida que la IA desplaza a estas plataformas, la calidad de los datos de entrenamiento puede deteriorarse con el tiempo.
El impacto es especialmente pronunciado en publicaciones relacionadas con lenguajes de programación ampliamente utilizados como Python y JavaScript, donde la actividad ha disminuido significativamente. El estudio sugiere que este cambio no se limita a los principiantes, sino que afecta a los usuarios en todos los niveles de experiencia, lo que indica un amplio paso de las interacciones públicas a las privadas en las plataformas de IA.
Con menos personas contribuyendo a las plataformas públicas, los modelos de IA pueden eventualmente depender de datos de menor calidad, lo que podría degradar su desempeño. Los investigadores piden un enfoque equilibrado que mantenga el intercambio abierto de conocimientos y al mismo tiempo adopte los avances de la IA.