La startup de inteligencia artificial Awarri está detrás del primer LLM respaldado por el gobierno de Nigeria

A principios de este año, el ministro de tecnología de Nigeria, Bosun Tijani, anunció que el país construiría su propio modelo lingüístico a gran escala, formado en cinco idiomas de bajos recursos y con acento inglés. Este LLM, dijo, ayudaría a aumentar la representación de los idiomas nigerianos en los sistemas de inteligencia artificial que se están construyendo en todo el mundo.

Tijani dijo que el proyecto sería una asociación entre la organización sin fines de lucro Data.org; dos organismos gubernamentales, la Agencia Nacional de Desarrollo de Tecnologías de la Información y el Centro Nacional de Inteligencia Artificial y Robótica; y Awarri, una startup con sede en Lagos.

Victor Famubode, que ha trabajado en la industria de la IA de Nigeria durante nueve años, dijo Resto del mundo que el anuncio de Tijani era la primera vez que oía hablar de Awarri. “El pensamiento inicial fue: '¿Puede un Awarri soportarlo?' Pero… simplemente demuestra que es importante promover las empresas locales de ese tipo”.

Los cofundadores y emprendedores en serie de Awarri, Silas Adekunle y Eniola Edun, fundaron la empresa en 2019. Parte de la misión de la empresa es ayudar a los nigerianos a encontrar representación en la industria de la inteligencia artificial, dijeron. Resto del mundo.

Algunos expertos en tecnología e inteligencia artificial dijeron que no estaban seguros de si una pequeña startup era la opción correcta para que el gobierno se asociara para una tarea de esta escala. Otros dijeron Resto del mundo Awarri tiene el potencial de ser el próximo OpenAI.

“Awarri es una entidad poco conocida, pero también lo era OpenAI hace unos dos años”, dijo Ehia Erhaboh, co-coordinadora de AI en Nigeria, una firma consultora con sede en Lagos. La IA es un nuevo fenómeno global y se deben esperar nuevas empresas, dijo. “Para mí, lo importante no es la novedad de la entidad sino la experiencia de los fundadores”.

“Awarri es una entidad poco conocida, pero también lo era OpenAI hace unos dos años”.

Antes de cofundar Awarri en 2019, Adekunle y Edun estuvieron involucrados en la industria del juego. Edun cofundó una plataforma de juegos llamada Gamr en Lagos. Adekunle saltó a la fama en 2017 cuando su empresa, Reach Robotics, firmó un contrato “trato de ensueño” con Apple para la distribución de su robot de juegos MekaMon. Posteriormente, Awarri adquirió los derechos de MekaMon y ayudó a llevar el robot a algunas escuelas nigerianas para ayudar a los niños a aprender informática y habilidades de codificación, según Edun.

En noviembre de 2023, Awarri inauguró un laboratorio de anotación de datos en Ikorodu, un suburbio densamente poblado de Lagos. El laboratorio fue inaugurado por Tijani y estaba preparado para ser un centro de desarrollo de talentos de IA, según informes locales.

El laboratorio emplea a más de 100 trabajadores, que son responsables de recopilar y anotar datos, crear modelos de lenguaje y desarrollar aplicaciones de inteligencia artificial, dijo Edun. Resto del mundo. “Hemos tenido algunos proyectos que estamos haciendo en I+D y estos incluyen modelos de lenguaje grandes (y) muchas cosas diferentes que no podemos anunciar públicamente todavía”, dijo Adekunle. “Y este es un proyecto en el que el gobierno ha visto y desarrollado interés y ha mostrado su apoyo”.

En abril, Awarri lanzó LangFácil, una plataforma que permite a cualquier persona con un teléfono inteligente ayudar a entrenar el modelo mediante entradas de voz y texto. LangEasy les da a los usuarios oraciones para leer en voz alta y les pide que guarden el audio en la aplicación. La aplicación ayudará a obtener datos de forma colectiva para el LLM de Awarri, dijo Adekunle.

Dijo que mientras Awarri construye su modelo desde cero, también ha estado entrenando el modelo básico GPT-4 de OpenAI con su conjunto de datos. “Existimos como un ecosistema a nivel mundial. Lo necesita para poder acelerar su investigación y desarrollo. (En) paralelo, se construye desde cero porque hay matices en nuestros lenguajes… que otros modelos quizás no hayan podido capturar”, dijo.


https://www.langeasy.ai/

Según Edun, Awarri trabaja actualmente con recolectores de datos en toda Nigeria que recopilan muestras de texto y voz a través de la aplicación.

Dijo que la primera versión del LLM se entrenará con 24.000 horas de audio, mientras que la segunda necesitará 500.000 horas. dijo Moses Daudu, ingeniero senior de inteligencia artificial en Awarri. Resto del mundo que los parámetros del token de texto ascenderán a miles de millones. “(Estamos) apuntando a 10 mil millones de tokens para el entrenamiento previo, y para el ajuste fino estamos apuntando a 600.000 muestras de instrucciones para la primera versión”, dijo.

A pesar de la historia de los fundadores y la relación con el gobierno, dijeron los expertos Resto del mundo Es difícil concluir si Awarri es el mejor interesado para el proyecto.

“Conozco al fundador por su trabajo anterior en robótica y creo que tiene la visión para ejecutar este trabajo”, dijo Chinasa Okolo, miembro de Brookings Institution, un grupo de expertos estadounidense. “Por el momento, no creo que Awarri tenga el talento todavía, pero sé que han estado reclutando activamente durante los últimos meses y he visto algunos de sus anuncios de trabajo”.

Okolo cree que el déficit de infraestructuras de Nigeria también podría frenar el proyecto. “Nigeria tiene la capacidad humana para construir el modelo y potencialmente sostenerlo. Pero creo que la infraestructura es realmente el mayor obstáculo para lograrlo”, afirmó.

“Nunca estará de más tener una base de datos en el idioma local”.

Hasta ahora, Awarri se ha financiado a través de una ronda previa a la semilla de inversores no revelados. La compañía no confirmó si planeaba hacer que su tecnología LLM fuera de código abierto o ponerla a disposición de desarrolladores y otros por una tarifa. “Habrá elementos de código abierto, pero somos una empresa privada, por lo que debemos seguir vivos”, dijo Adekunle. “Lo que puedo prometer es que será accesible de una manera justa y que tenga en cuenta las capacidades comerciales de las personas”.

Tanto Awarri como el gobierno necesitarán establecer directrices claras sobre cómo se almacenarán y utilizarán los datos, según Kola Tubosun, un estudioso del idioma nigeriano que ha ayudado a Google a introducir el acento nigeriano en algunos de sus productos. “Cuando consigas que el público dé su voz de forma gratuita, ¿la base de datos de esa voz estará disponible para que todos la utilicen de forma gratuita, para poder crear fines comerciales o de investigación, o para crear cosas que la gente pueda ¿beneficio de?” él dijo.

El Ministerio Federal de Comunicaciones, Innovación y Economía Digital no respondió a Resto del mundoLas consultas sobre cómo funcionaría el modelo una vez finalizado, quién sería el propietario y si sería de código abierto o cobraría una tarifa.

Pese a ello, Fu'ad Lawal, director general de Archiving, una plataforma que conserva digitalmente periódicos y revistas antiguos, cree que el proyecto es un experimento sin inconvenientes.

“La naturaleza fundamental de esta tecnología de vanguardia que el mundo aún debe comprender es que cualquier futuro que queramos crear a partir de ella será a partir de la experimentación”, dijo Lawal. Resto del mundo. “Nunca estará de más tener una base de datos en el idioma local. No hay ningún inconveniente, a diferencia de muchos experimentos. Beneficiará enormemente al país si tienen éxito y sólo será una decepción si fracasan”.

Fuente