Las interfaces cerebro-computadora podrían recibir un impulso significativo gracias a la IA

Las interfaces cerebro-computadora son una tecnología innovadora que puede ayudar a las personas paralizadas a recuperar funciones que han perdido, como mover una mano. Estos dispositivos registran las señales del cerebro y descifran la acción que el usuario pretende realizar, evitando los nervios dañados o degradados que normalmente transmitirían esas señales cerebrales para controlar los músculos.

Desde 2006Las demostraciones de interfaces cerebro-computadora en humanos se han centrado principalmente en restaurar los movimientos de brazos y manos al permitir que las personas Controlar los cursores de la computadora o brazos robóticosRecientemente, los investigadores han comenzado a desarrollar Interfaces cerebro-computadora de voz Para restablecer la comunicación de las personas que no pueden hablar.

A medida que el usuario intenta hablar, estas interfaces cerebro-computadora registran las señales cerebrales únicas de la persona asociadas con los movimientos musculares que intenta realizar para hablar y luego las traducen en palabras. Estas palabras pueden luego mostrarse como texto en una pantalla o pueden pronunciarse en voz alta mediante un software de conversión de texto a voz.

Soy un investigador en el Laboratorio de neuroprótesis en la Universidad de California, Davis, que forma parte de la Puerta cerebral 2 Ensayo clínico. Mis colegas y yo demostramos recientemente una interfaz cerebro-computadora de voz que descifra el intento de habla de un hombre con ELA, o esclerosis lateral amiotrófica, también conocida como enfermedad de Lou Gehrig. La interfaz convierte las señales neuronales en texto con una precisión de más del 97 por ciento. La clave de nuestro sistema es un conjunto de modelos de lenguaje de inteligencia artificial: redes neuronales artificiales que ayudan a interpretar los naturales.

Registrando señales cerebrales

El primer paso en nuestra interfaz habla-cerebro-ordenador es el registro de las señales cerebrales. Existen varias fuentes de señales cerebrales, algunas de las cuales requieren cirugía para su registro. Los dispositivos de registro implantados quirúrgicamente pueden capturar señales cerebrales de alta calidad porque se colocan más cerca de las neuronas, lo que da como resultado señales más fuertes con menos interferencias. Estos dispositivos de registro neuronal incluyen rejillas de electrodos colocados en la superficie del cerebro o electrodos implantados directamente en el tejido cerebral.

En nuestro estudio, utilizamos conjuntos de electrodos colocados quirúrgicamente en la corteza motora del habla, la parte del cerebro que controla los músculos relacionados con el habla, del participante Casey Harrell. Registramos la actividad neuronal de 256 electrodos mientras Harrell intentaba hablar.

Un conjunto de 64 electrodos que se incrustan en el tejido cerebral registra señales neuronales.

Salud de UC Davis

Descifrando señales cerebrales

El siguiente desafío es relacionar las complejas señales cerebrales con las palabras que el usuario está tratando de decir.

Un enfoque consiste en mapear patrones de actividad neuronal directamente a palabras habladas. Este método requiere registrar señales cerebrales correspondientes a cada palabra varias veces para identificar la relación promedio entre la actividad neuronal y palabras específicas. Si bien esta estrategia funciona bien para vocabularios pequeños, como se demostró en un estudio Estudio 2021 con un vocabulario de 50 palabrasresulta poco práctico para los más grandes. Imagine pedirle al usuario de la interfaz cerebro-computadora que intente decir todas las palabras del diccionario varias veces: podría llevar meses y aún así no funcionaría para las palabras nuevas.

En lugar de ello, utilizamos una estrategia alternativa: asociar las señales cerebrales a los fonemas, las unidades básicas de sonido que forman las palabras. En inglés, hay 39 fonemas, incluidos ch, er, oo, pl y sh, que se pueden combinar para formar cualquier palabra. Podemos medir la actividad neuronal asociada a cada fonema varias veces con solo pedirle al participante que lea algunas oraciones en voz alta. Al asociar con precisión la actividad neuronal a los fonemas, podemos unirlos para formar cualquier palabra en inglés, incluso aquellas con las que el sistema no haya sido entrenado explícitamente.

Para mapear las señales cerebrales a los fonemas, utilizamos modelos avanzados de aprendizaje automático. Estos modelos son particularmente adecuados para esta tarea debido a su capacidad de encontrar patrones en grandes cantidades de datos complejos que serían imposibles de discernir para los humanos. Piense en estos modelos como oyentes superinteligentes que pueden distinguir información importante de señales cerebrales ruidosas, de manera similar a como usted podría concentrarse en una conversación en una habitación llena de gente. Usando estos modelos, pudimos descifrar secuencias de fonemas durante un intento de habla con más del 90% de precisión.

La interfaz cerebro-computadora utiliza un clon de la voz de Casey Harrell para leer en voz alta el texto que descifra de su actividad neuronal.

De los fonemas a las palabras

Una vez que tenemos las secuencias de fonemas descifradas, necesitamos convertirlas en palabras y oraciones. Esto es un desafío, especialmente si la secuencia de fonemas descifrada no es perfectamente precisa. Para resolver este problema, utilizamos dos tipos complementarios de modelos de lenguaje de aprendizaje automático.

El primero son los modelos de lenguaje n-gramas, que predicen qué palabra tiene más probabilidades de seguir a un conjunto de norte palabras. Entrenamos un modelo de lenguaje de cinco gramos, o cinco palabras, en millones de frases Predecir la probabilidad de una palabra en función de las cuatro palabras anteriores, captando el contexto local y las frases comunes. Por ejemplo, después de “soy muy bueno”, podría sugerir “hoy” como más probable que “patata”. Con este modelo, convertimos nuestras secuencias de fonemas en las 100 secuencias de palabras más probables, cada una con una probabilidad asociada.

El segundo son los grandes modelos lingüísticos, que impulsan a los chatbots de IA y también predicen qué palabras tienen más probabilidades de seguir a otras. Usamos grandes modelos lingüísticos para refinar nuestras elecciones. Estos modelos, entrenados en grandes cantidades de texto diverso, tienen una comprensión más amplia de la estructura y el significado del lenguaje. Nos ayudan a determinar cuál de nuestras 100 oraciones candidatas tiene más sentido en un contexto más amplio.

Al equilibrar cuidadosamente las probabilidades del modelo de n-gramas, el modelo de lenguaje amplio y nuestras predicciones iniciales de fonemas, podemos hacer una suposición muy bien fundamentada sobre lo que el usuario de la interfaz cerebro-computadora está tratando de decir. Este proceso de varios pasos nos permite manejar las incertidumbres en la decodificación de fonemas y producir oraciones coherentes y apropiadas al contexto.

Cómo la interfaz cerebro-computadora del habla de UC Davis descifra la actividad neuronal y la convierte en palabras.

Salud de UC Davis

Beneficios en el mundo real

En la práctica, esta estrategia de decodificación del habla ha tenido un éxito notable. Hemos permitido que Casey Harrell, un hombre con ELA, “hable” con más del 97 por ciento de precisión utilizando únicamente sus pensamientos. Este avance le permite conversar fácilmente con su familia y amigos por primera vez en años, todo desde la comodidad de su propio hogar.

Las interfaces cerebro-computadora que funcionan con el habla representan un avance significativo en la restauración de la comunicación. A medida que continuamos perfeccionando estos dispositivos, prometen dar voz a quienes han perdido la capacidad de hablar y reconectarlos con sus seres queridos y el mundo que los rodea.

Sin embargo, aún quedan desafíos por resolver, como lograr que la tecnología sea más accesible, portátil y duradera durante años. A pesar de estos obstáculos, las interfaces de voz, cerebro y computadora son un ejemplo poderoso de cómo la ciencia y la tecnología pueden unirse para resolver problemas complejos y mejorar drásticamente la vida de las personas.

Este artículo fue publicado originalmente en La conversación por Tarjeta de Nicolás en Universidad de California, Davis. Lea el Artículo original aquí.

Fuente