“Durante millones de años, la humanidad vivió igual que los animales. Entonces sucedió algo que desató el poder de nuestra imaginación. Aprendimos a hablar y aprendimos a escuchar. El habla ha permitido la comunicación de ideas, permitiendo a los seres humanos trabajar juntos para construir lo imposible”.
Esta es una frase de Stephen Hawking, una de las mentes más brillante del último siglo y quien desde muy joven vio limitada su capacidad para comunicarse con los demás debido a la esclerosis lateral amiotrófica (ELA) que lo afectaba. En sus últimos años, Hawking podía expresarse al ritmo de una palabra por minuto, gracias a un sistema que accionaba con la contracción de sus mejillas.
Así como Hawking, existen millones de personas cuya capacidad para algo tan fundamental como hablar está seriamente limitada, pero cuyas mentes están tan sanas como la de cualquier otra persona.
Las razones pueden ser múltiples: ELA, un infarto, cáncer de garganta, Parkinson, entre muchas otras.
El camino ideal hacia una solución es obvio: transformar las señales cerebrales en un tipo de comunicación, ya sea hablada o escrita. Es un camino largo de recorrer, que hace pocos días dio un gran avance.
Si bien existen sistemas como el de Hawking, que se activan mediante contracciones musculares o el movimiento de ojos, la velocidad de estos -hasta diez palabras por minuto- está muy lejos de la del discurso hablado normal, que se sitúa en más o menos 150 palabras (o 350 si eres Eminem).
Desde hace décadas que científicos buscan una forma de hacer un atajo directamente al cerebro. Han habido algunos progresos, como un estudio de 2010 que tradujo señales cerebrales en texto, pero los métodos suelen ser no solo invasivos (ya que requieren aparatos o implantes directamente en el cerebro) sino también demasiado inexactos para compensar lo primero.
La inteligencia artificial, sin embargo, cambió muchas cosas en estos últimos años, especialmente en el área científica. Contar con redes neuronales que pueden analizar y aprender de un set de datos de manera mucho más rápida que cualquier ser humano, ofrece grandes posibilidades para la ciencia.
Ya hace pocos meses, hubo un estudio que “entrenó” a un algoritmo con la actividad cerebral de pacientes que escuchaban ciertas palabras (así como existe un patrón de señales en nuestro cerebro al hablar, también existe uno al escuchar). Luego, el algoritmo podía producir un audio que, luego de ser “limpiado” por un sistema de inteligencia artificial, lo reproducía. El porcentaje de entendimiento de la secuencia de palabras (que se limitó a una enumeración de 0 a 9), fue de un 75%.
Para este último estudio, científicos de la Universidad de California, en San Francisco, probaron un nuevo enfoque. Razonaron respecto a que los centros del lenguaje codifican movimientos más que sonidos. ¿Por qué entonces no monitorizar las áreas cerebrales que coordinan el movimiento de laringe, tráquea, labios y mandíbula, y en base a ellos generar un audio?
Los pacientes del estudio fueron cinco personas con epilepsia que debían ser operadas y a las que se les instaló temporalmente una matriz de electrodos del porte de una postal sobre su cerebro. Esta detectó las fluctuaciones de voltaje que ocurrían en este órgano cuando a los pacientes, posteriormente, se les pidió leer en voz alta fragmentos de cuentos infantiles.
La información dada por el implante, alimentó a un modelo virtual que puede decodificar una señal cerebral y estimar a qué movimiento corresponde, para luego sintetizar un audio. Es decir, recrea virtualmente lo que hizo el tracto vocal humano, pero sirviéndose solo de la actividad cerebral.
Estos fueron algunos de los resultados:
Para probar su inteligibilidad, se publicaron más de 100 frases sintetizadas por el mecanismo, para ser transcritas por sobre 1.700 hablantes de inglés que trabajaban en la plataforma de crowdsourcing Amazon Mechanical Turk (una plataforma de trabajo online para queaheceres que requieren de inteligencia humana, a cambio de una retribución económica). El estudio señala que, en promedio, un 70% de las palabras se entendieron correctamente. Hay que señalar, eso sí, que a las personas se les dio un cierto número de palabras entre las que elegir, y a mayor número de opciones, menor fue el número de aciertos.
En los resultados, se observa también que hay ciertos sonidos que pueden ser decodificados mejor que otros. Fonemas sostenidos como “sh” en ship, salían mucho mejor parados que otros explosivos, como la “b” en bat.
Los científicos también probaron una variante, haciendo que los pacientes imitaran el movimiento al leer, sin producir sonidos. A partir de esto también se creó un audio, pero su calidad fue más baja.
Dicho esto, se trata de la primera vez que se sintetizan frases completas a partir de actividad cerebral.
"Esta es una prueba de concepto estimulante que nos dice que, con la tecnología que ya está al alcance, deberíamos poder construir un dispositivo que sea clínicamente viable en pacientes con pérdida del habla", señala Edward Chang uno de los autores.
Otros científicoshan aplaudido el “elegante enfoque” del estudio y lo ven como “un gran avance”. “La decodificación del habla es una nueva y emocionante frontera para las interfaces cerebro-máquina”, señala una investigadora.
La gran pregunta es si funcionará con personas que no puedan hablar. El hecho de que haya funcionado al hacer los movimientos sin emitir los sonidos, aunque con peores resultados, da esperanzas a los investigadores de que podría utilizarse en fases de enfermedades donde el desempeño del tracto vocal se ve limitado, pero no enteramente anulado.
“Con progreso continuo, podemos esperar que las personas con impedimentos del habla recuperen la capacidad de expresarse libremente y vuelvan a conectarse con el mundo que les rodea”, señalan los autores del estudio.