Hacer al computador “hablar” es algo que logramos hace décadas, pero la forma en la que damos significado a lo que decimos tiene tantos detalles, que aún queda camino por recorrer para crear voces sintéticas que... no suenen sintéticas. Usualmente para generar las voces se utilizan actores, en el caso de Siri (la app de asistencia virtual de Apple), la actriz Susan Bennett fue grabada por un mes completo por cuatro horas al día. Lo que no ha sido suficiente para lograr crear una voz que suene completamente natural.
Si grabamos a humanos, para crear las voces ¿por qué suenan sintéticas? La respuesta está en el contexto y en la manera en la que pronunciamos. No transmitimos sólo palabras, sino que también emociones y una sutil combinación de cambios en el ritmo, velocidad y volumen, que en las medidas adecuadas dan la naturalidad al sonido de nuestra voz. No basta meramente con unir grabaciones, hay que decidir qué palabra o sílaba se desea destacar y qué emoción se desea transmitir. Eso hace tan difícil que las voces generadas en un computador suenen humanas.
Si generar una voz que suene natural es muy difícil, lo es aún más poder imitar una voz. Justamente eso es lo que Lyrebird, una startup canadiense, está logrando a través de una interesante tecnología, que al parecer permitiría imitar la voz de cualquier persona. En su sitio web se pueden ver imitaciones de Barack Obama, Donald Trump y Hillary Clinton. El sistema utiliza técnicas de inteligencia artificial para aprender a partir de un audio de muestra y, según sus creadores, les basta contar con solo 1 minuto de grabación de cualquier voz para que su sistema sea capaz de imitarle. Si bien las voces generadas aún tienen cierto toque “robótico”, es una aproximación bastante cercana y que permite distinguir claramente a quien corresponde la voz imitada.
El sistema aprovecha las similitudes que hay entre las diferentes voces, que si bien pueden sonar muy diferente, comparten un montón de información común. Según uno de sus creadores, el estudiante de doctorado de la Universidad de Montreal Alexandre de Brebisson “luego de haber aprendido de las voces de muchas personas, aprender la voz de una persona nueva es mucho más rápido. Por ello no necesitamos muchos datos más para aprender una voz completamente nueva. Más datos definitivamente ayudan, aunque un minuto es suficiente para capturar un montón del ‘ADN’ de una voz”.
La empresa tiene planeado ofrecer un servicio a los desarrolladores de software, para dotar de mejores voces a los asistentes personales, lectores de libros y los sintetizadores de voz para gente con discapacidad.
Este tipo de avances tiene un profundo impacto en nuestra confianza sobre una grabación como medio de prueba; si pudiésemos reproducir la voz de una persona artificialmente, sería muy fácil poner en su boca palabras que no dijo. En un momento en el que las noticias falsas han cobrado especial relevancia, el asunto se torna aún más delicado. No obstante, acorde a sus creadores, ellos prefieren que la herramienta pueda ser accesible con facilidad, a fin de que todos estemos conscientes de que pronto las grabaciones de audio “inventadas” serán tan comunes como las imágenes alteradas con Photoshop.
Según señaló de Brebisson “No publicar la tecnología debido a los potenciales malos usos no tiene sentido para nosotros porque pensamos que los aspectos positivos sobrepasan a los negativos (un martillo puede ser usado para construir, pero también para destruir). Si no publicamos la tecnología nosotros mismos, otros lo harán en el futuro (y, contrario a nosotros, podrían tener malas intenciones, tal vez escondiéndola a parte de la población".
En Hollywood ya tienen la capacidad de crear videos de una persona que a simple vista parecen tomas reales; se puede apreciar claramente en la película Terminator: Génesis, donde Schwarzenegger aparece luchando contra su versión más joven, la que fue creada digitalmente o en la película el Curioso Caso de Benjamin Button, donde Brad Pitt dotó de expresiones a un personaje creado por computadora. Este tipo de efectos pasan desapercibidos porque a diferencia de antes, somos totalmente engañados, ya no los notamos y creemos que simplemente son actores reales. Para lograr estos resultados se necesita un equipo de especialistas y altísima tecnología; en el caso del audio, solo bastaría un computador y acceso a la interfaz desarrollada por Lyrebird, ello hace que esta tecnología sea potencialmente accesible a las masas.
Tal vez pronto el computador tendrá una voz más natural y quién sabe si, en el futuro, se convierta en nuestro más íntimo confidente.