La nueva IA de Microsoft puede imitar con precisión una voz humana tras analizar una muestra de 3 segundos

Rubén Castro, 7 febrero 2023

Un equipo de investigadores de Microsoft ha anunciado una nueva inteligencia artificial capaz de imitar con precisión una voz humana a partir de una muestra de audio de apenas tres segundos.

La herramienta de inteligencia artificial de Microsoft, llamada Vall-E, se entrena con “códigos discretos derivados de un modelo de códec de audio neural comercial”, así como con 60.000 horas de voz -100 veces más que los sistemas existentes- de más de 7.000 hablantes, la mayoría de ellas procedentes de audiolibros de dominio público de LibriVox.

Vall-E se basa en una tecnología llamada EnCodec que Meta anunció en octubre de 2022. Funciona analizando la voz de una persona, descomponiendo la información en componentes y utilizando su entrenamiento para sintetizar cómo sonaría la voz si pronunciara distintas frases. Incluso después de escuchar sólo una muestra de tres segundos, Vall-E puede replicar el timbre y el tono emocional de un hablante.

“Los resultados del experimento demuestran que Vall-E supera con creces al sistema TTS de disparo cero más avanzado [IA que recrea voces que nunca ha oído] en cuanto a naturalidad del habla y similitud con el hablante”, afirma el trabajo de investigación, disponible en la Universidad de Cornell. “Además, descubrimos que VALL-E podía preservar la emoción del hablante y el entorno acústico de la indicación acústica en síntesis”.

Puedes escuchar ejemplos de Vall-E recreando voces en GitHub. Muchos son realmente sorprendentes, con un sonido casi idéntico al del hablante a pesar de estar basados en una muestra de audio tan corta. Hay algunos que son un poco más robóticos y suenan un poco más cerca del software tradicional de texto a voz, pero sigue siendo impresionante, y podemos esperar que la IA mejore con el tiempo.

Los investigadores de Microsoft creen que Vall-E podría utilizarse como herramienta de conversión de texto a voz, para editar el habla y como sistema de creación de audio, combinándola con otras IA generativas como GPT-3.

Como ocurre con todas las IA, preocupa el posible uso indebido de Vall-E. Un ejemplo es la suplantación de personalidades públicas como los políticos, sobre todo si se utiliza junto con Deepfakes. O podría engañar a la gente haciéndoles creer que están hablando con familiares, amigos o funcionarios y entregándoles datos confidenciales. También está el hecho de que algunos sistemas de seguridad utilizan la identificación por voz. En cuanto a su impacto en el empleo, Vall-E sería probablemente una alternativa más barata a la contratación de actores de doblaje.

En cuanto a los riesgos de un mal uso de Vall-E, los investigadores afirman que podrían mitigarse. “Es posible construir un modelo de detección para discriminar si un clip de audio ha sido sintetizado por Vall-E. También pondremos en práctica los principios de la IA de Microsoft al seguir desarrollando los modelos”.

Rubén Castro

Redactor

Apasionado de explorar y diseccionar lo último en tecnología. Tengo mucha experiencia en el mundo de los ordenadores y el gaming, aunque también me gustan todos los tipos de gadgets.