La nueva IA de Microsoft puede imitar con precisión una voz humana tras analizar una muestra de 3 segundos

Rubén Castro, 7 febrero 2023

Ya han empezado las Ofertas Prime de Amazon!!! Muy buenas ofertas para los clientes Prime... Date prisa antes de que se acaben!!

Ver ofertas

Un equipo de investigadores de Microsoft ha anunciado una nueva inteligencia artificial capaz de imitar con precisión una voz humana a partir de una muestra de audio de apenas tres segundos.

La herramienta de inteligencia artificial de Microsoft, llamada Vall-E, se entrena con “códigos discretos derivados de un modelo de códec de audio neural comercial”, así como con 60.000 horas de voz -100 veces más que los sistemas existentes- de más de 7.000 hablantes, la mayoría de ellas procedentes de audiolibros de dominio público de LibriVox.

Vall-E se basa en una tecnología llamada EnCodec que Meta anunció en octubre de 2022. Funciona analizando la voz de una persona, descomponiendo la información en componentes y utilizando su entrenamiento para sintetizar cómo sonaría la voz si pronunciara distintas frases. Incluso después de escuchar sólo una muestra de tres segundos, Vall-E puede replicar el timbre y el tono emocional de un hablante.

“Los resultados del experimento demuestran que Vall-E supera con creces al sistema TTS de disparo cero más avanzado [IA que recrea voces que nunca ha oído] en cuanto a naturalidad del habla y similitud con el hablante”, afirma el trabajo de investigación, disponible en la Universidad de Cornell. “Además, descubrimos que VALL-E podía preservar la emoción del hablante y el entorno acústico de la indicación acústica en síntesis”.

Puedes escuchar ejemplos de Vall-E recreando voces en GitHub. Muchos son realmente sorprendentes, con un sonido casi idéntico al del hablante a pesar de estar basados en una muestra de audio tan corta. Hay algunos que son un poco más robóticos y suenan un poco más cerca del software tradicional de texto a voz, pero sigue siendo impresionante, y podemos esperar que la IA mejore con el tiempo.

Los investigadores de Microsoft creen que Vall-E podría utilizarse como herramienta de conversión de texto a voz, para editar el habla y como sistema de creación de audio, combinándola con otras IA generativas como GPT-3.

Como ocurre con todas las IA, preocupa el posible uso indebido de Vall-E. Un ejemplo es la suplantación de personalidades públicas como los políticos, sobre todo si se utiliza junto con Deepfakes. O podría engañar a la gente haciéndoles creer que están hablando con familiares, amigos o funcionarios y entregándoles datos confidenciales. También está el hecho de que algunos sistemas de seguridad utilizan la identificación por voz. En cuanto a su impacto en el empleo, Vall-E sería probablemente una alternativa más barata a la contratación de actores de doblaje.

En cuanto a los riesgos de un mal uso de Vall-E, los investigadores afirman que podrían mitigarse. “Es posible construir un modelo de detección para discriminar si un clip de audio ha sido sintetizado por Vall-E. También pondremos en práctica los principios de la IA de Microsoft al seguir desarrollando los modelos”.

Rubén Castro

Redactor

Apasionado de explorar y diseccionar lo último en tecnología. Tengo mucha experiencia en el mundo de los ordenadores y el gaming, aunque también me gustan todos los tipos de gadgets.