Microsoft ha desarrollado una nueva iteración de su modelo lingüístico de códec neural, Vall-E, que supera los esfuerzos anteriores en términos de naturalidad, solidez del habla y similitud con el hablante. Es el primero de su clase en alcanzar la paridad humana en un par de pruebas de referencia populares, y al parecer es tan realista que Microsoft no tiene previsto conceder acceso al público.
Aprovechando la base de Vall-E, la nueva herramienta de voz de IA integra dos importantes mejoras que mejoran enormemente el rendimiento.
- El modelado de códigos agrupados permite a Microsoft organizar mejor los códigos de los códecs, lo que da lugar a secuencias más cortas que aumentan la velocidad de inferencia y ayudan a superar los problemas asociados al modelado de secuencias largas.
- El muestreo consciente de la repetición, por su parte, replantea el proceso original de muestreo de núcleos para buscar la repetición de tokens al descodificar. Según Microsoft, este proceso ayuda a estabilizar la descodificación y evita el problema del bucle infinito que presentaba el Vall-E original.
Microsoft puso a prueba Vall-E 2 con los conjuntos de datos LibriSpeech y VCTK, y los superó con nota. Cuando Redmond afirma que la herramienta de IA alcanza la paridad humana, se refiere a que Vall-E 2 obtuvo mejores resultados que las muestras reales en cuanto a robustez, similitud y naturalidad. En otras palabras, la herramienta puede producir un habla natural prácticamente idéntica a la del hablante original.
Microsoft compartió docenas de muestras de Vall-E 2 que son increíblemente realistas e indistinguibles de la voz humana. La herramienta de inteligencia artificial domina incluso sutilezas como poner el énfasis en la palabra correcta de una frase, como hacen inconscientemente las personas al hablar.
Según Microsoft, Vall-E 2 es un proyecto de investigación y no tiene previsto incorporar la tecnología a un producto de consumo ni ponerla a disposición del público en general. Los de Redmond señalaron además que conlleva un riesgo potencial de uso indebido, como suplantar la identidad de una persona concreta o falsear la identificación de la voz.
Dicho esto, la empresa cree que podría tener aplicaciones en educación, traducción, accesibilidad, periodismo, contenidos de autoría propia y chatbots, entre otras.