Esta nueva IA puede simular tu voz con solo 3 segundos de sonido

El nuevo modelo de lenguaje de Microsoft Vall-E Se dice que puede imitar cualquier voz usando solo una muestra de grabación de tres segundos.

La herramienta de inteligencia artificial lanzada recientemente se probó en 60 000 horas de datos de habla en inglés. Puede replicar las emociones y el tono de un orador, dijeron los investigadores en un artículo de la Universidad de Cornell.

Estos resultados parecían mantenerse incluso cuando se creaba una grabación de palabras que el hablante nativo nunca había dicho.

Vall-E destaca las capacidades de aprendizaje en contexto y puede usarse para sintetizar voz personalizada y de alta calidad. Grabación grabada por solo 3 segundos Desde el altavoz invisible como indicación de voz. Los resultados del experimento muestran que el Vall-E es significativamente superior al último zero-shot [text to speech] sistema en términos de naturalidad del habla y similitud del hablante”, escribieron los autores. Además, encontramos que Vall-E puede mantener afinada la emoción del orador y el entorno acústico de la caja de resonancia. «

SOFTWARE ESPIA ANDROID ATACA DE NUEVO PARA QUITAR INSTITUCIONES FINANCIERAS Y TU DINERO

La señalización del stand corporativo de Microsoft se exhibe en CES 2023 en el Centro de Convenciones de Las Vegas el 6 de enero de 2023 en Las Vegas, Nevada.
((Foto de David Baker/Getty Images))

Muestras de Val-E Compartido en GitHub son inquietantemente similares a las afirmaciones del orador, aunque varían en calidad.

En una de las oraciones compuestas de la base de datos de sonidos emocionales, Val-E dice con calma la oración: «Tenemos que reducir la cantidad de bolsas de plástico».

READ  'Lo sentimos mucho': El criticado remake de XIII ha comenzado a rehacerse

Los personajes de Disney llegan a Amazon Alexa con el comando «Hey Disney»

Se dice que el nuevo modelo de lenguaje de Microsoft Vall-E puede imitar cualquier sonido utilizando solo una muestra de grabación de tres segundos.

Se dice que el nuevo modelo de lenguaje de Microsoft Vall-E puede imitar cualquier sonido utilizando solo una muestra de grabación de tres segundos.
(iStock)

Sin embargo, la búsqueda AI texto a voz Viene con una advertencia.

«Dado que Vall-E puede sintetizar el habla que conserva la identidad del hablante, también podría Posible riesgo de mal uso del formulario, como hacerse pasar por la identificación de una voz o hacerse pasar por un hablante específico”, dicen los investigadores en esta página web. Realizamos los experimentos asumiendo que el usuario acepta ser el hablante objetivo en la síntesis de voz. Cuando el modelo se generaliza a hablantes invisibles en el mundo real, debe incluir un protocolo para garantizar que el hablante dé su consentimiento para el uso de su voz y un modelo de detección de voz sintetizada. «

Microsoft Corp. firma en el Centro de Desarrollo de Microsoft India, en Noida, India, el viernes 11 de noviembre de 2022.

Microsoft Corp. firma en el Centro de Desarrollo de Microsoft India, en Noida, India, el viernes 11 de noviembre de 2022.
(Fotógrafo: Prakash Singh/Bloomberg vía Getty Images)

Haga clic aquí para la aplicación FOX NEWS

Actualmente, Vall-E, que Microsoft llama un «paradigma de lenguaje de marcado neuronal», no está disponible para el público.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *