OpenAI anunció a principios de esta semana que la mayoría de los usuarios tendrán que esperar hasta el otoño para tener acceso a la función de voz avanzada de GPT-4o, pero parece que algunos afortunados echaron un vistazo a lo que es posible con el asistente de voz de próxima generación.
Usuario de Reddit RozziElCreador Fue uno de los pocos afortunados. Han compartido una grabación de una nueva voz GPT-4o nunca antes escuchada que cuenta una historia de terror, con efectos de sonido relacionados con la historia, como truenos y pasos. El escritor de inteligencia artificial Sambhav Gupta Primero resalte el clip en Xpara atraer una mayor atención.
Parece que el acceso de Rosie fue un error. OpenAI me dijo en un comunicado que algunos usuarios obtuvieron acceso al modelo por error, pero esto ya se ha corregido.
¿Qué podemos escuchar en el vídeo filtrado?
Todos los videos que hemos obtenido con audio GPT-4o avanzado hasta ahora han estado bajo el control de OpenAI y, si bien se veían increíbles, se limitaban a casos de uso personalizados.
Un nuevo vídeo de RozziTheCreator parece mostrar esta habilidad de una manera más natural, incluyendo una función de efectos de sonido que no habíamos escuchado antes.
Le envié un mensaje a RozziTheCreator sobre la experiencia y me dijeron: «Surgió de la nada, se veía igual, la única diferencia era el sonido». El descubrimiento ocurrió a altas horas de la noche cuando RozziTheCreator intentaba hacerle una pregunta al chatbot: «Descubrí el cambio».
Solo duró unos minutos y, según RozziTheCreator, estaba «lleno de errores», por lo que no hubo tiempo para capturar mucho, pero lograron grabar un fragmento de esta increíble historia.
«Comencé a volverme loco repitiendo y respondiendo cosas que no dije», dice RozziTheCreator, antes de volver a la voz básica normal que todos los demás pueden usar.
En el vídeo, se puede escuchar a GPT-4o contar la historia con entusiasmo de manera informal, respaldado por efectos de sonido. «Imagínese esto, hay un pequeño pueblo, todo el mundo se conoce a todos por el vídeo, y hay una pequeña casa al final de la calle», explicó.
La historia continúa sobre dos adolescentes que estaban revisando la casa durante la tormenta «con nada más que una linterna y sus teléfonos para iluminarse».
Entonces, ¿qué salió mal durante el lanzamiento?
OpenAI está implementando lentamente una gran cantidad de funciones nuevas. Se suponía que los usuarios de Early Plus obtendrían audio GPT-4o avanzado este mes, pero debido a algunos problemas de seguridad y preocupaciones sobre si tenían o no la infraestructura de hardware lista, eso se retrasó.
Le pregunté a OpenAI qué sucedió para que RozziTheCreator obtuviera acceso y un portavoz de la compañía respondió: «Mientras probábamos la función, sin darnos cuenta enviamos invitaciones a una pequeña cantidad de usuarios de ChatGPT. Esto fue un error y lo hemos solucionado».
Confirmaron que los primeros usuarios de Plus tendrán acceso el próximo mes, pero para la mayoría de las personas llevará más tiempo. La explicación para el lanzamiento inicial será «recopilar comentarios y planificar la expansión en función de lo que aprendamos».
Entonces, todavía no hay sonido de GPT-4o, pero este es el último de una serie de ejemplos en los que GPT-4o parece querer liberarse de sus limitaciones y ofrecer todas sus capacidades. Personalmente, he visto ejemplos de él analizando archivos de audio en vivo en un minuto y luego ejecutándolos mediante código al siguiente.
Lo que esto hizo fue entusiasmarme más con todas sus capacidades y molestarme más por el retraso, por comprensible que sea.
Más de la guía de Tom
«Gurú del alcohol. Analista. Defensor de la comida. Aficionado extremo al tocino. Experto total en Internet. Adicto a la cultura pop. Pionero de viajes sutilmente encantador».