OpenAI ha presentado Voice Engine, un nuevo modelo de Inteligencia Artificial (IA) capaz de clonar la voz de las personas con una muestra de audio de 15 segundos, así como de leer indicaciones de texto con dicha voz en varios idiomas, con resultados naturales.
La compañía tecnológica estadounidense continúa desarrollando nuevas herramientas y modelos de IA de cara a proseguir con su compromiso de "comprender la frontera técnica y compartir abiertamente lo que es posible con la IA", en este caso, en el campo de las voces sintéticas.
En este sentido, OpenAI ha dado a conocer Voice Engine, un modelo de IA diseñado para crear voces personalizadas utilizando entrada de texto y una única muestra de audio de 15 segundos para "generar un habla con sonido natural que se parece mucho al hablante original".
Voice Engine, la IA que clona voces con audios de 15 segundos - Foto: Imagen de vectorjuice en FreepikTal y como ha explicado la compañía en un comunicado en su web, comenzaron a desarrollar este modelo a finales de 2022 y, por el momento, Voice Engine es un modelo a pequeña escala que han utilizado para potenciar las voces preestablecidas disponibles en la API de conversión de texto a voz, así como en ChatGPT Voice y Read Aloud.
Sin embargo, al mismo tiempo, también han desarrollado este nuevo modelo con un enfoque de investigación, para comprender mejor los usos potenciales de esta tecnología. Para ello, lanzaron una vista previa a la que han tenido acceso a algunos socios "de confianza".
Como resultado de esta vista previa, OpenAI ha destacado que, actualmente, Voice Engine es capaz de crear voces "emotivas y realistas" con una sola muestra de 15 segundos de audio de la voz original del hablante, a pesar de que se trata de un modelo pequeño.
Siguiendo esta línea, los resultados de estas pruebas han revelado que Voice Engine tiene distintas aplicaciones, como dar asistencia de lectura a través de voces que suenan naturales, de manera que permite representar una gama más amplia de hablantes de lo que permiten las voces preestablecidas. Por ejemplo, para el ámbito académico, permite generar respuestas personalizadas en tiempo real para interactuar con los estudiantes.
También es un modelo útil para traducir contenido como vídeos o pódcast, de manera que los creadores de contenido puedan llegar a más usuarios a nivel global en varios idiomas, pero utilizando su propia voz. Esto es posible porque Voice Engine conserva el acento nativo del hablante original, de manera que, según ha ejemplificado OpenAI, si un usuario francés habla en inglés, el modelo generará traducciones manteniendo el acento francés en el audio.
De la misma forma, Voice Engine también es útil en entornos laborales, desde labores de marketing de productos hasta, por ejemplo, demostraciones de ventas, todo ello con la posibilidad de desarrollar contenido en cualquier idioma.
Respecto al entorno sanitario, OpenAI ha indicado que el modelo dispone de aplicaciones terapéuticas para usuarios con afecciones que afectan al habla. Por ejemplo, para ayudar a los usuarios en el aprendizaje del habla a la hora de recuperar la voz o para permitir la comunicación de personas con discapacidad utilizando voces no robóticas y en diversos idiomas.
Entre los socios con acceso a esta vista previa de Voice Engine se encuentran la compañía de tecnología educativa Age of Learning, la plataforma de narración visual HeyGen, el fabricante de 'software' de salud Dimagi y el desarrollador de aplicaciones de comunicación de IA Livox.
Seguridad frente al uso de voces sintéticas
A pesar de todo ello, OpenAI ha reflexionado que cualquier implementación amplia de voz sintética "debe ir acompañada de experiencias de autenticación de voz", para ello, ha detallado una serie de medidas de seguridad que actualmente utilizan con Voice Engine.
Como forma de protección, OpenAI ha señalado que los socios que han probado esta versión de vista previa han aceptado políticas de uso en las que se prohíbe la suplantación de otra persona u organización sin consentimiento o derecho legal. Asimismo, se debe señalar "claramente" a la audiencia que las voces están generadas por IA.
Por su parte, el hablante original debe dar su consentimiento explícito para el uso de su voz, a lo que se añade que OpenAI no permite que los desarrolladores creen formas para que los usuarios individuales creen sus propias voces, según ha detallado.
"Reconocemos que generar un discurso que se asemeje a las voces de las personas conlleva serios riesgos", ha admitido la compañía dirigida por Sam Altman, al tiempo que ha adelantado que están colaborando con socios internacionales, medios de comunicación y entretenimiento y profesionales de la educación para recoger sus comentarios sobre el modelo a medida que continúan desarrollándolo.
Con todo ello, OpenAI ha subrayado que, con Voice Engine, esperan iniciar un diálogo sobre "el despliegue responsable de voces sintéticas", además de cómo se han de utilizar y cómo ha de adaptarse la sociedad a estas nuevas capacidades. En base a ello, y junto con los resultados de sus pruebas a pequeña escala, la compañía ha indicado que tomará una decisión sobre si implementar esta tecnología a escala en un futuro y cómo hacerlo.