El gigante tecnológico chino Alibaba revoluciona la producción de videos con EMO: Emote Portrait Alive - Tecnología | Razón y Saber



Miercoles 31 de Diciembre del 1969

El gigante tecnológico chino Alibaba revoluciona la producción de videos con EMO: Emote Portrait Alive

Autor: Mia Holland


Emote Portrait Alive (EMO) de Alibaba convierte fotografías en vídeos. El programa solamente necesita una fotografía para que la IA generativa desarrolle un video del retratado cantando, conversar o leer un texto


EMO: Emote Portrait Alive es una tecnología revolucionaria de inteligencia artificial (IA) desarrollada por Alibaba que permite convertir fotos fijas en retratos animados que hablan o cantan con realismo. Esta herramienta abre un mundo de posibilidades para la creación de contenido multimedia, desde vídeos de marketing personalizados hasta experiencias de entretenimiento inmersivas.

¿Cómo funciona EMO?


EMO utiliza un proceso de dos etapas para animar retratos a partir de una foto y audio.

Etapa 1: Codificación de cuadros (Frames Encoding):
Una red neuronal llamada "ReferenceNet" extrae características clave de la foto principal y de los fotogramas que representan el movimiento deseado.

Etapa 2: Proceso de difusión (Diffusion Process):
Un codificador de audio transforma el audio de entrada en una representación digital.
Se utiliza una máscara facial junto con ruido aleatorio para controlar la generación de las imágenes faciales animadas.

La "Red principal" (Backbone Network) elimina el ruido y refina la imagen. Dentro de esta red se emplean dos mecanismos de atención:

Atención de referencia (Reference-Attention): asegura que las expresiones faciales coincidan con la persona de la foto.

Atención de audio (Audio-Attention): sincroniza los movimientos de la boca y las expresiones faciales con el audio.

Por último, se utilizan módulos temporales para ajustar la velocidad de los movimientos en la secuencia animada.

Características clave de EMO


Realismo: EMO produce animaciones faciales realistas y naturales que se sincronizan perfectamente con el audio.
Flexibilidad: EMO puede generar vídeos hablados o cantados, con una amplia gama de expresiones faciales y emociones.
Facilidad de uso: Solo se necesita una foto y un archivo de audio para crear un vídeo animado con EMO.
Versatilidad: EMO se puede utilizar para una gran variedad de aplicaciones, como marketing, educación, entretenimiento y mucho más.

Aplicaciones de EMO


Marketing: Crea vídeos personalizados y atractivos para tus campañas de marketing.
Educación: Desarrolla materiales educativos interactivos y envolventes.
Entretenimiento: Produce experiencias de entretenimiento inmersivas, como videojuegos y vídeos musicales.
Redes sociales: Comparte vídeos animados únicos y llamativos en tus redes sociales.

EMO: El futuro de la animación facial
EMO representa un gran avance en la tecnología de animación facial. Su facilidad de uso, flexibilidad y realismo la convierten en una herramienta poderosa para una amplia gama de aplicaciones. EMO tiene el potencial de transformar la forma en que creamos y consumimos contenido multimedia.