Así funciona la IA en vídeo en tiempo real de YouTube

YouTube ha desarrollado una tecnología de inteligencia artificial generativa en tiempo real que funciona directamente en dispositivos móviles, ofreciendo efectos visuales en la cámara mientras los creadores graban en Shorts. Esta innovación se basa en un proceso llamado «knowledge distillation» que convierte un modelo grande y complejo, llamado «teacher», en un modelo pequeño, rápido y eficiente, el «student», capaz de ejecutarse en el móvil. Así, se pueden aplicar efectos como estilos de dibujo animado o expresiones faciales sin retrasos perceptibles.

El proceso comienza con la creación de una base de datos diversa y bien curada de imágenes faciales para entrenar los modelos, asegurando que los efectos funcionen bien en distintos tipos de rostros. El modelo «teacher» genera imágenes transformadas que se usan para entrenar al «student». Este último usa una arquitectura optimizada (UNet con MobileNet) para máxima eficiencia en móviles.

Un gran reto es preservar la identidad del usuario, evitando que los efectos alteren demasiado sus rasgos. Para ello, se emplea una técnica llamada «pivotal tuning inversion» que mejora la fidelidad del rostro editado. Finalmente, el modelo funciona integrado en la aplicación gracias a MediaPipe, que detecta y recorta las caras, procesa el efecto y lo superpone en tiempo real, garantizando una tasa mínima de 30 fotogramas por segundo y una latencia muy baja.

Esta tecnología ya está presente en YouTube Shorts, ampliando las posibilidades creativas de los creadores con efectos únicos y accesibles desde cualquier móvil.

Para una empresa, esta tecnología puede revolucionar la creación de contenido audiovisual en tiempo real, permitiendo mejoras personalizadas y efectos interactivos sin necesidad de equipos costosos ni postproducción. Implementar IA generativa móvil puede abrir nuevas vías para marketing, entretenimiento y comunicación visual innovadora.

Fuente: Research Google