Google ha dado un paso más en el avance de la inteligencia artificial con el lanzamiento de su nuevo modelo para generación de vídeo a partir de texto: Veo, impulsado por Gemini. Esta innovadora tecnología permite crear vídeos de alta calidad simplemente describiendo con palabras lo que se desea ver. Lo que antes parecía ciencia ficción, ahora empieza a formar parte del presente gracias al desarrollo acelerado de modelos multimodales.
Veo es capaz de generar vídeos en resolución 1080p con un nivel de realismo sorprendente, destacando por su fidelidad en los detalles, texturas, iluminación y movimiento natural de los sujetos u objetos representados. Además, el sistema permite aplicar estilos cinematográficos, lo cual abre la puerta a una amplia variedad de usos, desde la creación publicitaria hasta herramientas para artistas y cineastas.
Entre sus funcionalidades más destacadas está la posibilidad de editar escenas a través de texto, modificar elementos dentro del vídeo generando nuevas versiones en consonancia con las instrucciones del usuario, o incluso crear transiciones fluidas e impresionantes efectos sin necesidad de conocimientos de edición audiovisual.
Este desarrollo se produce tras años de investigación combinando visión por computadora con lenguaje natural por parte del equipo de Google DeepMind, quienes han utilizado el poder de los grandes modelos de lenguaje Gemini y redes generativas para entrenar a Veo con cantidades masivas de datos audiovisuales. Así, la IA no solo entiende lo que un usuario quiere, sino que lo representa visualmente con altos niveles de coherencia narrativa.
Aunque por el momento Veo solo está disponible para algunos creadores a través de un acceso anticipado, Google ha anunciado que lo integrará progresivamente en diversas herramientas creativas, como YouTube Shorts o Google Labs. Este avance, sin duda, marca un antes y un después en cómo interactuamos con los contenidos audiovisuales, democratizando la producción de vídeo profesional y automatizando gran parte de procesos tradicionalmente complejos.
Fuente: blog.google