Meta acaba de presentar V‑JEPA 2 (Visual Joint Embedding Predictive Architecture), un modelo de “world model” entrenado principalmente con vídeo para dotar a los robots y sistemas de IA de una comprensión intuitiva del mundo físico.
Con 1 200 millones de parámetros, este modelo mejora significativamente su capacidad de razonamiento visual, predicción de movimientos y planificación, permitiendo que agentes automatizados “piensen antes de actuar”.
V‑JEPA 2 aprende de vídeo sin etiquetas humanas (más de un millón de horas) mediante un entrenamiento auto‑supervisado, y se perfecciona después con un pequeño conjunto de datos de robots (62 h) para afinar su capacidad de acción condicionada. En pruebas reales, robots equipados con V‑JEPA 2 fueron capaces de planificar y ejecutar tareas de recogida y colocación de objetos nuevos sin entrenamiento específico, con tasas de éxito entre el 65 % y 80 %.
Además, Meta ha abierto tres nuevos benchmarks (IntPhys 2, MVPBench y CausalVQA) para medir el razonamiento físico desde vídeo, fomentando el avance colaborativo en la comunidad.
Empresas dedicadas a la robótica, logística o movilidad pueden encontrar en V‑JEPA 2 una herramienta potente para dotar a sus máquinas de sentido común físico sin necesidad de recopilar grandes cantidades de datos etiquetados. Para startups o equipos de investigación, adoptar este modelo de código abierto puede acelerar desarrollos, mejorar la seguridad operativa y reducir costes de entrenamiento. Incluso, podría servir como base para integrar planificación visual en asistentes robotizados, vehículos autónomos o fabricación inteligente.
Fuente: Meta AI Blog




