©
Google Research propone un sistema para generar datos sintéticos que entrena a modelos de IA multimodal (MLLMs) a seguir rutas visuales en cualquier mapa, enseñándoles razonamiento espacial preciso.
Los humanos procesamos mapas en segundos, distinguiendo pasillos de paredes. Sin embargo, las MLLMs fallan al trazar rutas válidas, como atravesar recintos en un zoo, por falta de comprensión geométrica y topológica.
