Google Research propone un sistema para generar datos sintéticos que entrena a modelos de IA multimodal (MLLMs) a seguir rutas visuales en cualquier mapa, enseñándoles razonamiento espacial preciso.
Los humanos procesamos mapas en segundos, distinguiendo pasillos de paredes. Sin embargo, las MLLMs fallan al trazar rutas válidas, como atravesar recintos en un zoo, por falta de comprensión geométrica y topológica.
El reto: Falta de anclaje en el mundo físico
Las MLLMs asocian «camino» con imágenes, pero ignoran reglas de navegación como conectividad o evitar muros. Recopilar datos reales anotados es inviable por su escala y propiedad de mapas complejos.
La solución: Pipeline escalable de datos sintéticos
Se genera en cuatro etapas automáticas con modelos Gemini:
1. Generación de mapas diversos
Un LLM crea prompts descriptivos (zoos, centros comerciales) convertidos en imágenes por un modelo texto-imagen.
2. Identificación de caminos transitables con un «Mask Critic»
Se agrupan píxeles por color; un MLLM valida máscaras como redes conectadas realistas.
3. Construcción de grafo navegable
Se transforma la máscara 2D en grafo con nodos en intersecciones y aristas en caminos.
4. Generación de rutas perfectas con un «Path Critic»
Dijkstra calcula rutas óptimas; un MLLM verifica lógica y validez.
Se crea un dataset de 2M pares, open-source con Gemini 2.5 Pro e Imagen-4.
Resultados
Fine-tuning en 23.000 rutas mejora NDTW (Gemini 2.5 Flash: 1,29 a 0,87) y tasa de éxito en MapBench.
Para empresas en logística o robótica, esta técnica ofrece una solución: genera datos sintéticos para entrenar IA en navegación indoor, optimizando rutas en almacenes o hospitales sin datos reales costosos.
Fuente: Research Google




