Cali, febrero 24 de 2026. Actualizado: martes, febrero 24, 2026 21:33
Un equipo de Google publica un método y un conjunto de datos sintético (2 millones de pares) para enseñar a modelos multimodales a respetar paredes, caminos y conexiones al seguir una ruta
MapTrace: cómo Google enseña a las IAs a “leer” mapas y trazar rutas
Google Research publicó el 17 de febrero de 2026 un proyecto llamado MapTrace que busca cubrir una carencia concreta de las actuales IAs multimodales: la dificultad para razonar sobre la geometría y la conectividad en mapas.
A diferencia de identificar objetos en una imagen, trazar un recorrido válido exige entender qué áreas son caminables, dónde están los muros y cómo se conectan los caminos entre sí.
El equipo —liderado por Artemis Panagopoulou y Mohit Goyal— propone una solución basada en datos sintéticos y la abre a la comunidad con un conjunto de 2 millones de pares pregunta-respuesta.
Por qué los modelos fallan con los mapas
Los grandes modelos de lenguaje y visión (MLLM, por sus siglas en inglés para multimodal large language models) aprenden casi todo a partir de grandes colecciones de texto e imágenes.
Eso les da buena habilidad para nombrar lo que aparece en una foto, pero no necesariamente para entender reglas del mundo físico como “no puedes caminar a través de una pared” o “un camino es una secuencia de puntos conectados”.
Reunir datos reales con trazados de rutas precisos a nivel de píxel es caro y poco práctico; además, muchos mapas complejos son propietarios. MapTrace propone saltarse esa limitación generando mapas y anotaciones de forma automática.
Cómo funciona la generación sintética
El método de MapTrace es una tubería automática en cuatro etapas que usa modelos generativos y otros modelos como “críticos” para comprobar calidad:
- Generar mapas variados: un modelo de lenguaje crea descripciones (por ejemplo, “mapa de un centro comercial con patio de comidas”) que alimentan a un modelo de texto-a-imagen (como Imagen-4) para producir mapas visuales complejos.
- Identificar áreas transitables (Mask Critic): se agrupan píxeles por color para proponer máscaras de zonas caminables. Un modelo crítico multimodal examina la imagen y cada máscara candidata para aprobar solo las que parecen redes de caminos realistas.
- Convertir la máscara en un grafo navegable: la máscara aprobada se transforma en un “pixel-graph” —nodos en intersecciones y aristas entre segmentos— que permite calcular rutas con algoritmos clásicos.
- Generar y verificar rutas (Path Critic): se toman puntos de inicio y fin al azar y se calcula la ruta más corta con Dijkstra. Un crítico final revisa que la ruta se mantenga dentro de los caminos y tenga sentido humano.
Con esta tubería MapTrace generó un dataset público en Hugging Face con 2 millones de pares pregunta-respuesta y etiquetas de ruta.
Los autores reconocen que las imágenes generadas a veces muestran errores tipográficos; sin embargo, el estudio se centra en la fidelidad de los trazados.
Resultados: aprendizaje de una habilidad concreta
Para evaluar si ese entrenamiento sintético sirve, los investigadores afinaron (fine-tune) varios MLLM con un subconjunto de 23.000 rutas extraídas del dataset. Probadores incluyeron modelos como Gemma 3 27B y Gemini 2.5 Flash. La evaluación se hizo en MapBench, un banco de mapas reales no visto durante el entrenamiento.
La métrica principal fue NDTW (normalized dynamic time warping), que compara dos secuencias de puntos permitiendo diferencias en muestreo y longitud; un valor menor indica mejor alineación con la ruta de referencia.
Resultados destacados que reporta el equipo:
- Gemini 2.5 Flash: NDTW pasó de 1.29 a 0.87 tras el entrenamiento.
- Gemma 3 27B: mejoró su NDTW de 1.29 a 1.13 y aumentó su tasa de éxito —la frecuencia con la que produce una ruta válida— en 6.4 puntos.
También evaluaron la fiabilidad de los “críticos”: el Path Critic alcanzó 76% de aciertos (8% de falsos positivos) y el Mask Critic 83% (9% de falsos positivos).
Los errores comunes incluyeron confundir fondos con caminos o pasar por alto rutas muy delgadas.
Qué puede significar para el día a día
Según los autores, enseñar a las IAs a razonar sobre conectividad y rutas abre aplicaciones prácticas: direcciones visualmente más intuitivas (desde fotos satelitales o planos), robots que naveguen interiormente solo con un mapa, y ayudas más precisas para personas con discapacidad visual que necesiten descripciones paso a paso.
El trabajo es de investigación: los datos y herramientas están disponibles para que otros investigadores los exploren.
Créditos y disponibilidad
El artículo fue realizado por Artemis Panagopoulou y Mohit Goyal, con contribuciones de varios investigadores de Google Research. El dataset y recursos relacionados están publicados (MapTrace y Hugging Face) para la comunidad.
Nota de Transparencia
Esta nota fue generada 100% con IA. La fuente fue aprobada por Diario Occidente y el contenido final fue revisado por un miembro del equipo de redacción.

🔊 El Resumen de Noticias sobre Inteligencia Artificial e Innovación Tecnológica, aquí 👇🏻

Curaduría editorial
La curaduría y revisión editorial de estas notas está a cargo de Rosa María Agudelo Ayerbe, comunicadora social y periodista, con maestría en Transformación Digital y especialización en Inteligencia Artificial.
Desde su rol como líder del equipo de innovación y transformación digital del Diario Occidente, y a través de la unidad estratégica DO Tech, realiza un seguimiento permanente a las principales novedades en tecnología e inteligencia artificial a nivel global.
Estas notas se apoyan en un agente de investigación basado en inteligencia artificial, diseñado para monitorear semanalmente avances, lanzamientos y debates clave del sector.
El contenido es posteriormente leído, analizado, contextualizado y validado editorialmente antes de su publicación.
Este proceso forma parte del mecanismo de actualización continua que permite interpretar los desarrollos tecnológicos desde una mirada periodística, crítica y comprensible para audiencias no especializadas.

