SAM 3 en ArcGIS Pro — lectura técnica de algo que ya está disponible

El foundation model de Meta para segmentación con vocabulario abierto, ya disponible en ArcGIS Pro sin empaquetar nada.

Esri publicó SAM 3 como DLPK en el Living Atlas. Es decir: el foundation model de Meta, el más reciente para segmentación con vocabulario abierto, ya está listo para usar dentro de Detect Objects Using Deep Learning. Sin que tengamos que empaquetar nada.

Eso por sí solo es noticia. Pero también vale la pena entender qué hay por dentro y qué implica para nuestros flujos.

Lo que está pasando por debajo

Un DLPK no es magia: es un .zip con tres cosas — un .emd (Esri Model Definition) que describe el modelo en JSON, los pesos serializados, y una Python Raster Function (PRF) que orquesta la inferencia.

La PRF es el punto de interés. Es el bridge entre el pipeline de píxeles de ArcGIS y el modelo. En el caso de SAM 3, esa PRF tiene que manejar algo que SAM 1 y 2 no requerían: text prompts.

El text prompt como argumento

Detect Objects Using Deep Learning soporta argumentos custom vía el parámetro arguments. La PRF de SAM 3 expone un parámetro text_prompt que se pasa como condicionante de segmentación al modelo.

Esto es lo que permite que el mismo modelo, sin reentrenamiento ni cambio de pesos, segmente "building", "tree" o "car" sobre la misma imagen — simplemente cambiando el argumento.

Es un cambio de paradigma más grande de lo que parece. Hasta SAM 2, segmentar una nueva clase implicaba un nuevo modelo, una nueva ronda de anotación, un nuevo entrenamiento. Con SAM 3, implica una palabra distinta.

Qué observamos en pruebas

Ortofotos urbanas: polígonos limpios sobre techos, copas y vehículos.
Imágenes naturales vs. satelitales: SAM 3 fue entrenado para imágenes naturales, no satelitales de baja resolución.
Velocidad: inferencia más lenta que modelos custom entrenados — el costo de la generalidad.
Idioma del prompt: prompts en inglés rinden mejor que en español — bias del modelo base, no de la herramienta.

Lo que no resuelve

No reemplaza pipelines de producción crítica.
Hay que validar por tipo de imagen.
No elimina la necesidad de criterio territorial — sigue haciendo falta saber qué preguntar y qué validar.

Por qué nos importa en LATAM

Montar pipeline propio de anotación + entrenamiento custom es inviable para la mayoría de alcaldías, ONGs y consultorías de la región. SAM 3 con text prompts no elimina ese trabajo — lo posterga. Lo vuelve opcional para muchas tareas exploratorias.

Es un avance. No más, no menos.

Cómo aportar desde la comunidad

El modelo ya está publicado. Lo que falta — y donde sí podemos aportar como GeoAI LATAM — es la capa de evaluación regional:

Benchmarks sobre ortofotos del IGAC, INEGI, IGM.
Medir el gap entre prompts en inglés y español.
Probar categorías locales (asentamientos informales, cultivos, materiales).
Documentar casos de uso aplicados.