La AGI Necesita Más que Multimodalidad

¿Puede la Inteligencia Artificial Ser Realmente General?

Muchos creen que la Inteligencia Artificial General (AGI) está cerca porque los modelos actuales parecen captar la esencia de la inteligencia humana. Sin embargo, estos sistemas han evolucionado por su capacidad para escalar, no por entender ni razonar sobre el mundo físico.

El enfoque actual apuesta por juntar distintos modos de procesamiento –como lenguaje y visión– y suponer que el ensamblaje dará lugar a una inteligencia completa. La realidad es diferente: los modelos actuales no pueden realizar razonamientos físicos complejos como planificar movimientos o coordinarse socialmente. No basta con unir lenguajes, imágenes y acciones; lo esencial es tratar la interacción con el mundo físico como el centro de la inteligencia.

Para que la AGI sea verdaderamente “general”, debe resolver problemas en todos los ámbitos, incluidos aquellos surgidos en la vida real, como reparar un auto o preparar una comida. Esto requiere que la inteligencia esté ligada al entorno físico, y no solo a representaciones simbólicas o simulaciones de lenguaje. Los modelos actuales, a pesar de sus impresionantes avances, no simulan el mundo físico internamente; aprenden patrones de símbolos, pero no la realidad detrás de ellos.

Los Límites de los Modelos de Lenguaje y el Rol de los Modos Multimodales

Muchos argumentan que los modelos de lenguaje aprenden un modelo del mundo simplemente al predecir palabras. Sin embargo, la evidencia muestra que logran buenos resultados aplicando reglas abstractas sin entender el contexto físico. Por ejemplo, un modelo puede predecir los movimientos en un juego basándose en secuencias, pero no puede manejar tareas fuera de un entorno simbólico.

La inteligencia humana combina tres dimensiones del lenguaje: la estructura (sintaxis), el significado (semántica), y el contexto de uso (pragmática). Los modelos actuales pueden imitar la estructura, pero fallan al comprender significados reales o aplicar conceptos en el mundo físico. Una oración como “El refrigerador está dentro de la manzana” no presenta errores gramaticales, pero todos entendemos que es absurda gracias a nuestro conocimiento del mundo, no por la sintaxis.

Asumir que el éxito en tareas lingüísticas implica verdadera inteligencia es un error. Estos modelos pueden aparentar inteligencia por sus respuestas fluidas, pero la base de su rendimiento es estadística, no comprensión.

El Futuro: Inteligencia Embebida Más Allá de la Suma de Partes

El progreso reciente en inteligencia artificial se sostuvo principalmente en la capacidad de escalar modelos, no en la eficiencia o en entender cómo organizar diferentes formas de percepción y acción. Mientras que algunos creen que “más datos y más modos” llevarán a la AGI, esto fragmenta la inteligencia en partes artificialmente separadas.

Unir modalidades, como visión y lenguaje, no integra verdaderamente la comprensión. Actualmente, los sistemas convierten textos e imágenes en representaciones numéricas comunes, pero el significado emerge realmente cuando diferentes partes del sistema procesan estos datos de maneras muy específicas. Además, nuestras divisiones de modalidades pueden ser arbitrarias: para un agente verdaderamente inteligente, leer y ver deberían ser aspectos de una única forma de percibir.

Los avances significativos en inteligencia artificial han surgido cuando los humanos diseñaron arquitecturas inspiradas en la realidad, como redes convolucionales para imágenes o mecanismos de “atención” para el lenguaje. La clave no es ignorar la estructura, sino pensar profundamente en cómo se integra la inteligencia basada en la experiencia, la percepción y la acción.

En conclusión: el camino hacia la AGI no se encuentra simplemente conectando muchas partes especializadas, sino cultivando una inteligencia capaz de crear conceptos nuevos y actuar con flexibilidad a través de su contacto con el mundo físico. El gran reto ya no es matemático, sino conceptual: cómo organizar las habilidades aprendidas en una sola mente coherente y capaz de adaptarse creativamente.

Fuente: https://thegradient.pub/agi-is-not-multimodal/