Por qué la AGI Real No Es Multimodal

¿Por qué la Inteligencia Artificial General no puede ser solo multimodal?

En los últimos tiempos, los modelos de inteligencia artificial han avanzado sorprendentemente, al punto que algunos creen que estamos cerca de alcanzar la Inteligencia Artificial General (AGI). Estos modelos trabajan combinando múltiples «modalidades» como texto, imágenes y acciones, lo que sugiere que basta juntar todas estas piezas para construir algo verdaderamente inteligente. Sin embargo, este enfoque tiene serias limitaciones.

Una verdadera inteligencia general debe poder resolver problemas vinculados con el mundo físico, como reparar un auto o preparar comida, cosas que requieren comprender la realidad más allá de simples símbolos. Los modelos actuales aprenden a predecir la próxima palabra en un texto, pero no desarrollan un entendimiento genuino del mundo, sino que emplean atajos y reglas para imitar nuestras formas de comunicación.Esto da una ilusión de comprensión, pero lo cierto es que los sistemas sólo manipulan símbolos sin conexión real con nuestras vivencias físicas.

Por ejemplo, los humanos reconocemos absurdos como «el refrigerador está dentro de la manzana» porque sabemos que un refrigerador es más grande que una manzana. Los modelos, en cambio, podrían aprender miles de reglas específicas para evitar ese error sin realmente captar el sentido del mundo. La clave de la inteligencia humana está en cómo fusionamos sintaxis (estructura de frases), semántica (significado) y pragmática (contexto), capacidades que hasta ahora las IA artificiales solo pueden imitar superficialmente.

Los límites de escalar y combinar modalidades

El éxito de los modelos actuales no se basa en cómo entienden el mundo, sino en su capacidad de escalar, procesando grandes volúmenes de datos. Este método es eficiente para tareas específicas pero no para generar un entendimiento general. Pensar que solo hace falta entrenar modelos cada vez más grandes y pegar juntos módulos de visión, lenguaje y acción es, en realidad, poco realista.

La idea de unir diferentes modalidades, como visión y lenguaje, suele implicar juntar representaciones distintas en un mismo espacio, esperando que se genere sentido común entre ellas. Sin embargo, la información relevante se dispersa y depende de decodificadores específicos para cada tipo de dato. Así, la «comprensión» se vuelve superficial y fragmentada.

Además, las divisiones tradicionales que establecemos (como imágenes versus texto) no se corresponden necesariamente con la forma en que un agente realmente general debería percibir y actuar en el mundo. Nuestras propias capacidades de ver, leer y movernos surgen de procesos cognitivos profundamente entrelazados. Si seguimos diseñando inteligencias desde compartimentos estancos, seguimos limitando lo que pueden hacer.

Una alternativa sería procesar todos los datos, sin importar su fuente, de forma unificada, dejando que las especializaciones emerjan naturalmente mediante la interacción y la experimentación. En vez de sumar inteligencias estrechas, la clave es crear sistemas que aprendan de la experiencia para generar sus propios conceptos y modos de interacción, sanando la brecha entre el conocimiento humano y el artificial.

Conclusión

Esperar que la escala y la combinación de módulos estrechos produzca una AGI es ingenuo. Si queremos inteligencias realmente flexibles, debemos repensar la forma en que se integran las modalidades, inspirándonos en cómo los humanos resuelven problemas y conectan lo que ven, sienten y entienden. También podemos volver a los enfoques basados en la interacción corporal y el aprendizaje, donde las distinciones entre imágenes, texto y acción surgen como resultado del proceso intelectual, no como un punto de partida impuesto.

En resumen, ya dominamos la tecnología que permite a estas IAs aproximar cualquier función matemática. El gran reto ahora es descubrir qué funciones necesitamos y cómo organizarlas para formar una inteligencia verdaderamente general y cohesionada. Este desafío es conceptual, no solo técnico.

fuente: https://thegradient.pub/agi-is-not-multimodal/