El Desafío de la Inteligencia Artificial General: Un Entendimiento Físico del Mundo

¿Por Qué la Inteligencia Artificial General Necesita un Entendimiento Físico del Mundo?

La inteligencia artificial general (AGI) no solo debe comprender palabras e imágenes, sino que también debe entender el mundo físico. Muchas tareas humanas, como reparar un automóvil o cocinar, requieren una comprensión profunda de cómo funcionan los objetos reales, no solo de describirlos en lenguaje o imágenes. Los modelos de lenguaje actuales, como los grandes modelos de lenguaje (LLM), solo predicen la siguiente palabra basándose en patrones de texto, pero no ven ni experimentan el mundo. Estos modelos suelen aprender reglas para manipular símbolos más que realmente comprender lo que significan.

Por ejemplo, un LLM puede organizar frases correctamente según la gramática (la síntaxis), pero puede escribir expresiones como “La heladera está dentro de la manzana”, que carece de sentido en la realidad física. Los humanos detectan el error gracias a su experiencia del mundo real: sabemos que una heladera no cabe en una manzana. Sin contacto directo con la realidad, un modelo de IA podría solo evitar combinaciones sin sentido después de aprenderlas de millones de ejemplos, pero no “entender” la razón detrás de la imposibilidad física.

La verdadera inteligencia incluye no solo la habilidad de formar frases o describir imágenes, sino de razonar sobre el mundo físico y actuar en él. Las IA actuales pueden sobresalir en tareas lingüísticas por pura imitación de patrones humanos, pero no pueden transferir esa aparente inteligencia a la acción o el razonamiento práctico fuera del mundo digital de palabras e imágenes.

Escalabilidad, Modalidades y el Error de la Fragmentación

Muchos creen que, al hacer modelos cada vez más grandes y combinar capacidades de texto, imagen y acción en una sola red (“multimodal”), lograremos la inteligencia artificial general. Sin embargo, esta estrategia tiene límites claros. Juntar experticias en lenguaje, imágenes y acciones dentro de un solo sistema no garantiza una inteligencia general como la humana.

Uno de los principales problemas es que las conexiones naturales entre los sentidos humanos –ver, hablar, movernos– se pierden cuando entrenamos sistemas separados para cada “modalidad” (por ejemplo, visión y texto), y luego intentamos unirlos artificialmente. En la práctica, los modelos multimodales actuales codifican imágenes, texto y acciones en espacios separados y solo los combinan superficialmente, sin crear un entendimiento genuino y unificado.

Además, los humanos no dividen sus sentidos de esa forma; nuestras capacidades cognitivas se superponen y funcionan juntas todo el tiempo. Hacer suposiciones estructurales rígidas sobre cómo se debe procesar cada tipo de dato puede bloquear el surgimiento de inteligencias más profundas y flexibles. Deberíamos buscar representaciones más unificadas, donde la percepción y acción se procesen como parte de un todo, y donde las distinciones entre categorías como “imagen” y “texto” puedan surgir naturalmente. Por ejemplo, una IA verdaderamente general no debería hacer una gran diferencia, a nivel de arquitectura, entre leer una señal de tráfico y leer un libro.

Otro problema fundamental es que los grandes modelos están entrenados para imitar las creaciones conceptuales humanas finales —nuestro lenguaje, imágenes y cultura— en lugar de aprender el proceso flexible y creativo que permitió a los humanos formar esos conceptos. La habilidad para crear ideas nuevas a partir de la experiencia, generalizar y adaptarse a situaciones nunca vistas es esencial en la inteligencia humana, algo que aún escapa a las IA basadas únicamente en el escalamiento de datos y parámetros.

Hacia una Inteligencia Artificial Verdaderamente General: Embodimiento y Procesos Unificados

El enfoque actual de “apilar” modalidades —como lenguaje, visión y acciones— sobre un solo sistema ha producido modelos “generalistas”, pero superficiales. Para avanzar hacia una AGI real, debemos cambiar la forma en que concebimos la arquitectura de estos sistemas. La clave está en dar prioridad a la interacción con el mundo y al aprendizaje a través de experiencia física, en lugar de encerrar el conocimiento solo en el procesamiento de texto o imágenes.

En lugar de reforzar divisiones artificiales, una estrategia prometedora es entrenar sistemas capaces de percibir imágenes, texto y video usando un mismo mecanismo, y generar acciones de todo tipo —escribir, mover objetos, navegar ambientes— a través de otro mecanismo unificado. Aunque este enfoque puede ser menos eficiente para tareas específicas, gana en versatilidad y capacidad de adaptación. Lo más valioso es desarrollar una flexibilidad cognitiva que permita formar y modificar conceptos según nuevas experiencias, algo esencial para la inteligencia general humana.

El avance más difícil desde el punto de vista teórico —descubrir que las redes neuronales pueden, en principio, aproximar cualquier función— ya ha sido superado. El desafío real ahora es conceptual: determinar qué funciones cognitivas son necesarias y cómo deben organizarse para formar una mente coherente y flexible.


Fuente: https://thegradient.pub/agi-is-not-multimodal/