Skip to content

La limitación de los modelos multimodales en la búsqueda de una verdadera AGI

La inteligencia general artificial requiere comprensión física del mundo

En los últimos años, los modelos de inteligencia artificial han demostrado grandes avances, llevando a muchos a pensar que la inteligencia artificial general (AGI) está cerca. Sin embargo, estos modelos logran resultados sorprendentes no porque sean soluciones reflexivas a la inteligencia, sino porque han sido escalados utilizando la tecnología existente. Nos hemos centrado tanto en la escala que hemos vuelto habitual la idea de que basta juntar una multitud de habilidades cognitivas en diferentes “modalidades”—como lenguaje e imágenes—para crear una inteligencia verdaderamente general. Esta aproximación, sin embargo, no logrará una inteligencia artificial del nivel humano, especialmente en áreas como razonamiento físico, planificación de movimiento y coordinación social.

Una AGI auténtica debe ser capaz de resolver problemas que tienen su origen en el mundo físico: reparar un auto, desatar un nudo, preparar comida. En estos casos, la inteligencia debe estar basada en modelos del mundo físico, no solamente en representaciones simbólicas del lenguaje. Hoy por hoy, algunos proponen que los modelos de lenguaje (LLMs) adquieren una comprensión del mundo solo por predecir el próximo fragmento de texto. Pero es más probable que lo que realmente aprenden son conjuntos de reglas o heurísticas desconectadas de la realidad, lo que genera una ilusión de comprensión.

Un ejemplo claro es el juego de Othello, utilizado para argumentar que los modelos pueden deducir el estado de un tablero a partir de secuencias de movimientos. No obstante, Othello es una actividad completamente simbólica, lo que facilita este tipo de deducción. En tareas del mundo real, como barrer un piso o conducir un auto, ninguna descripción en palabras es suficiente para resolver el problema: se necesita experiencia física o sensores del entorno.
Hay muchos desafíos reales que no pueden representarse ni resolverse únicamente mediante reglas simbólicas. La situación es similar a diferenciar entre entender la estructura de una oración (sintaxis), su significado literal (semántica) y lo que implica en contexto (pragmática). Por ejemplo, la frase “El refrigerador está dentro de la manzana” es correcta gramaticalmente, pero carece de sentido real. Los modelos actuales pueden aprender reglas para evitar errores semánticos como este, pero eso no significa que comprendan realmente el mundo; solo están replicando patrones extraídos de un gran corpus lingüístico.

En resumen, evaluar a los modelos de lenguaje como si su desempeño indicara inteligencia general es un error. Los humanos asociamos naturalmente el dominio del lenguaje con inteligencia en las personas, pero eso no se traslada automáticamente a las máquinas, ya que para ellas solo es resultado de procesos mecánicos de predicción de símbolos y no de comprensión genuina.

El límite de los modelos multimodales y la importancia del cuerpo

La IA moderna se ha apoyado mayormente en la estrategia de escalar modelos, agregando más datos y parámetros, en lugar de buscar eficiencia y comprensión profunda de la estructura de los problemas. Esto ha generado una discusión entre quienes defienden modelos con diseño estructurado, inspirados en cómo los humanos razonan, y quienes prefieren aumentar la cantidad de datos y el poder de cómputo.

El enfoque de los modelos multimodales —que fusionan procesamiento de texto, imagen y acción— parece prometedor en apariencia, pero presenta problemas fundamentales. Las conexiones entre diferentes modalidades son profundas y difíciles de capturar. Los grandes modelos multimodales incorporan módulos independientes que procesan cada modalidad por separado antes de combinarlas en un espacio intermedio. Sin embargo, esta combinación suele ser superficial y no logra una integración conceptual genuina.

Una de las fallas principales es que el “significado” de la información no se encuentra en los vectores abstractos que usan los modelos, sino en cómo estos vectores son decodificados específicamente por cada módulo. Esto puede provocar inconsistencias y una representación incompleta, dificultando la verdadera comprensión.

Además, la forma en que actualmente separamos modalidades (imagen, texto, comandos) proviene más de una necesidad técnica que de una división natural de las capacidades humanas. Los humanos no ven, leen ni se mueven usando sistemas independientes; nuestras habilidades se superponen y retroalimentan continuamente. Por eso, debemos buscar modelos de inteligencia artificial donde el procesamiento específico de cada modalidad surja de forma natural, como resultado de interactuar y explorar el entorno, en lugar de ser predeterminado por divisiones artificiales.

Por otra parte, los modelos actuales se entrenan copiando la estructura conceptual de los humanos, pero no desarrollan la habilidad auténtica de generar conceptos nuevos a partir de experiencias propias. Aprenden a partir del resultado final del proceso conceptual humano, no del proceso mismo. La verdadera inteligencia implica flexibilidad y autonomía para crear y entender ideas nuevas a partir de vivencias propias, no solo repetir patrones aprendidos.

Conclusiones y el camino hacia una AGI genuina

El supuesto de que podemos armar una AGI simplemente sumando modelos avanzados en diferentes dominios es, en realidad, muy limitado. La inteligencia verdadera no se compone solo de piezas especializadas, sino de la integración profunda de todas las habilidades cognitivas.

Para avanzar realmente hacia una inteligencia artificial general, necesitamos una aproximación donde el aprendizaje se base en la interacción encarnada con el entorno físico. Esto significa trabajar con sistemas que procesen imágenes, texto y acciones usando un solo sistema perceptivo y generen diferentes resultados —sea escribir, manipular objetos o navegar espacios— usando las mismas estructuras cognitivas.

El beneficio de este enfoque es que, aunque pueda perder eficiencia en tareas específicas, gana en flexibilidad, adaptabilidad y capacidad de formar conceptos realmente nuevos. Ya se han resuelto los desafíos matemáticos fundamentales para crear funciones universales de aproximación; ahora el reto es decidir qué funciones y estructuras necesitamos combinar para lograr una inteligencia completa. Este es un problema de concepto, no solo de técnica.


Fuente: https://thegradient.pub/agi-is-not-multimodal/

Related Post

El impacto real de la inteligencia artificial

Desarrollo de la inteligencia artificial: avances y desafíos En los últimos años, la inteligencia artificial (IA) ha experimentado un notable avance en diferentes áreas. Gracias a mejoras en el procesamiento

Cómo Evaluar Modelos de Lenguaje Confiablemente

¿Cómo evaluar la calidad real de los modelos de lenguaje? El crecimiento acelerado de los modelos de lenguaje de gran escala ha vuelto esencial saber cómo evaluarlos correctamente. Un marco

Model Context Protocol: El Nuevo Estándar para IA

¿Qué es el Model Context Protocol y Por Qué es Importante? El Model Context Protocol (MCP) ha surgido como una herramienta clave para las empresas que desean aprovechar la inteligencia

Aún no hay comentarios, ¡añada su voz abajo!


Añadir un comentario

Powering over 1.5 million websites worldwide

Our set he for firmament morning sixth subdue darkness creeping gathered divide our let god moving.

Or

+10 378 267 3782

Contanos tu necesidad

Completá el formulario y nos pondremos en contacto a la brevededad para ayudarte a dar el siguiente paso.