¿Qué es la Inteligencia Artificial General y por qué no basta con sumar modalidades?
Muchas personas piensan que si un sistema de inteligencia artificial puede manejar varios tipos de información—como texto, imágenes y acciones—y unirlos en un solo modelo, entonces estamos muy cerca de lograr una Inteligencia Artificial General (AGI). Sin embargo, esto es un error. Un AGI auténtico no solo debe comprender y procesar símbolos o palabras, sino que también debe actuar con sentido común en el mundo físico. Tareas como reparar un auto, preparar comida o resolver problemas prácticos requieren una comprensión mucho más profunda de la realidad, que va más allá de la manipulación de palabras o imágenes.
Hoy, los modelos de lenguaje avanzados como los LLMs (grandes modelos de lenguaje) parecen muy inteligentes porque pueden predecir la siguiente palabra de un texto con gran acierto. Algunos afirman que estos modelos desarrollan un “modelo del mundo”, una representación interna de cómo funciona la realidad. Sin embargo, en la práctica, estos sistemas suelen aprender reglas y patrones lingüísticos superficiales, no una comprensión real del mundo físico. Por ejemplo, pueden aprender que ciertas palabras suelen ir juntas, pero esto no significa que realmente comprendan el significado profundo detrás de esas palabras o frases.
Esta diferencia se vuelve evidente con ejemplos simples. Los humanos, al escuchar una frase como «El refrigerador está dentro de la manzana», reconocen de inmediato que es absurda porque saben que un refrigerador es más grande que una manzana. Los modelos, en cambio, podrían validar la frase si han visto patrones similares, aunque carezcan de sentido físico o práctico. Comprender la realidad implica mucho más que identificar patrones en grandes volúmenes de texto e imágenes.
Un desafío clave es que muchos modelos actuales intentan unir diferentes tipos de información («modalidades») como si fueran bloques independientes que solo hay que pegar. Pero la inteligencia humana no funciona así. Nuestras percepciones, acciones y razonamientos están completamente entrelazados. Por ejemplo, al leer un cartel o escuchar una instrucción, los humanos integran lo visual, lo auditivo y sus experiencias previas en una sola interpretación coherente para luego actuar de manera eficaz. Los modelos multimodales actuales, en cambio, suelen compartimentalizar la información, lo que limita su flexibilidad y su verdadera comprensión.
¿Por qué la escala y la simple combinación de modalidades no nos llevarán a la AGI?
En los últimos años se ha impulsado un enfoque llamado maximalismo por escala: cuanta más información y capacidad de cómputo se le da a un modelo, mejores resultados puede obtener. Sin embargo, aunque esto ha funcionado para que los sistemas actuales imiten algunos aspectos de la inteligencia humana, no significa que hayan superado las barreras fundamentales de la comprensión y el razonamiento genuinos.
Intentar construir una AGI simplemente sumando modelos especializados para cada tipo de tarea (texto, visión, acción, etc.), pegándolos y esperando que surja una inteligencia general, es una estrategia limitada. Esta aproximación no permite que el sistema construya conceptos verdaderamente nuevos por sí mismo, como lo hacen los seres humanos.
Además, la manera en que se dividen actualmente las modalidades (texto, imagen, movilidad, etc.) no necesariamente corresponde a la forma en que las personas realmente piensan, perciben y actúan. Los humanos procesan la información de forma integrada y flexible, no por compartimentos. Hacer suposiciones rígidas sobre cómo debería segmentarse la inteligencia puede llevar a modelos que no sean capaces de generalizar cuando enfrentan nuevas situaciones.
Un ejemplo: al unir un sistema de procesamiento de texto y uno de imágenes, muchas veces la relación entre ambos es forzada. Por ejemplo, una imagen puede tener muchos niveles de interpretación; no siempre hay una correspondencia uno a uno entre las palabras que la describen y los objetos presentes en la imagen. Lo mismo ocurre en el sentido inverso: una frase puede traducirse de múltiples maneras en acciones o componentes visuales. Los modelos que sacrifican la riqueza de estas conexiones por una simple “fusión” de modalidades pierden la esencia de la inteligencia general.
Finalmente, es peligroso pensar que los sistemas actuales ya están cerca de la AGI porque logran imitar respuestas convincentes o aprobar pruebas pensadas para humanos. La verdadera inteligencia general conlleva la capacidad de aprender conceptos nuevos, adaptarse a circunstancias imprevistas y actuar en el mundo físico de manera autónoma y efectiva. Los modelos actuales, por el contrario, se entrenan sobre los resultados finales de la cultura y el conocimiento humano, no sobre los procesos que llevaron a la invención y descubrimiento de esos conceptos.
Buscar una inteligencia artificial verdaderamente general: sentido, integración y aprendizaje genuino
La promesa de la inteligencia artificial no debería ser solo imitar la capacidad humana de hablar o procesar información, sino integrar percepción, acción y razonamiento de forma unificada y flexible. Un enfoque realmente prometedor consiste en crear sistemas que aprendan e interactúen de manera directa con su entorno, como lo hace una persona al experimentar el mundo y descubrir cómo funcionan las cosas.
En vez de construir modelos separados para ver, leer o moverse, y luego intentar pegarlos, deberíamos buscar formas de que los sistemas desarrollen naturalmente estas habilidades a partir de la interacción y la experiencia. De ese modo, la distinción entre “leer”, “ver” y “actuar” dejaría de ser artificial y surgiría como consecuencia del propio proceso de aprendizaje.
Por ejemplo, un sistema capaz de percibir imágenes, comprender texto y manipular objetos debería procesar toda esa información a través de una única arquitectura integral, aprendiendo a conectar cada modalidad según la demanda de la situación, como hacen los humanos. Es probable que esto reduzca la eficiencia en el corto plazo, pero traerá una capacidad cognitiva mucho más flexible y creativa.
El desafío principal ya no es matemático: ya existen herramientas poderosas para crear modelos que puedan aproximar cualquier función. El reto es conceptual: identificar qué funciones y capacidades necesitamos, y cómo organizarlas en un todo coherente que sienta y actúe verdaderamente en el mundo.
Fuente: https://thegradient.pub/agi-is-not-multimodal/