Inteligencia artificial general: ¿Por qué no basta con modelos multimodales?
En los últimos años, los modelos de inteligencia artificial han mostrado avances sorprendentes, dando lugar a la creencia de que estamos cerca de alcanzar una Inteligencia Artificial General (AGI). Sin embargo, estos modelos, entrenados principalmente para reconocer patrones y predecir secuencias de texto o imágenes, no necesariamente alcanzan una comprensión genuina del mundo. Su capacidad se debe más a la escala y la cantidad de datos procesados que a una solución profunda sobre cómo funciona la inteligencia.
Actualmente, la estrategia más popular para avanzar hacia la AGI consiste en unir sistemas que dominan diferentes modalidades (texto, imágenes, acciones físicas) y combinarlos para simular una inteligencia general. Sin embargo, existen dificultades importantes en este enfoque, que impedirán que se alcance una verdadera inteligencia similar a la humana. Las principales limitaciones son:
- Falta de comprensión física del mundo: Muchos problemas reales, como reparar un objeto o preparar alimentos, requieren una experiencia situada, más allá de la manipulación simbólica de datos.
- Conocimiento superficial: Los modelos actuales aprenden a predecir datos siguiendo reglas abstractas sobre secuencias, sin generar una comprensión genuina de la realidad que representan esos datos. Suelen memorizar patrones y desarrollar “aboliciones inteligentes” que no equivalen a una verdadera semántica o comprensión.
- Limitaciones pragmáticas: Mientras los humanos interpretan el contexto físico y social para entender el lenguaje, los modelos carecen de este tipo de razonamiento, lo que afecta su capacidad para responder adecuadamente en situaciones cotidianas.
Un ejemplo revelador es el resultado de modelos capaces de predecir el desarrollo de un juego de mesa a partir de secuencias de movimientos. Si bien logran reconstruir el estado del juego, en tareas vinculadas al mundo físico no pueden inferir el estado real de un entorno mediante descripciones textuales, ya que esto exige una comprensión concreta del espacio y las relaciones físicas, algo que los modelos actuales no experimentan.
La aparente habilidad “humana” de los modelos lingüísticos para comprender no surge de un modelo interno del mundo, sino de una sofisticada habilidad para manipular símbolos y patrones. Así, pueden generar frases correctas gramaticalmente, pero con sentido nulo, o responder preguntas de forma semánticamente incorrecta. La comprensión humana, en cambio, nace de la interacción física y social constante con el entorno, una característica que los modelos actuales no poseen.
Por tanto, confundir éxito en lenguaje con inteligencia general es un error. Los humanos interpretan el lenguaje gracias a múltiples facultades cognitivas integradas: sintaxis, semántica y pragmática. Los sistemas actuales tienden a imitar sólo la estructura superficial (la sintaxis), sin alcanzar profundidad conceptual.
El desafío de la escala y el mito de unir modelos multimodales
Durante años, los avances en inteligencia artificial han sido impulsados por el aumento de la escala (más datos, más cómputo) antes que por una mayor eficiencia o comprensión profunda. Hay una tendencia a pensar que, escalando los actuales modelos, aparecerá espontáneamente la inteligencia general. Sin embargo, este método tiene límites claros.
Intentar sumar modelos expertos en dominios limitados (por ejemplo, modelos expertos en texto con modelos expertos en imágenes) no produce una inteligencia sintética coherente comparable a la humana. Existen obstáculos fundamentales:
- Separación artificial de modalidades: En los humanos, leer, ver, hablar y actuar están mediados por estructuras cognitivas que se superponen. Es artificial e ineficiente diseñar sistemas donde cada modalidad (por ejemplo, imagen o texto) tenga su propio procesador independiente.
- Interconexión de los conceptos: La integración de sentidos y acciones requiere unir información a diferentes niveles de abstracción, algo mucho más complejo que “alinear” vectores o unir módulos entrenados por separado.
- Falta de flexibilidad conceptual: Los modelos actuales entrenan para replicar los conceptos ya desarrollados y refinados por la humanidad, en lugar de desarrollar la capacidad de generar nuevos conceptos a partir de la experiencia. La habilidad humana para inventar ideas y generalizar a partir de pocos ejemplos no se replica por escalar modelos existentes.
Además, optimizar modelos para copiar el resultado final de la inteligencia humana (sus conceptos ya formados) ignora la cuestión fundamental de cómo estos conceptos surgen y evolucionan. Los sistemas “multimodales” actuales no favorecen el desarrollo de una inteligencia capaz de adaptarse y responder a situaciones novedosas.
Por último, el intento de unir modelos entrenados en distintos dominios resulta en una “fragmentación” conceptual: cada modalidad desarrolla su propia idea de significado, lo que impide crear una verdadera comprensión conjunta del mundo. El significado no reside en la unión superficial de representaciones, sino en la capacidad de compartir y reformular información de manera coherente en cualquier situación.
El camino hacia una inteligencia artificial general verdaderamente flexible
La promesa de construir una AGI uniendo modelos de distintas modalidades (texto, imagen, acción) es, por ahora, una ilusión. Para alcanzar una inteligencia completa y flexible, es necesario replantear la interacción entre los sistemas de percepción y acción.
Una alternativa es tratar las modalidades no como entidades separadas, sino como manifestaciones emergentes de un proceso cognitivo principal, acompañado de interacción y aprendizaje con el entorno. Esto implica diseñar sistemas donde la percepción (ya sea imágenes, texto o video) se procese de forma uniforme, y donde las acciones resultantes (como escribir, manipular objetos o navegar) se produzcan desde un mecanismo común.
Si bien esto puede reducir la eficiencia en tareas especializadas, el resultado sería una capacidad cognitiva más flexible y adaptable, cercana a la forma en la que los humanos crecemos, aprendemos y resolvemos problemas en un mundo físico.
En síntesis, el reto no es sólo matemático (ya contamos con poderosas técnicas de aproximación de funciones) sino principalmente conceptual: identificar las funciones y procesos que necesitamos y cómo disponerlos de forma que produzcan una inteligencia general y coherente.