La importancia del mundo físico y los límites de los modelos de lenguaje
Los avances recientes en inteligencia artificial generativa han llevado a muchos a pensar que la inteligencia artificial general (AGI, por sus siglas en inglés) está cerca. Sin embargo, aunque estos modelos parecen imitar la inteligencia humana, su funcionamiento se basa principalmente en escalar algoritmos más que en encontrar soluciones reflexivas a los problemas de la inteligencia. Esto ha generado la creencia errónea de que simplemente sumando capacidades (por ejemplo, procesamiento de texto, imágenes y otras modalidades) lograremos una verdadera inteligencia general. Sin embargo, para alcanzar una AGI real, se necesita algo más que conectar diferentes módulos: es indispensable que la inteligencia esté situada e interactúe con el entorno físico, ya que muchos problemas no pueden traducirse simplemente a manipulación de símbolos o palabras.
Por ejemplo, reparar un auto, desatar un nudo o cocinar un plato requieren comprensión y acción en el mundo real, algo muy distinto de solo procesar texto. Se ha sugerido que los modelos de lenguaje como los LLM “aprenden” modelos del mundo prediciendo una palabra tras otra, pero en la práctica, lo que hacen es aprender reglas y atajos para predecir texto, sin llegar a una comprensión profunda de la realidad física. Los casos en que estos modelos parecen mostrar inteligencia surgen porque repiten patrones presentes en grandes volúmenes de datos, no porque estén simulando el mundo real.
El juego Othello es un buen ejemplo: un modelo entrenado con movimientos legales del juego puede predecir el estado del tablero, pero Othello es un universo simbólico con reglas claras, no un reflejo del mundo físico complejo. Por el contrario, tareas cotidianas de la vida real requieren conocimiento y experiencia en un entorno tridimensional y dinámico, lejos de lo que puede ofrecer un modelo entrenado solo con texto. Muchos problemas no pueden ser representados ni resueltos simplemente mediante sistemas de símbolos y manipulación textual.
Además, se ha demostrado que los modelos de lenguaje pueden obtener buenos resultados en predicciones de secuencias de texto sin realmente aprender modelos del mundo: solo reconocen patrones superficiales, sin asimilar las causas y consecuencias que existen en la realidad. Por lo tanto, el hecho de que estos modelos respondan correctamente preguntas de cultura general no significa que comprendan el mundo, sino que han aprendido a repetir lo que han visto en los datos. Su “entendimiento” es fundamentalmente una cuestión de memorización y reproducción de reglas abstractas de sintaxis, no de significado o contexto real.
La lingüística distingue tres niveles: la sintaxis (cómo se estructuran las frases), la semántica (el significado literal) y la pragmática (el sentido según el contexto y la interacción). Los modelos de lenguaje actuales sobresalen en sintaxis, pero fallan en semántica profunda y pragmática, ya que nunca han tenido experiencias físicas. Por ejemplo, pueden construir frases correctas como “La heladera está en la manzana”, pero no detectan el error de significado porque no poseen conocimiento real sobre los tamaños y relaciones de los objetos. Lo que para los humanos es obvio, para un modelo de lenguaje es solo una regla aprendida sobre frases, no sobre objetos reales.
El desafío de unir modalidades y los límites del enfoque multimodal
El enfoque de “sumar” diferentes capacidades especializadas en un solo sistema para intentar construir inteligencia general se llama estrategia multimodal. Esta propone ensamblar módulos de texto, imágenes, acciones, etc., bajo la creencia de que su integración resultará en una inteligencia equiparable a la humana. Sin embargo, este método enfrenta varias dificultades fundamentales.
- Separación artificial: En la práctica, los modelos entrenan módulos específicos para cada tipo de dato y luego intentan unirlos, pero las relaciones profundas entre las modalidades quedan rotas y resulta difícil para el sistema formar conceptos complejos que abarquen varias formas de percepción.
- Latentes inconsistentes: Aunque los datos de texto, imagen y acción se codifican en un mismo “espacio latente”, el significado real no está en esa representación, sino en cómo cada módulo descifra esa información para producir resultados. Sin una integración genuina, el concepto no es coherente entre las modalidades.
- Débil analogía con el cerebro humano: La forma en que los humanos leen, ven, hablan y se mueven es el resultado de procesos cognitivos entrelazados, no de módulos aislados. Presuponer que la visión y el lenguaje, por ejemplo, deben ser procesados por partes completamente separadas puede trabar el desarrollo de una inteligencia más flexible y poderosa.
- Limitación creativa: Este enfoque entrena modelos para copiar y recombinar el conocimiento y los conceptos generados por los humanos a lo largo de la historia en el corpus de datos. Pero la inventiva o la creación de nuevos conceptos genuinos a partir de la experiencia —una habilidad esencial de la inteligencia humana— queda en segundo plano.
El éxito de los modelos de lenguaje y visión se debe en buena medida a la disponibilidad de grandes cantidades de datos y el poder de cómputo, no a una comprensión real ni a una integración natural entre capacidades. Para avanzar hacia una verdadera AGI, se necesita repensar la arquitectura y hacer que el procesamiento de distintas modalidades (texto, imagen, acción) surja de manera orgánica en lugar de partir de módulos predefinidos. Por ejemplo, procesar textos, gráficos y videos mediante un mismo sistema perceptivo, o generar texto, manipular objetos y desplazarse usando un mismo sistema de acción, permitiría fusionar de manera más natural y efectiva las distintas capacidades cognitivas.
Hacia una inteligencia verdaderamente general: repensar la estructura de la inteligencia
La creencia de que podemos construir una AGI ensamblando capacidades especializadas está destinada a fallar; nunca se logrará una inteligencia de alcance y flexibilidad verdaderamente humana solo con “coser” módulos expertos.
Es necesario elegir conscientemente cómo unir las distintas capacidades, inspirándonos en la intuición humana y la investigación clásica. Alternativamente, se puede plantear el aprendizaje como un proceso interactivo y encarnado, en el que el agente explora, percibe y actúa en ambientes físicos o virtuales, y a partir de esa interacción nacen habilidades complejas que integran de manera natural las distintas formas de percepción y acción.
Si bien este planteo puede ser menos eficiente comparado con el enfoque especializado y modular, ganaremos en capacidad cognitiva flexible. En otras palabras, el gran desafío de la AGI hoy no es matemático, sino conceptual: tenemos la capacidad de aproximar cualquier función o comportamiento, pero debemos definir qué habilidades y cómo deben organizarse para dar lugar a una inteligencia completa y coherente.