¿Por qué la inteligencia general artificial necesita entender el mundo físico?
Muchos creen que los avances recientes en inteligencia artificial (IA) indican que la inteligencia artificial general (AGI) está cerca. Sin embargo, estos modelos actuales no se construyeron con una idea profunda de inteligencia humana, sino que se desarrollaron porque escalaron efectivamente usando hardware disponible. Este enfoque, basado esencialmente en el “tamaño”, ha llevado a pensar que solo ampliando los modelos y agregando diferentes “modalidades” (por ejemplo, texto, imágenes, acciones) podremos alcanzar una inteligencia verdaderamente general. Pero esta idea está equivocada.
La verdadera AGI no consiste en simplemente unir modelos especializados. Una AGI real debe poder resolver desafíos del mundo físico, como reparar un auto, cocinar o coordinar acciones sociales. Estas tareas requieren algo más que manipular símbolos o procesar datos: necesitan una comprensión física del entorno, algo que los actuales modelos de lenguaje y visión no poseen.
Algunos sostienen que los modelos de lenguaje ya aprenden una representación del mundo a través de predecir el próximo fragmento de texto. Sin embargo, lo que realmente hacen es usar reglas abstractas para predecir palabras, sin entender la “realidad” detrás de ellas. Es como saber decir una frase sin comprender lo que significa en el mundo real. Por ejemplo, una computadora puede armar la oración “la heladera está dentro de la manzana” porque es sintácticamente correcta, pero un humano sabe que esto no tiene sentido porque comprende el tamaño relativo de ambos objetos.
Esto revela una diferencia clave: los humanos asociamos palabras con experiencias del mundo físico, y nuestro sentido común tiene bases en la percepción y la interacción. Los modelos actuales simulan lenguaje, pero no tienen ese lazo con el mundo real. Muy comúnmente, su “comprensión” se limita a reproducir patrones y secuencias bien entrenados, sin alcanzar un entendimiento genuino de los conceptos.
Limitaciones del enfoque multimodal y el desafío de la integración
El enfoque predominante en la IA ha sido “maximizar la escala”, entrenando modelos cada vez más grandes usando textos, imágenes y otros datos. Esto ha dado resultados notables en tareas específicas, como modelos de lenguaje que parecen conversar como humanos o modelos de visión capaces de describir imágenes. Sin embargo, cuando intentamos unir estos modelos especializados en una sola entidad que abarque varias modalidades, surgen varios problemas:
- División poco natural de capacidades: En los seres humanos, leer, ver, hablar y movernos son funciones que se integran de manera natural, basadas en estructuras cognitivas que se superponen. Los sistemas de IA, en cambio, crean módulos por separado y luego los “pegan”, lo que puede dificultar la comprensión profunda y la adaptación a situaciones nuevas.
- Poca coherencia conceptual: Los actuales modelos meramente “empujan” los datos de distintas modalidades (textos, imágenes, acciones) a un espacio vectorial común. Pero la “significado” real de un concepto no reside en ese vector, sino en lo que cada decodificador especializado puede hacer con él. Esto genera interpretaciones fragmentadas y poco consistentes entre modalidades.
- Falta de aprendizaje creativo: Las IA actuales aprenden a copiar estructuras conceptuales ya formadas por los seres humanos, no a inventar conceptos nuevos a partir de su propia experiencia. La verdadera inteligencia general requiere formar y combinar conceptos propios para adaptarse a situaciones inéditas, capacidad que todavía no surge únicamente con más datos o mayor escala.
En resumen, la apuesta por “sumar modelos” desconoce que la flexibilidad y profundidad de la inteligencia no se obtiene simplemente por agregar modos de entrada y salida. Se necesita repensar cómo surgen y se integran esas capacidades.
Una nueva propuesta: inteligencia desde el cuerpo y la interacción
Si queremos avanzar hacia una inteligencia general artificial auténtica, debemos cambiar el rumbo. Más allá de agrupar modelos independientes, es fundamental diseñar IA cuya comprensión del mundo surja de la interacción directa y del cuerpo. En vez de tratar el lenguaje, la visión o la acción como canales aparte, se debe permitir que la IA los adopte de manera integrada, como consecuencia de convivir y actuar en un entorno.
Esto implica procesar imágenes, textos y videos desde la misma estructura perceptual, y generar acciones que vayan desde la escritura hasta la manipulación de objetos, usando un mismo sistema de decisión. Si bien esto puede ser menos eficiente y más costoso que el enfoque actual, promete una capacidad cognitiva mucho más flexible, cercana a la humana.
El gran avance matemático —la posibilidad de construir aproximadores universales de funciones— ya está logrado. Ahora el verdadero reto es conceptual: decidir qué funciones y capacidades forman la inteligencia completa, y cómo deben organizarse e interactuar.