¿Puede la Inteligencia Artificial General ser simplemente multimodal?
Muchos creen que los avances recientes en inteligencia artificial nos acercan a una verdadera inteligencia artificial general (AGI). Sin embargo, esto es un espejismo: los modelos actuales aprenden a partir de escalas masivas de datos, pero su «entendimiento» del mundo es superficial. Los sistemas como los modelos de lenguaje solo predicen la siguiente palabra o símbolo basados en enormes cantidades de texto, pero eso no significa que comprendan la realidad física. Por ejemplo, un modelo puede entender las reglas de un juego de mesa usando solo símbolos, pero no puede ejecutar tareas en el mundo real, como reparar un auto o preparar una comida, porque nunca ha experimentado esos escenarios físicos.
Para resolver problemas que surgen en la vida real, una AGI necesita más que manipular símbolos o reconocer imágenes; necesita estar situada en el mundo físico, interactuar y adaptarse. Los humanos combinan el lenguaje, la percepción visual y la acción en procesos cognitivos unificados—no en módulos separados. Intentar fusionar modelos de lenguaje y visión en una solución «multimodal» sólo crea una inteligencia artificial de retazos, incapaz de alcanzar la flexibilidad y capacidad inventiva humanas.
Limitaciones de la visión multimodal y el aprendizaje por escala
El enfoque multimodal intenta unir diferentes «modalidades» (como texto, imágenes y acciones) en un solo modelo, con la esperanza de crear una inteligencia general. Sin embargo, hay profundas conexiones entre estas modalidades que tienden a perderse en este proceso. En la práctica, cada módulo de percepción o acción suele ser pre-entrenado por separado y luego combinado, pero eso no garantiza que el modelo pueda comprender verdaderos conceptos complejos, ni crear ideas nuevas como hacemos los humanos.
Además, no está claro que las divisiones actuales —texto, imagen, acción— sean la manera correcta de construir un cerebro artificial. Nuestra capacidad de leer, ver, hablar y movernos se da gracias a estructuras cognitivas superpuestas. Cuando los modelos aprenden solo de lo que los humanos han producido durante siglos, copian nuestras soluciones finales sin entender cómo llegamos a ellas, lo cual los limita cuando deben enfrentar tareas nuevas o complejas. La inteligencia verdaderamente general debería poder formar nuevos conceptos desde la experiencia, una capacidad que falta en la inteligencia artificial multimodal actual.
El futuro de la inteligencia artificial: interacción y experiencia
En vez de juntar piezas sueltas para crear una «Frankenstein AGI», el desarrollo de AGI debe centrarse en la interacción con el entorno y en la unión natural de los sentidos y acciones, tal como ocurre en humanos. Esto significa diseñar sistemas de percepción y acción donde las distinciones entre texto, imagen y movimiento se diluyan, permitiendo una comprensión flexible y adaptable. Lo que puede perderse en eficiencia se gana en habilidad cognitiva real. La verdadera inteligencia artificial general no será un montón de módulos de visión y lenguaje cosidos, sino una entidad capaz de aprender y crear conceptos inéditos a partir de experiencias, imitando el modo en que los humanos piensan y resuelven problemas en el mundo físico.