¿Puede la Inteligencia Artificial General ser solo cuestión de juntar varias inteligencias?
Los avances recientes en inteligencia artificial han generado muchas expectativas sobre la llegada de una IA General (AGI, por sus siglas en inglés). Sin embargo, muchos confunden la acumulación de herramientas poderosas —como sistemas capaces de procesar texto, imágenes o sonidos— con la creación de una mente verdaderamente general. La verdadera capacidad humana proviene de nuestra conexión física con el mundo y nuestro entendimiento tácito del entorno. A diferencia de nosotros, las inteligencias artificiales actuales suelen limitarse a manipular símbolos y patrones, pero carecen de la riqueza de vivencias que nos permite razonar, planificar y adaptarnos en situaciones cotidianas.
Por ejemplo, entender que un frigorífico no cabe dentro de una manzana requiere más que reglas gramaticales: demanda conocer las propiedades del mundo físico, algo que los modelos no logran solo con datos lingüísticos. Los sistemas actuales, si bien exhiben un dominio relevante en lenguaje y algunas tareas visuales, lo hacen porque encuentran atajos estadísticos en grandes volúmenes de información, no porque entiendan genuinamente el significado detrás de lo que procesan.
El reto de unir modalidades: límites de la IA multimodal
En el esfuerzo por alcanzar la AGI, ha surgido la estrategia de combinar distintas capacidades especializadas (texto, imágenes, acciones) en un solo sistema. Sin embargo, esto no basta. La verdadera inteligencia requiere la fusión orgánica de todas estas dimensiones, no solo unir módulos independientes. Actualmente, los modelos multimodales reúnen los datos y habilidades de distintas áreas, pero esta unión es superficial: la coordinación entre ellas es incompleta y no iguala la integración que caracteriza al pensamiento humano.
Construir una inteligencia capaz de generalizar y adaptarse como lo hacemos las personas exige métodos que concedan más relevancia a la experiencia directa y la interacción con el entorno físico. Los humanos aprendemos conceptos duraderos a partir de pocas experiencias, y somos capaces de aplicar esos conceptos de manera flexible en contextos nuevos. Por el contrario, los modelos actuales asimilan únicamente los resultados finales de nuestro aprendizaje cultural, sin comprender el proceso profundo que lleva a la creación, adaptación y combinación de ideas.
En definitiva, la verdadera AGI no emergerá de sumar partes prefabricadas especializadas, sino de crear sistemas en los que la distinción entre modalidades (texto, imagen, acción) desaparezca naturalmente, gracias a una base cognitiva integrada y adaptable.
Un desafío conceptual y humano
El próximo gran salto en inteligencia artificial no depende sólo de multiplicar datos y computadoras, sino de repensar cómo se organiza y aprende la inteligencia. Necesitamos enfoques que traten la interacción y el cuerpo como fundamentales, permitiendo que las capacidades se mezclen de manera orgánica. Aunque ello pueda parecer menos eficiente comercialmente al inicio, brindará una flexibilidad y un poder cognitivo mucho mayores a largo plazo.
En resumen, ya se ha descubierto cómo construir sistemas universales que puedan “aprender cualquier cosa”. Lo que resta es identificar cuáles son los procesos esenciales y cómo lograr que estos colaboren, no como piezas pegadas entre sí, sino como una totalidad capaz de entender, adaptarse y crear en cualquier situación.
