¿Puede una computadora tener inteligencia general como la humana?
En los últimos años, los avances en inteligencia artificial generativa han llevado a muchos a pensar que estamos cerca de lograr una inteligencia similar a la humana. Sin embargo, estos modelos han crecido gracias a su capacidad para procesar enormes cantidades de datos, no necesariamente porque comprendan el mundo como lo hacemos nosotros. Un verdadero sistema inteligente debería entender y manejar problemas del mundo físico, como reparar un auto o cocinar, no solo tareas simbólicas o digitales.
Actualmente, muchos sistemas intentan combinar varias formas de procesar información –como texto, imágenes o acciones– en un solo modelo, lo que se llama enfoque multimodal. Sin embargo, esto suele generar una especie de «Frankenstein digital», que parece inteligente porque maneja cada área por separado, pero no puede combinarlas de forma natural ni generalizar a nuevos contextos físicos. La auténtica inteligencia surge al interactuar y experimentar con el entorno, no solo al manipular símbolos o palabras.
Límites del aprendizaje solo con lenguaje
Muchos creen que los modelos de lenguaje desarrollan una visión del mundo solo leyendo y escribiendo texto. Pero predecir la siguiente palabra en una frase no significa entender el significado profundo detrás de ella. Estos modelos muchas veces solo memorizan patrones y reglas superficiales, sin realmente captar cómo es el mundo real. Por ejemplo, pueden crear frases que son gramaticalmente correctas pero que no tienen sentido práctico ni se ajustan a la realidad física.
El lenguaje humano funciona porque mezclamos distintas capacidades: la estructura (sintaxis), el significado (semántica) y el contexto de uso (pragmática). La inteligencia natural unifica estas partes a partir de la experiencia directa en el entorno. Los sistemas actuales, en cambio, no tienen esa interacción con el mundo: pueden reconocer patrones en los textos, pero no comprenden cómo esos textos se conectan con la realidad que vivimos.
El camino hacia una inteligencia genuina
Escalar modelos cada vez más grandes y conectarlos a diferentes modos (imágenes, texto, acciones) les permite resolver tareas específicas, pero no genera una inteligencia verdaderamente general. Para avanzar, hace falta repensar cómo se estructuran estos sistemas. No basta con unir módulos para cada tipo de dato; en su lugar, el procesamiento debería emerger de la experiencia, la interacción y la adaptación flexibles al entorno físico.
Los sistemas humanos integran visión, lenguaje y acción de manera interconectada, sin dividir la percepción en compartimentos estancos. Imaginemos un modelo que observa, entiende y actúa en el mundo real no mediante reglas programadas por separado, sino a través de una experiencia única y continua. Diseñar inteligencia artificial que surja del contacto directo con el mundo, como hacen los niños al aprender, podría ser el verdadero motor de una inteligencia completa.