Avances de Inteligencia Artificial en Diversos Campos

Vigilancia mediante Inteligencia Artificial y Escalabilidad del Autoritarismo

La capacidad de rastrear múltiples personas en situaciones de multitudes ha avanzado significativamente gracias al desarrollo de datos y herramientas como CrowdTrack, una base de datos con 40,000 imágenes y más de 700 mil anotaciones extraídas de 33 videos de ambientes cotidianos y sitios de construcción. Estos escenarios presentan desafíos únicos para la identificación, ya que la ropa y los cascos de los trabajadores dificultan distinguir rostros, lo que obliga a los sistemas de IA a enfocarse en la forma de caminar y la silueta corporal.

El impacto de este avance radica en el abaratamiento y la facilidad para realizar una vigilancia a gran escala. Anteriormente, construir sistemas de vigilancia masiva era costoso y complejo, pero ahora la inteligencia artificial reduce significativamente esa barrera. Modelos y bases de datos como CrowdTrack permiten realizar tareas como identificación visual, análisis de movimiento y extracción de características, marcando una nueva etapa en la capacidad de los gobiernos o instituciones para implementar sistemas de seguimiento poblacional amplios y, potencialmente, autoritarios.

Este enfoque, aunque útil para diversos fines, también plantea interrogantes sobre privacidad, control social y el equilibrio entre tecnología y derechos ciudadanos.

Robótica a Escala y Automatización en Amazon

Amazon ha superado un hito al desplegar su robot número un millón en sus centros logísticos, consolidándose como el operador más grande de robots móviles del mundo. Estos robots, parecidos a discos móviles, se encargan principalmente de mover estantes, aunque la empresa también explora robots para bandas transportadoras y tareas de selección y colocación.

Para mejorar la eficiencia, Amazon desarrolló DeepFleet, un programa inteligente que coordina el movimiento de los robots. Este sistema ha logrado reducir el tiempo de traslado de los robots en un 10%, optimizando rutas y disminuyendo la congestión dentro de los almacenes, lo que agiliza el procesamiento de los pedidos.

El avance en robótica permite imaginar escenarios futuros en los que toda la infraestructura logística pueda funcionar de manera autónoma, incluso bajo la supervisión de inteligencias artificiales aún más avanzadas. Este tipo de desarrollo representa pasos concretos hacia una automatización total en la industria, con potenciales aplicaciones más allá del comercio y el almacenamiento.

Nuevas Fronteras en Juegos y Diseño de Proteínas con IA

Se están produciendo avances revolucionarios en el uso de IA para el entretenimiento y la biotecnología. Dynamic Labs ha presentado Mirage, un motor generativo capaz de crear videojuegos infinitos y personalizados, en tiempo real, a partir de inteligencia artificial. Aunque todavía presenta limitaciones, estas tecnologías prometen transformar el concepto de los videojuegos, generando universos virtuales inagotables y experiencias únicas para cada jugador.

Por otro lado, el diseño de proteínas también está cambiando gracias a modelos generativos como Chai-2, capaces de diseñar anticuerpos completamente nuevos con una tasa de éxito sustancialmente mayor que las técnicas anteriores. En pruebas, Chai-2 logró, en menos de dos semanas, diseñar y validar en laboratorio anticuerpos eficaces para la mitad de los objetivos planteados, todo sin referencias previas en bases de datos. Este avance señala una nueva era en el descubrimiento de medicamentos y en la investigación biomédica, donde la creación de moléculas de precisión ya es una realidad práctica.


Fuente: https://jack-clark.net/2025/07/07/import-ai-419-amazons-millionth-robot-crowdtrack-and-infinite-games/

El mito de los modelos multimodales en la Inteligencia Artificial General

Inteligencia artificial general: ¿Por qué no basta con modelos multimodales?

En los últimos años, los modelos de inteligencia artificial han mostrado avances sorprendentes, dando lugar a la creencia de que estamos cerca de alcanzar una Inteligencia Artificial General (AGI). Sin embargo, estos modelos, entrenados principalmente para reconocer patrones y predecir secuencias de texto o imágenes, no necesariamente alcanzan una comprensión genuina del mundo. Su capacidad se debe más a la escala y la cantidad de datos procesados que a una solución profunda sobre cómo funciona la inteligencia.

Actualmente, la estrategia más popular para avanzar hacia la AGI consiste en unir sistemas que dominan diferentes modalidades (texto, imágenes, acciones físicas) y combinarlos para simular una inteligencia general. Sin embargo, existen dificultades importantes en este enfoque, que impedirán que se alcance una verdadera inteligencia similar a la humana. Las principales limitaciones son:

  • Falta de comprensión física del mundo: Muchos problemas reales, como reparar un objeto o preparar alimentos, requieren una experiencia situada, más allá de la manipulación simbólica de datos.
  • Conocimiento superficial: Los modelos actuales aprenden a predecir datos siguiendo reglas abstractas sobre secuencias, sin generar una comprensión genuina de la realidad que representan esos datos. Suelen memorizar patrones y desarrollar “aboliciones inteligentes” que no equivalen a una verdadera semántica o comprensión.
  • Limitaciones pragmáticas: Mientras los humanos interpretan el contexto físico y social para entender el lenguaje, los modelos carecen de este tipo de razonamiento, lo que afecta su capacidad para responder adecuadamente en situaciones cotidianas.

Un ejemplo revelador es el resultado de modelos capaces de predecir el desarrollo de un juego de mesa a partir de secuencias de movimientos. Si bien logran reconstruir el estado del juego, en tareas vinculadas al mundo físico no pueden inferir el estado real de un entorno mediante descripciones textuales, ya que esto exige una comprensión concreta del espacio y las relaciones físicas, algo que los modelos actuales no experimentan.

La aparente habilidad “humana” de los modelos lingüísticos para comprender no surge de un modelo interno del mundo, sino de una sofisticada habilidad para manipular símbolos y patrones. Así, pueden generar frases correctas gramaticalmente, pero con sentido nulo, o responder preguntas de forma semánticamente incorrecta. La comprensión humana, en cambio, nace de la interacción física y social constante con el entorno, una característica que los modelos actuales no poseen.

Por tanto, confundir éxito en lenguaje con inteligencia general es un error. Los humanos interpretan el lenguaje gracias a múltiples facultades cognitivas integradas: sintaxis, semántica y pragmática. Los sistemas actuales tienden a imitar sólo la estructura superficial (la sintaxis), sin alcanzar profundidad conceptual.

El desafío de la escala y el mito de unir modelos multimodales

Durante años, los avances en inteligencia artificial han sido impulsados por el aumento de la escala (más datos, más cómputo) antes que por una mayor eficiencia o comprensión profunda. Hay una tendencia a pensar que, escalando los actuales modelos, aparecerá espontáneamente la inteligencia general. Sin embargo, este método tiene límites claros.

Intentar sumar modelos expertos en dominios limitados (por ejemplo, modelos expertos en texto con modelos expertos en imágenes) no produce una inteligencia sintética coherente comparable a la humana. Existen obstáculos fundamentales:

  • Separación artificial de modalidades: En los humanos, leer, ver, hablar y actuar están mediados por estructuras cognitivas que se superponen. Es artificial e ineficiente diseñar sistemas donde cada modalidad (por ejemplo, imagen o texto) tenga su propio procesador independiente.
  • Interconexión de los conceptos: La integración de sentidos y acciones requiere unir información a diferentes niveles de abstracción, algo mucho más complejo que “alinear” vectores o unir módulos entrenados por separado.
  • Falta de flexibilidad conceptual: Los modelos actuales entrenan para replicar los conceptos ya desarrollados y refinados por la humanidad, en lugar de desarrollar la capacidad de generar nuevos conceptos a partir de la experiencia. La habilidad humana para inventar ideas y generalizar a partir de pocos ejemplos no se replica por escalar modelos existentes.

Además, optimizar modelos para copiar el resultado final de la inteligencia humana (sus conceptos ya formados) ignora la cuestión fundamental de cómo estos conceptos surgen y evolucionan. Los sistemas “multimodales” actuales no favorecen el desarrollo de una inteligencia capaz de adaptarse y responder a situaciones novedosas.

Por último, el intento de unir modelos entrenados en distintos dominios resulta en una “fragmentación” conceptual: cada modalidad desarrolla su propia idea de significado, lo que impide crear una verdadera comprensión conjunta del mundo. El significado no reside en la unión superficial de representaciones, sino en la capacidad de compartir y reformular información de manera coherente en cualquier situación.

El camino hacia una inteligencia artificial general verdaderamente flexible

La promesa de construir una AGI uniendo modelos de distintas modalidades (texto, imagen, acción) es, por ahora, una ilusión. Para alcanzar una inteligencia completa y flexible, es necesario replantear la interacción entre los sistemas de percepción y acción.

Una alternativa es tratar las modalidades no como entidades separadas, sino como manifestaciones emergentes de un proceso cognitivo principal, acompañado de interacción y aprendizaje con el entorno. Esto implica diseñar sistemas donde la percepción (ya sea imágenes, texto o video) se procese de forma uniforme, y donde las acciones resultantes (como escribir, manipular objetos o navegar) se produzcan desde un mecanismo común.

Si bien esto puede reducir la eficiencia en tareas especializadas, el resultado sería una capacidad cognitiva más flexible y adaptable, cercana a la forma en la que los humanos crecemos, aprendemos y resolvemos problemas en un mundo físico.

En síntesis, el reto no es sólo matemático (ya contamos con poderosas técnicas de aproximación de funciones) sino principalmente conceptual: identificar las funciones y procesos que necesitamos y cómo disponerlos de forma que produzcan una inteligencia general y coherente.


Fuente: https://thegradient.pub/agi-is-not-multimodal/