Skip to content

FOFPred: El futuro del movimiento controlado por texto

FOFPred: anticipando el movimiento con inteligencia artificial

FOFPred es una nueva plataforma de inteligencia artificial desarrollada para anticipar el movimiento de objetos en video, utilizando tanto imágenes como instrucciones en lenguaje natural. Esta tecnología predice hacia dónde y cómo se desplazará cada píxel de una imagen a lo largo del tiempo, a partir de indicaciones como: “mueve la botella de derecha a izquierda”. Este tipo de predicción, conocido como flujo óptico futuro, proporciona una representación simplificada que muestra únicamente el movimiento, ignorando texturas y detalles innecesarios para la planificación de tareas.

Uno de los puntos clave de FOFPred es su capacidad para traducir complejos datos de movimiento en formatos accesibles para modelos existentes de inteligencia artificial, facilitando su integración tanto en el control de robots como en la generación automatizada de videos. Al convertir el movimiento en imágenes codificadas, el sistema puede enfocarse únicamente en la dinámica, facilitando la toma de decisiones tanto para robots como para sistemas creativos.


¿Cómo funciona?

El secreto detrás de FOFPred es el uso de una arquitectura unificada que combina tres componentes principales: una red que entiende imágenes y lenguaje, un sistema que comprime la información visual para trabajar con datos manejables, y un motor especializado en predecir cómo se moverán los elementos en el tiempo. La idea es que, mientras una parte del sistema se encarga de interpretar la instrucción y la imagen inicial, otra se especializa en prever el flujo de movimiento futuro, permitiendo así una anticipación precisa de lo que va a ocurrir.

Para entrenar este sistema, los investigadores utilizaron cientos de miles de pares de videos y descripciones tomadas de internet, asegurando que el modelo aprendiera a diferenciar movimientos provocados por personas u objetos del movimiento de la propia cámara. De este modo, el sistema no solo anticipa el movimiento, sino que además ignora los desplazamientos irrelevantes, enfocándose en lo importante para la tarea.

Durante el entrenamiento, FOFPred también incorpora métodos de filtrado para seleccionar aquellos segmentos de video donde realmente ocurre un movimiento relevante, mejorando notablemente la calidad de sus predicciones. Así, se obtiene un modelo capaz de prever el movimiento futuro de manera precisa, incluso ante situaciones complejas o datos ruidosos.


Aplicaciones: robots y creación de videos

En el mundo de la robótica, FOFPred se utiliza como base para sistemas que deciden cómo debe actuar un robot en función de lo que ocurrirá en el entorno según una orden dada. Al anticipar el trayecto de objetos y personas, los robots pueden planificar y ejecutar tareas complejas con mayor eficacia y con menos información previa. En pruebas, FOFPred superó a métodos anteriores en diferentes desafíos donde los robots debían realizar una secuencia de tareas siguiendo instrucciones de texto.

En la creación automatizada de videos, FOFPred permite generar secuencias visuales coherentes a partir de una imagen inicial y una descripción de movimiento. El sistema deduce los patrones de movimiento esperados y los transmite como instrucciones a un generador de videos, logrando resultados que respetan tanto la dirección como la intensidad del movimiento solicitado. Esto es especialmente útil en aplicaciones creativas o de simulación, donde es fundamental que las animaciones reflejen con fidelidad la intención del usuario, incluso trabajando únicamente con descripciones de lenguaje y una sola imagen de partida.

Con su enfoque innovador, FOFPred pone en manos de usuarios y desarrolladores la capacidad de anticipar acciones complejas en entornos dinámicos, estableciendo una nueva base para la interacción entre lenguaje, visión y movimiento en inteligencia artificial.


Fuente: https://www.marktechpost.com/2026/01/21/salesforce-ai-introduces-fofpred-a-language-driven-future-optical-flow-prediction-framework-that-enables-improved-robot-control-and-video-generation/

Related Post

La revolución de Carbon Robotics en el campo

Innovación en la Identificación de Malezas La agricultura moderna se enfrenta al constante desafío de controlar malezas que compiten con los cultivos por nutrientes, agua y espacio. Tradicionalmente, reconocer y

El Futuro del Trabajo y la IA: Desafíos y Oportunidades

Automatización de las pruebas matemáticas y colaboración entre humanos e inteligencia artificial En la actualidad, la inteligencia artificial (IA) está revolucionando la manera en que abordamos la resolución de problemas

HPC-Ops: Eficiencia en modelos de lenguaje masivos

¿Qué es HPC-Ops y por qué es relevante? HPC-Ops es una biblioteca de operadores especialmente diseñada para hacer más eficientes y veloces los modelos de lenguaje de gran tamaño. Creado

Powering over 1.5 million websites worldwide

Our set he for firmament morning sixth subdue darkness creeping gathered divide our let god moving.

Or

+10 378 267 3782

Contanos tu necesidad

Completá el formulario y nos pondremos en contacto a la brevededad para ayudarte a dar el siguiente paso.