IA que conversa y responde en tiempo real

Un nuevo modelo de interacción para la inteligencia artificial

Hasta ahora, la mayoría de los sistemas de inteligencia artificial funcionan en base a turnos. Esto significa que el usuario envía una instrucción y la IA responde después de procesarla. Esta dinámica limita la capacidad de colaboración en tiempo real y restringe la interacción fluida entre humanos y máquinas. Thinking Machines Lab propone un cambio de paradigma: los modelos de interacción, donde la interacción es continua y nativa del sistema.

En este enfoque, los modelos de IA pueden percibir y responder en tiempo real a través de audio, video y texto, como en una conversación humana natural. El sistema se organiza en dos componentes principales:

Un modelo de interacción que mantiene el contacto constante con el usuario, procesando de manera continua toda la información multimodal.
Un modelo en segundo plano, encargado de tareas complejas y razonamiento profundo, que recibe toda la conversación para ayudar con información adicional cuando es necesario.

Ambos modelos comparten el contexto de la conversación, permitiendo que los resultados de procesos más complejos se vayan integrando de forma gradual y oportuna mientras la interacción principal sigue su curso.

Ventajas y capacidades novedosas

La clave de este nuevo enfoque está en los micro-turnos de 200 milisegundos. La IA procesa y responde a entradas en pequeños intervalos de tiempo, permitiendo acciones como hablar y escuchar simultáneamente, reaccionar a señales visuales sin necesidad de indicaciones verbales, y mantenerse siempre presente en la conversación, incluso mientras realiza búsquedas o utiliza herramientas en segundo plano.

El diseño innovador elimina la necesidad de componentes externos que simulen una falsa interactividad —como los sistemas de detección de voz—, haciendo que la respuesta sea genuinamente natural y continua. El sistema utiliza una arquitectura eficiente para procesar audio y video con mínimo preprocesamiento y todos sus componentes son entrenados de forma conjunta, favoreciendo la integración nativa de múltiples modos de entrada y salida.

Este modelo ha demostrado sobresalientes resultados en pruebas de calidad de interacción:

En situaciones de interrupciones, diálogos simultáneos y ambientes dinámicos, logra puntajes muy superiores frente a los sistemas tradicionales.
Presenta una baja latencia de respuesta de tan solo 0,40 segundos, haciendo posible una experiencia fluida y conversacional.
En tareas de reconocimiento de tiempo, reacción a señales verbales y conteo visual en video, supera ampliamente a modelos reconocidos, siendo el único capaz de desempeñarse satisfactoriamente en estos desafíos.

Entre sus capacidades destacan la proactividad visual — reacciona a lo que ve en la cámara sin que el usuario deba pedirlo —, la gestión de múltiples herramientas en simultáneo, el manejo eficiente de pausas y correcciones espontáneas, y la habilidad de iniciar acciones justo en el momento adecuado según necesidades del usuario.

Perspectivas, limitaciones y próximos pasos

Si bien este avance representa un salto significativo hacia colaboraciones más naturales entre humanos y máquinas, todavía existen desafíos. Las sesiones prolongadas requieren una gestión eficiente del contexto, y la dependencia de conexiones estables es fundamental para no afectar la experiencia. Además, el tamaño de los modelos más poderosos hoy los hace demasiado lentos para un servicio en tiempo real, aunque mejoras futuras ya están en desarrollo.

En cuanto a la seguridad y alineación con valores apropiados, el sistema alcanza tasas destacadas de rechazo a solicitudes dañinas, manteniéndose como una solución responsable y segura en escenarios de interacción constante.

Thinking Machines Lab ha abierto el acceso en modo de prueba de investigación para quienes deseen explorar los límites de esta tecnología y contribuir al desarrollo de nuevos métodos de evaluación de la interactividad. El potencial para aplicaciones en educación, asistencia personalizada y colaboración creativa es enorme, marcando el inicio de una nueva era para la inteligencia artificial en tiempo real.

Fuente: https://www.marktechpost.com/2026/05/13/mira-muratis-thinking-machines-lab-introduces-interaction-models-a-native-multimodal-architecture-for-real-time-human-ai-collaboration/

25 mayo, 2026 | Startup y PyMEs

El poder oculto tras la inteligencia artificial

El poder concentrado en la era de la inteligencia artificial La aparición de la inteligencia artificial ha puesto bajo la lupa un problema persistente en la historia: la concentración de

22 mayo, 2026 | Startup y PyMEs

Sabotaje digital, optimización y la IA positiva

Sabotaje digital y su impacto en la ciencia Un virus informático llamado fast16.sys, descubierto tras más de 20 años de actividad silenciosa, tenía como objetivo manipular cálculos de alta precisión

20 mayo, 2026 | Startup y PyMEs

Nemotron-Labs-Diffusion: Eficiencia y flexibilidad en IA

Nemotron-Labs-Diffusion: Unificando y Acelerando la Inteligencia Artificial NVIDIA ha presentado Nemotron-Labs-Diffusion, una familia de modelos de lenguaje que introduce una innovación significativa: combina tres métodos de generación de texto diferentes

Powering over 1.5 million websites worldwide

Our set he for firmament morning sixth subdue darkness creeping gathered divide our let god moving.

+10 378 267 3782