Avances Clave en el Modelo Gemini Robotics-ER 1.6
El equipo de Google DeepMind ha presentado Gemini Robotics-ER 1.6, un modelo que actúa como el cerebro cognitivo de los robots en entornos reales. Su función principal es analizar el espacio y planificar tareas, ayudando a que los robots tomen decisiones precisas y seguras. Mientras el modelo Gemini Robotics 1.5 se centra en ejecutar los movimientos físicos, Gemini Robotics-ER 1.6 se enfoca en el razonamiento espacial y la detección de éxito al realizar tareas.
Uno de los elementos más destacados es su capacidad para identificar la ubicación exacta de objetos en una imagen, lo que permite desde contar herramientas hasta elegir el punto óptimo para agarrar un objeto. Esto resulta esencial para que un robot actúe con precisión y evite errores costosos, como intentar manipular herramientas que no existen realmente en su entorno. Además, el modelo logra fusionar información de múltiples cámaras, proporcionando una visión coherente incluso en escenarios dinámicos o con obstáculos.
Nuevas Capacidades: Lectura de Instrumentos y Razonamiento Mejorado
El gran avance de Gemini Robotics-ER 1.6 es su novedosa lectura de instrumentos. El modelo es capaz de interpretar medidores analógicos, medidores de presión y visores de nivel en entornos industriales, tareas que suelen requerir mucha precisión y contexto visual. Por ejemplo, ahora puede estimar el nivel exacto de líquido en un visor considerando todos los detalles relevantes del entorno, o leer correctamente los valores en medidores con varias agujas y unidades diferentes.
Durante las pruebas internas, el modelo alcanzó una precisión del 93% en la lectura de instrumentos usando su función “visión agente”, muy por encima del 23% conseguido por versiones anteriores. Este progreso representa un paso fundamental para la autonomía de robots en la supervisión de instalaciones, donde se necesita entender diferentes lecturas y actuar sin intervención constante humana.
Puntos Importantes para la Robótica Autónoma
- Gemini Robotics-ER 1.6 es la mente del robot, responsable del análisis espacial, la planificación de tareas y la detección de éxitos, mientras que la acción física queda en manos de otro modelo especializado.
- La capacidad de señalar objetos va mucho más allá de detectar su presencia; permite al robot razonar sobre relaciones espaciales, planear trayectorias de movimiento y actuar bajo restricciones complejas.
- La lectura de instrumentos es el mayor salto tecnológico, pues brinda a los robots la habilidad de comprender el estado de máquinas y sistemas de manera autónoma en ambientes industriales.
- Discriminar cuándo una tarea está realmente completa —el llamado éxito— le da al robot la capacidad de decidir si debe intentar otra vez o avanzar al siguiente paso sin depender de una persona.