Google presenta Gemini Embedding 2 multimodal

Unificación Multimodal y Rendimiento Optimizado

Google ha presentado Gemini Embedding 2, un avance que permite integrar a la vez textos, imágenes, videos, audios y documentos en un único modelo de inteligencia artificial. Esta tecnología elimina la necesidad de sistemas separados para cada tipo de dato y consigue procesar distintos formatos de información en una sola solicitud. Así, por ejemplo, es posible analizar el contenido de una imagen junto con una descripción de texto o relacionar fragmentos de audio y video dentro de un mismo contexto digital.

Los límites de entrada son amplios: hasta 8.192 palabras de texto, 6 imágenes, 2 minutos de video, 80 segundos de audio o 6 páginas de PDF. Gracias a esta flexibilidad, Gemini Embedding 2 logra representar con precisión la relación entre distintos tipos de información, mejorando búsquedas semánticas e impulsando nuevos casos de uso, como asistentes virtuales avanzados o sistemas legales y médicos que requieren combinar información variada.

Eficiencia Dimensional e Inteligencia en la Recuperación de Datos

Una característica central de Gemini Embedding 2 es su uso de Matryoshka Representation Learning (MRL), una técnica que permite condensar la información más importante en las primeras dimensiones de los datos codificados. Esto se traduce en menos espacio de almacenamiento y tiempos de respuesta mucho más rápidos, sin sacrificar precisión. El modelo puede operar en tres niveles de detalle: 3.072, 1.536 y 768 dimensiones, facilitando un equilibrio entre exactitud, velocidad y costos computacionales.

Por ejemplo, se puede realizar una primera búsqueda veloz utilizando los vectores de menor tamaño y, después, afinar los resultados entre los más relevantes con información más detallada. Todo esto contribuye a sistemas de inteligencia artificial más ágiles y escalables, capaces de examinar grandes bases de datos en segundos, sin perder calidad.

Ventajas Prácticas y Optimización de Contexto

El modelo ofrece una ventana de entrada de hasta 8.192 palabras, ideal para mantener contexto en documentos extensos y evitar que la información relevante se fragmente. En pruebas de referencia, Gemini Embedding 2 demuestra mayor precisión y solidez frente a cambios de dominio, logrando transferencia eficiente entre tareas generales y especializadas (por ejemplo, de Wikipedia a bases de datos de programación o medicina).

Además, la plataforma proporciona parámetros personalizables como RETRIEVAL_QUERY, RETRIEVAL_DOCUMENT o CLASSIFICATION, permitiendo adaptar las búsquedas y clasificaciones a las necesidades específicas de cada situación. Esto brinda a desarrolladores y empresas herramientas para incrementar la efectividad de sus sistemas de búsqueda y análisis.

fuente: https://www.marktechpost.com/2026/03/11/google-ai-introduces-gemini-embedding-2-a-multimodal-embedding-model-that-lets-your-bring-text-images-video-audio-and-docs-into-the-embedding-space/

25 mayo, 2026 | Startup y PyMEs

El poder oculto tras la inteligencia artificial

El poder concentrado en la era de la inteligencia artificial La aparición de la inteligencia artificial ha puesto bajo la lupa un problema persistente en la historia: la concentración de

22 mayo, 2026 | Startup y PyMEs

Sabotaje digital, optimización y la IA positiva

Sabotaje digital y su impacto en la ciencia Un virus informático llamado fast16.sys, descubierto tras más de 20 años de actividad silenciosa, tenía como objetivo manipular cálculos de alta precisión

20 mayo, 2026 | Startup y PyMEs

Nemotron-Labs-Diffusion: Eficiencia y flexibilidad en IA

Nemotron-Labs-Diffusion: Unificando y Acelerando la Inteligencia Artificial NVIDIA ha presentado Nemotron-Labs-Diffusion, una familia de modelos de lenguaje que introduce una innovación significativa: combina tres métodos de generación de texto diferentes

Powering over 1.5 million websites worldwide

Our set he for firmament morning sixth subdue darkness creeping gathered divide our let god moving.

+10 378 267 3782