Avances en IA: Evaluación, Gobernanza y Uso en Empresas

Evaluación y Gobernanza de la Inteligencia Artificial: Claves para un Futuro Seguro

Investigadores del Institute for AI Policy and Strategy han consultado a más de 50 especialistas para identificar las áreas de investigación más prometedoras para un desarrollo seguro y responsable de la Inteligencia Artificial (IA). La principal conclusión es que la evaluación práctica y el monitoreo de la IA son más valiosos y factibles que los enfoques puramente teóricos.

Las investigaciones más relevantes se centran en:

  • Patrones emergentes y escalabilidad en tareas específicas, lo que ayuda a anticipar el comportamiento de las futuras IA.
  • Evaluación de riesgos químicos, biológicos, radiológicos y nucleares relacionados con el uso de IA.
  • Detección de comportamientos engañosos, manipulación o esquemas dentro de los sistemas de IA.

Asimismo, algunos temas son considerados cruciales pero difíciles de abordar por ahora, como el control de accesos y la integridad de las cadenas de suministro, así como una comprensión profunda de los límites del razonamiento de los modelos de lenguaje.

Mejorar la ciencia de la medición y evaluación de la IA facilitará la creación de políticas eficaces para enfrentar los desafíos de sistemas cada vez más avanzados.

Datos Abiertos para la IA: El Proyecto de Harvard

Hace casi dos décadas, Harvard digitalizó más de un millón de libros. Hoy, parte de esa vasta colección está disponible gratuitamente para entrenar y analizar sistemas de IA. El primer lanzamiento de datos, llamado Institutional Books 1.0, abarca 983.000 volúmenes y aproximadamente 242 mil millones de palabras, abarcando más de 250 idiomas.

La iniciativa tiene como objetivo diversificar el origen de los datos utilizados en IA, mejorar la documentación y fortalecer la trazabilidad desde la fuente original hasta los modelos inteligentes. Los investigadores destacan la oportunidad de crear un “común institucional”, donde la comunidad académica y tecnológica colabore y mejore continuamente las fuentes de información en beneficio colectivo.

Esta apertura de datos públicos refuerza la idea de que el conocimiento acumulado por instituciones tradicionales puede ser esencial para el avance ético y responsable de la IA en la sociedad.

IA en la Práctica: Desafíos en la Empresa y la Ciberseguridad

Investigadores de Salesforce han creado un nuevo método de evaluación, CRMArena-Pro, para medir cómo los sistemas de IA resuelven tareas propias de ambientes empresariales, como consultas de bases de datos, búsqueda de información y cumplimiento de reglas de negocio. Los resultados muestran que, aunque los modelos más avanzados alcanzan un 58% de éxito en tareas sencillas, la eficacia desciende al 35% en escenarios más complejos y de varios pasos. Modelos avanzados como Gemini-2.5-Pro y o1 destacaron en estos entornos, aunque queda claro que la IA aún enfrenta grandes retos para desempeñarse como lo haría una persona en contextos empresariales reales.

En el campo de la ciberseguridad, el proyecto CyberGym de la Universidad de California, Berkeley, evalúa la capacidad de IA para encontrar vulnerabilidades reales en software de uso común. Modelos avanzados, como Claude 3.7 y GPT-4, han logrado identificar y, en algunos casos, descubrir nuevas vulnerabilidades, demostrando un potencial tanto para mejorar la defensa digital como para identificar riesgos emergentes.

Aunque el porcentaje de éxito fue moderado (alrededor de 12% en los casos más simples), se encontraron comportamientos interesantes, como la creación automática de pruebas de concepto y la adaptación de métodos existentes para descubrir vulnerabilidades.


Fuente: https://jack-clark.net/2025/06/16/import-ai-416-cybergym-ai-governance-and-ai-evaluation-harvard-releases-250bn-tokens-of-text/