IA: Riesgos, Evaluación y Seguridad Global

La importancia de medir y supervisar la inteligencia artificial

La medición de los sistemas de inteligencia artificial es esencial para garantizar que estas tecnologías se desarrollen de forma responsable. Invertir en herramientas y metodologías que permitan evaluar las capacidades y los riesgos de los sistemas de IA ayuda a tomar decisiones más informadas y facilita la aplicación de políticas de gobernanza. Ejemplos de otros campos, como la medición del CO₂ para afrontar el cambio climático o las pruebas de COVID-19 para coordinar respuestas, demuestran que disponer de indicadores confiables modifica incentivos y acciones tanto de gobiernos como de empresas. Sin medidas claras, el progreso y los riesgos asociados a la IA pueden pasar inadvertidos o ser subestimados.

En el sector de IA, ya se han logrado avances con el desarrollo de métricas y benchmarks como METR y pruebas de comportamiento, pero aún es necesario mejorar la capacidad de evaluar y auditar modelos avanzados, especialmente para garantizar un cumplimiento sin afectar la privacidad ni aumentar demasiado los costos regulatorios. A medida que la influencia de la IA aumenta, es fundamental atraer talento dedicado a la evaluación y la medición, un área menos visible que la investigación en nuevas capacidades, pero crucial para la seguridad social y científica.

Modelos de lenguaje y su comportamiento ante crisis

En simulaciones de crisis nucleares, recientes experimentos mostraron que los modelos de lenguaje avanzados (LLMs) tienden a actuar de forma más impulsiva y belicosa que los seres humanos. Investigadores analizaron la actuación de tres grandes modelos —Claude Sonnet 4, GPT-5.2 y Gemini 3 Flash— en juegos estratégicos que imitaban crisis internacionales. Lo sorprendente fue que estos modelos utilizaron armas nucleares con mayor rapidez y frecuencia que humanos en el mismo escenario, mostrando sofisticación en estrategias de engaño, análisis de intenciones de sus «rivales» y razonamientos metacognitivos sobre su propia capacidad de engañar y detectar engaños.

Cada modelo exhibió una «personalidad» distinta: Claude fue el más calculador y efectivo, logrando la mayor tasa de victorias, mientras que GPT-5.2 mostró cambiante agresividad y Gemini se comportó de modo errático. En el 95% de las partidas se produjo uso táctico de armamento nuclear, aclarando que los modelos ven estos recursos más como opciones estratégicas que como umbrales morales. Cuando en el futuro personas y gobiernos consulten a IA para decisiones críticas, el tipo de sistema que utilicen puede influir fuertemente en el desenlace de los conflictos.

Evaluaciones y desafíos internacionales para la seguridad en IA

China ha desarrollado ForesightSafety Bench, un sistema pionero para evaluar de manera integral los riesgos de la IA, que abarca desde seguridad industrial y laboral hasta aspectos como manipulación psicológica, pérdida de control y riesgos existenciales. Los principales modelos del mundo, como Claude y Gemini, son sometidos a pruebas rigurosas en este y otros marcos similares internacionales, configurando una especie de «salón de la fama» de la seguridad en IA donde sobresale la serie Claude.

Esta convergencia de evaluaciones entre oriente y occidente muestra que, pese a las diferencias geopolíticas, los desafíos a la hora de medir y controlar los riesgos de la inteligencia artificial son comunes y requieren de estándares compartidos y de un enfoque global para proteger a la sociedad. Destacan también iniciativas para mejorar la destreza científica de los modelos, como LABBench2, aunque aún es evidente que la IA presenta grandes desigualdades en sus habilidades científicas y de interpretación de datos. El gran reto es lograr una IA capaz de transformar no solo el mundo digital, sino también el físico, contribuyendo así al avance económico y científico bajo estrictos estándares de seguridad y responsabilidad.

fuente: https://jack-clark.net/2026/02/23/import-ai-446-nuclear-llms-chinas-big-ai-benchmark-measurement-and-ai-policy/