Cloud Security Alliance ofrece un libro de jugadas para Red Teaming Agentic AI Systems

Por John K. Waters
13/06/25

La Alianza de Seguridad de la Cloud (CSA) ha introducido una guía para los sistemas de IA agente de equipo rojo, dirigido a los desafíos de seguridad y prueba planteados por la inteligencia artificial cada vez más autónoma.

La Guía de pruebas de equipo rojo para sistemas de IA agentes describe métodos prácticos de prueba basados en escenarios diseñados para profesionales de seguridad, investigadores e ingenieros de IA.

La IA agente, a diferencia de los modelos generativos tradicionales, puede planificar, razonar y ejecutar acciones de forma independiente en entornos del mundo real o virtuales. Estas capacidades hacen que el equipo rojo, la simulación de amenazas adversas, un componente crítico para garantizar la seguridad y la resistencia del sistema.

Cambiar de la IA generativa a la agente

El informe destaca cómo la IA de agente introduce nuevas superficies de ataque, incluida la lógica de orquestación, la manipulación de la memoria y los bucles de decisión autónomos. Se basa en trabajos anteriores como el Marco Maestro de CSA y el intercambio de IA de OWASP, expandiéndolos en escenarios operativos del equipo rojo.

Doce categorías de amenazas de agente

La guía describe 12 categorías de amenazas de alto riesgo, que incluyen:

Autorización y secuestro de control: Explotación de brechas entre capas de permisos y agentes autónomos.
Checker-fuera del bucle: omitiendo los controladores de seguridad o la supervisión humana durante las acciones sensibles.
Manipulación de objetivos: Uso de la entrada adversa para redirigir el comportamiento del agente.
Envenenamiento de la base de conocimiento: corromper en memoria a largo plazo o espacios de conocimiento compartidos.
Explotación de múltiples agentes: Spoofing, colusión o ataques a nivel de orquestación.
No identificación: Enmascarando la fuente de acciones de agente para evitar las pistas de auditoría o la responsabilidad.

Cada área de amenaza incluye configuraciones de pruebas definidas, objetivos de equipo rojo, métricas para la evaluación y estrategias de mitigación sugeridas.

Herramientas y próximos pasos

Se alienta a los equipos rojos a usar o extender herramientas de seguridad específicas de agentes como Maestro, LLM Security DB de PromptFoo y el radar agente de SPLXAI. La guía también hace referencia a herramientas experimentales como Fuzzai de Salesforce y los agentes de equipo rojo de Microsoft Foundry.

«Esta guía no es teórica», dijeron los investigadores de CSA. «Nos centramos en técnicas prácticas de equipo rojo que se aplican a las implementaciones de agentes del mundo real en finanzas, atención médica y automatización industrial».

Pruebas continuas como línea de base de seguridad

A diferencia del modelado de amenazas estáticas, la guía de la CSA enfatiza la validación continua a través de pruebas basadas en simulación, tutoriales de escenarios y evaluaciones de toda la cartera. Insta a las empresas a tratar el equipo rojo como parte del ciclo de vida del desarrollo para los sistemas de IA que operan de forma independiente o en entornos críticos.

La guía completa se puede encontrar en el sitio de la alianza de seguridad en la nube aquí.

Sobre el autor

John K. Waters es el editor en jefe de varios sitios de converge360.com, con un enfoque en el desarrollo de alta gama, la IA y la tecnología futura. Ha estado escribiendo sobre tecnologías de vanguardia y cultura de Silicon Valley durante más de dos décadas, y ha escrito más de una docena de libros. También co-scrito la película documental Silicon Valley: un renacimiento de 100 añosque se emitió en PBS. Se le puede contactar en [email protected].