Informe: No existe ningún método infalible para detectar medios generados por IA
Un nuevo informe de investigación de Microsoft advierte que ninguna tecnología por sí sola puede distinguir de manera confiable el contenido generado por IA de los medios auténticos, y que una mayor dependencia de cualquier método en particular corre el riesgo de engañar al público.
El informe, titulado «Integridad y autenticación de los medios: estado, direcciones y futuros», se produjo en el marco del programa de seguridad de la IA a largo plazo en ingeniería e investigación (LASER) de Microsoft y se publicó a finales del mes pasado. Escrito por un equipo multidisciplinario de toda la empresa y dirigido por el director científico Eric Horvitz, el estudio evalúa tres tecnologías centrales utilizadas para autenticar medios digitales: procedencia criptográficamente segura, marcas de agua imperceptibles y huellas dactilares de hash suave.
«Una prioridad en un mundo con cantidades crecientes de contenido generado por IA debe ser certificar la realidad misma», afirma el informe.
El estudio identificó limitaciones en cada método de autenticación cuando se usa de forma aislada. Los metadatos de procedencia, el enfoque más adoptado, construido en gran medida en torno al estándar abierto de la Coalición para la Procedencia y Autenticidad del Contenido (C2PA), pueden ser eliminados, falsificados o socavados por implementaciones de dispositivos locales que carecen de controles de seguridad a nivel de nube. Las marcas de agua se pueden eliminar o aplicar ingeniería inversa, especialmente cuando se integran en dispositivos de consumo. Según el informe, la toma de huellas dactilares, que utiliza hash perceptual para comparar contenido con bases de datos conocidas, se describe como inadecuada para una validación pública de alta confianza debido al riesgo de colisiones de hash y los costos de la gestión de bases de datos a gran escala.
Una de las advertencias más agudas del informe se centra en lo que los investigadores llaman «ataques de reversión». Estos ataques invierten las señales de autenticación para que el contenido real parezca generado por IA y el contenido generado por IA parezca real. En un escenario descrito en el estudio, un atacante podría tomar una foto genuina, realizar una pequeña edición asistida por IA con una herramienta de relleno generativo y luego adjuntar credenciales C2PA que indiquen con precisión la participación de la IA. Aunque la imagen original era real, la divulgación adicional podría usarse para arrojar dudas sobre ella.
El informe recomienda que las plataformas de validación muestren al público sólo resultados que cumplan con un umbral de alta confianza. Los investigadores dijeron que el enfoque más confiable combina datos de procedencia con marcas de agua. Si un manifiesto C2PA está presente y se valida correctamente, o si una marca de agua detectada se vincula a un manifiesto verificado en un registro seguro, el contenido puede tratarse como autenticación de alta confianza.
La seguridad del hardware es otra preocupación importante. Según el informe, los sistemas locales y fuera de línea (incluidas la mayoría de las cámaras de consumo y las herramientas de firma basadas en PC) son menos seguros que las implementaciones basadas en la nube. Los usuarios con control administrativo de un dispositivo pueden alterar o eludir las herramientas que generan datos de procedencia, debilitando la cadena de confianza.
«La confusión general sobre el propósito y las limitaciones de los métodos MIA resalta una necesidad urgente de educación», señala el informe, y agrega que las expectativas del público deben recalibrarse para que coincidan con lo que estas herramientas realmente pueden ofrecer antes de que avance la adopción de políticas.
El informe también expresa preocupación por los detectores de deepfake basados en IA, que el equipo de investigación de Microsoft describió como una última línea de defensa útil pero intrínsecamente poco confiable. Los detectores patentados creados por el equipo AI for Good de Microsoft mostraron una precisión en el rango del 95% en condiciones no adversas, pero el informe advirtió que la dinámica del «gato y el ratón» entre los generadores de IA y los detectores significa que ninguna herramienta de detección puede considerarse completamente confiable. El equipo observó que una alta confianza en el detector en realidad puede amplificar el daño causado por los falsos negativos, porque es más probable que los resultados confiables no sean cuestionados.
Los hallazgos se conectan con un conjunto más amplio de desarrollos de seguridad de la IA que Microsoft ha seguido en los últimos meses. La empresa cofundó una iniciativa de seguridad de IA de código abierto junto con Google, Nvidia y otros. También amplió Security Copilot con agentes de IA dedicados diseñados para automatizar la detección de amenazas y la protección de identidad en entornos empresariales, y advirtió en un análisis separado que la IA generativa está acelerando la carrera armamentista entre atacantes y defensores. Este último estudio agrega una nueva capa de urgencia en torno a la infraestructura de procedencia específicamente, la tecnología que sustenta la forma en que las organizaciones, los periodistas y los consumidores verifican lo que es real.
El informe insta a los proveedores de IA generativa a priorizar la procedencia y las marcas de agua en sus sistemas, a las plataformas de distribución, como los sitios de redes sociales, a preservar los datos del manifiesto C2PA durante el proceso de carga, y a los formuladores de políticas a alinear los cronogramas legislativos con lo que es técnicamente factible.
El informe completo está disponible aquí en el sitio de Microsoft.
