Los modelos generativos de imágenes han transformado la manera en que creamos y compartimos imágenes, y los proveedores han respondido incorporando marcas de agua y señales de procedencia para ayudar a rastrear el origen y hacer cumplir los derechos. Estas marcas de agua van desde logotipos visibles y metadatos hasta firmas invisibles de ruido latente y marcas semánticas incrustadas en las salidas del modelo.
Pero en los últimos años, una corriente constante de investigaciones, a través de ICCV, ICML, NeurIPS y preprints en arXiv, ha demostrado que muchas clases de marcas de agua son vulnerables a ataques adaptativos. Este artículo revisa la evidencia, el kit de herramientas de ataque en evolución y lo que los defensores pueden esperar de manera realista.
Por qué se propusieron las marcas de agua y cómo funcionan
Las marcas de agua y las etiquetas de procedencia se propusieron para proporcionar procedencia, atribución y protección de derechos de autor para contenido generado por IA. Sistemas industriales como Google SynthID, OpenAI/DALL·E 3 C2PA Content Credentials y las vistas previas de Microsoft demuestran el impulso real para mostrar información de origen a usuarios finales y plataformas.
Los enfoques técnicos varían: las marcas visibles y los metadatos son fáciles de entender pero fáciles de eliminar; las marcas de agua invisibles a nivel de píxel o de ruido latente intentan ocultar señales en el proceso de generación; las marcas de agua semánticas codifican señales de nivel superior vinculadas al contenido o la clase. Cada clase acepta diferentes modelos de atacante y compensaciones entre robustez, visibilidad y utilidad.
Investigadores y proveedores reconocieron que los modelos generativos son oráculos poderosos, denoiser, muestreadores de difusión y grandes editores de imágenes, que los atacantes pueden usar para perturbar o regenerar imágenes. Esa capacidad altera fundamentalmente el modelo de amenaza para cualquier esquema de marca de agua desplegado a escala.
El panorama de ataques adaptativos: por imagen, dirigidos al modelo y de caja negra
La literatura reciente categoriza los ataques en tres grupos prácticos: ataques por imagen (perturbaciones adversarias, denoise+reconstrucción), ataques dirigidos al modelo (ajuste fino o purificación de un decodificador de código abierto) y ataques de falsificación/eliminación de caja negra que solo requieren una imagen de referencia. Esta taxonomía ayuda a explicar por qué diferentes clases de marcas de agua fallan de diferentes maneras.
Artículos de alto perfil documentan cómo operan estos ataques. El resultado de ICML 2024 Watermarks in the Sand concluye que el marcado de agua fuerte es imposible. Bajo supuestos relativamente naturales, el artículo presenta ataques eficientes que eliminan marcas de agua con una pérdida de calidad mínima (ICML 2024).
Los ataques dirigidos al modelo pueden ser especialmente poderosos en decodificadores de difusión de código abierto: el ajuste fino o la purificación dirigida pueden borrar señales latentes en muchas salidas, manteniendo la calidad perceptual. Los ataques por imagen, en cambio, concentran recursos en un pequeño conjunto de imágenes y pueden usar regeneración/denoising para romper de manera confiable marcas de agua invisibles (trabajo de regeneración arXiv 2023).
Ataques de caja negra y de imagen única: prácticos y sorprendentes
Una de las tendencias empíricas más preocupantes es el auge de los métodos de caja negra que requieren muy poca información. Un arXiv de diciembre de 2024 y un arXiv de abril de 2025 muestran que los atacantes pueden falsificar o eliminar marcas de agua semánticas y de difusión de ruido latente usando modelos no relacionados o solo un ejemplo marcado con agua.
Como dice un artículo: el ataque adversario de caja negra ... usa solo un ejemplo marcado con agua. El trabajo de abril de 2025 Forging and Removing Latent-Noise Diffusion Watermarks Using a Single Image demuestra una receta práctica de caja negra tanto para falsificar como para borrar marcas de agua de ruido latente en múltiples esquemas en SDv1.4 y SDv2.0 (arXiv 2025).
Estos ataques de ejemplo único importan porque escalan: un atacante no necesita acceder al modelo original, la clave de la marca de agua o grandes corpus. Una sola imagen marcada puede permitir una falsificación o eliminación amplia en muchas salidas, bajando drásticamente la barrera para el uso indebido.
Defensas demostrables, sus avances y sus límites
Los defensores han contraatacado. NeurIPS 2024 introdujo RAW (A Robust and Agile Plug-and-Play Watermark Framework), afirmando garantías demostrables contra ataques de eliminación y reportando mejoras de AUROC de 0.48 a 0.82 en escenarios de eliminación adversaria (NeurIPS 2024). Estos resultados muestran avances medibles en la evaluación de robustez adversaria.
Otras defensas buscan vincular criptográficamente las marcas de agua, añadir incrustaciones conscientes del contenido semántico o usar semillas rastreables. Propuestas tipo SEAL y conceptos como NoisePrints intentan vincular la verificación de la marca de agua a la semántica del contenido o a semillas criptográficas en lugar de a patrones de píxeles frágiles, aumentando el esfuerzo requerido para una falsificación o eliminación exitosa.
Aun así, la teoría y el trabajo empírico moderan el optimismo. El resultado de imposibilidad de ICML y una variedad de ataques de regeneración y denoising dejan claro que algunas garantías de marcas de agua no pueden mantenerse universalmente. La carrera armamentista continúa: las defensas demostrables suelen depender de supuestos más fuertes (acceso limitado del atacante, oráculos restringidos) que los atacantes del mundo real pueden no respetar.
Estudios de caso, kits de herramientas e incidentes reales
Varios kits de herramientas y repositorios reproducibles permiten a investigadores y atacantes ejecutar pipelines de eliminación y falsificación. Proyectos como DiffWA, Warfare, DiffuseTrace y otros han evaluado técnicas de eliminación; un kit de herramientas reportó velocidades de ataque miles de veces más rápidas que los primeros ataques basados en modelos de difusión, haciendo factible la eliminación a gran escala.
El código académico y las demostraciones también son públicos: por ejemplo, el repositorio de imposibilidad de ICML, el repositorio oficial de Stable Signature (ICCV 2023) y muchos agregadores de GitHub hacen reproducibles tanto los diseños de marcas de agua como sus vulnerabilidades. Esta apertura acelera tanto el desarrollo de defensas como de ataques.
Incidentes industriales ilustran el impacto. En marzo de 2025, periodistas demostraron que las herramientas de imagen Gemini 2.0 Flash de Google podían eliminar marcas de agua visibles y rellenar de manera plausible regiones faltantes, generando preocupaciones de derechos de autor y seguridad. Mientras tanto, los proveedores que incluyen metadatos de procedencia advierten que las marcas visibles y los metadatos pueden ser eliminados, editados o perdidos durante la regeneración.
Orientación práctica: qué deben hacer los defensores, plataformas y usuarios
Primero, aceptar expectativas realistas: ninguna clase de marca de agua es infalible frente a atacantes adaptativos. La conclusión práctica de múltiples artículos y reportes es que las marcas de agua invisibles/latentes pueden ser eliminadas o falsificadas mediante regeneración por difusión, perturbaciones adversarias por imagen o ajuste fino dirigido al modelo, y muchos ataques solo requieren acceso de caja negra o una imagen de referencia.
Segundo, superponer defensas. Combinar metadatos de procedencia, señales visibles, vinculación criptográfica cuando sea posible y verificación del lado del servidor en el punto de distribución. Utilizar sistemas de detección que incorporen señales conscientes de la semántica y detección de anomalías en lugar de depender de un solo bit frágil en los píxeles o el ruido latente.
Finalmente, invertir en monitoreo, políticas y herramientas legales. Debido a que las defensas técnicas quedarán rezagadas frente a atacantes adaptativos, las plataformas deben combinar el marcado de agua con moderación de contenido, flujos de trabajo de eliminación y transparencia de procedencia para que los daños puedan mitigarse incluso cuando fallen los marcadores técnicos.
Perspectiva de investigación: la carrera armamentista en curso
El campo es saludable en el sentido de que los principales congresos (ICCV, ICML, NeurIPS) y un flujo activo en arXiv documentan tanto nuevas propuestas de marcas de agua como ataques adaptativos correspondientes. Este patrón de proponer, atacar, defender y repetir sugiere progreso continuo pero ninguna victoria definitiva.
Una línea de investigación es formalizar las capacidades del atacante y los límites demostrables bajo oráculos realistas; otra es construir vínculos criptográficos entre el contenido y las claves del modelo que sean más difíciles de simular o invertir. Sin embargo, cada nueva defensa será puesta a prueba por oráculos generativos que pueden simular vías de eliminación.
Los modelos de código abierto y el código público bajan la barrera para ataques a gran escala, por lo que la investigación debe combinar avances técnicos con medidas operativas, benchmarks reproducibles y trabajo interdisciplinario entre derecho y políticas para que el marcado de agua tenga sentido en la práctica.
En resumen, las marcas de agua siguen siendo una herramienta útil pero no una panacea. Los diseñadores deben evitar prometer garantías excesivas y, en cambio, presentar las marcas de agua como un elemento de una estrategia de procedencia en capas.
Como resume la literatura: el marcado de agua fuerte es imposible. La defensa puede aumentar el costo del uso indebido, pero la carrera armamentista continuará mientras los atacantes exploten oráculos, ataques de imagen única y ajuste fino de modelos para eliminar o falsificar señales.