Los investigadores descubrieron recientemente posibles fallas de seguridad en generadores avanzados de imágenes de IA, particularmente en el caso de Recraft, un modelo de difusión avanzado.
Este descubrimiento genera preocupaciones sobre la divulgación involuntaria de instrucciones confidenciales del sistema, lo que podría tener implicaciones de gran alcance para la seguridad y la privacidad de la IA.
Los modelos de difusión como Stable Diffusion y Midjourney han revolucionado el campo de las imágenes generadas por IA al crear imágenes fotorrealistas a partir de indicaciones de texto.
Los investigadores de seguridad de Invicti descubrieron que estos modelos funcionan refinando gradualmente el ruido aleatorio en imágenes más claras mediante un proceso llamado “eliminación de ruido”. Pero Recraft, que actualmente lidera la clasificación de texto a imagen, ha demostrado capacidades que van más allá del modelo de adopción típico.
Los investigadores descubrieron que Recraft podía realizar tareas de lenguaje más allá del alcance típico de los modelos de generación de imágenes. Por ejemplo, cuando se le hacía una operación matemática o una pregunta geográfica, Recraft generaba una imagen que contenía la respuesta correcta, a diferencia de otros modelos que simplemente visualizan el texto sin entenderlo.
Guía gratuita definitiva de supervisión continua de la seguridad: descárguela aquí (PDF)
análisis técnico
Además de esto, una investigación más profunda reveló que Recraft emplea una arquitectura de dos niveles.
Los modelos de lenguaje a gran escala (LLM) procesan y reescriben las indicaciones de los usuarios. Las indicaciones procesadas se pasan al modelo de difusión.
Este enfoque único permite a Recraft manejar consultas complejas y producir imágenes más precisas y contextuales. Sin embargo, también introduce vulnerabilidades potenciales.
A través de una cuidadosa experimentación, los investigadores descubrieron que ciertas indicaciones pueden engañar al sistema para que revele algunas de sus instrucciones internas.
Al generar múltiples imágenes que contienen mensajes específicos, pudimos juntar los fragmentos de mensajes del sistema utilizados para guiar las operaciones de LLM.
Las instrucciones filtradas incluyen:
Comience las descripciones con “El estilo del mago” o “estilo de imagen” Proporcione descripciones detalladas de objetos y personajes Convierta las instrucciones en texto descriptivo Incluya detalles de composición específicos Para palabras como “Sol” o “Sunlight” Evite la necesidad de traducir texto que no esté en inglés al ingles
Esta divulgación involuntaria de indicaciones del sistema genera serias preocupaciones con respecto a la seguridad y privacidad de los modelos de IA. Si un atacante malintencionado puede extraer instrucciones confidenciales, podría manipular sistemas, eludir medidas de seguridad u obtener información sobre la tecnología patentada de IA.
Este hallazgo resalta la necesidad de medidas de seguridad sólidas en los sistemas de IA, especialmente a medida que se vuelven más complejos y poderosos. También destaca la importancia de realizar pruebas y auditorías exhaustivas de los modelos de IA para identificar y abordar posibles vulnerabilidades antes de que puedan explotarse.
A medida que la IA continúa avanzando y integrándose más profundamente en varios aspectos de nuestras vidas, garantizar la seguridad y la integridad de estos sistemas se vuelve primordial.
Este incidente es una llamada de atención para que los desarrolladores e investigadores de IA prioricen la seguridad junto con el rendimiento y la funcionalidad en el desarrollo continuo de la tecnología de IA.
Análisis GRATUITO ILIMITADO de phishing y malware con ANY.RUN: prueba gratuita de 14 días.