Los piratas informáticos colocan recuerdos falsos en ChatGPT y roban permanentemente los datos de los usuarios


Imágenes falsas

El investigador de seguridad Johan Rehberger informó recientemente sobre una vulnerabilidad en ChatGPT que podría permitir a los atacantes almacenar información falsa o instrucciones maliciosas en la configuración de la memoria a largo plazo de los usuarios. Sin embargo, OpenAI rápidamente interrumpió la investigación y clasificó la falla como un problema de seguridad en lugar de una seguridad técnica. inquietud.

Entonces, Rehberger hizo lo que haría cualquier buen investigador y creó una prueba de concepto que aprovecha esta vulnerabilidad para robar permanentemente toda la información del usuario. Los ingenieros de OpenAI se dieron cuenta de esto y publicaron una solución parcial a principios de este mes.

caminar por el carril de los recuerdos

La vulnerabilidad explota la memoria conversacional a largo plazo, una característica que OpenAI probó en febrero y fue ampliamente divulgada en septiembre. La memoria de ChatGPT almacena información de conversaciones anteriores y la utiliza como contexto para todas las conversaciones futuras. Esto permite a LLM reconocer casi cualquier detalle del usuario, como edad, sexo, creencias filosóficas, etc., y elimina la necesidad de ingresar esos detalles en cada conversación.

A los tres meses de su lanzamiento, Rehberger descubrió que mediante una inyección inmediata indirecta (un exploit de IA) se podían crear y almacenar recuerdos para siempre. Esto permite a los LLM seguir instrucciones de contenido que no es de confianza, como correos electrónicos, publicaciones de blogs y documentos. Los investigadores engañaron a ChatGPT haciéndoles afirmar que su usuario objetivo tenía 102 años, vivía en Matrix y que la Tierra era plana, lo que demuestra cómo LLM toma esa información para guiar todas las conversaciones futuras. Estos recuerdos falsos se pueden plantar guardando archivos en Google Drive o Microsoft OneDrive, cargando imágenes o navegando por sitios como Bing. Todo esto puede ser creado por un atacante malintencionado.

Rehberger informó en privado sobre este descubrimiento a OpenAI en mayo. Ese mismo mes, la empresa cerró el ticket de denuncia. Un mes después, los investigadores presentaron una nueva declaración de divulgación. Esta vez, la PoC incluyó una aplicación ChatGPT para macOS que envía una copia literal de todas las entradas del usuario y la salida ChatGPT a un servidor arbitrario. Todo lo que el objetivo tenía que hacer era decirle a LLM que mostrara el enlace web que aloja la imagen maliciosa. A partir de entonces, todas las entradas y salidas de ChatGPT se enviaron al sitio web del atacante.

ChatGPT: pirateo de memoria con inyección rápida – POC

“Lo que es realmente interesante es que esto ahora persiste en la memoria”, dice Rehberger en el vídeo de demostración anterior. “La inyección inmediata insertó memoria en el almacenamiento a largo plazo de ChatGPT. Cuando inicias una nueva conversación, en realidad todavía se están extrayendo datos”.

Gracias a una API lanzada por OpenAI el año pasado, los ataques a través de la interfaz web ChatGPT ya no son posibles.

Aunque OpenAI ha introducido correcciones para evitar que la memoria sea explotada como un vector de exfiltración, el contenido no confiable aún puede realizar inyecciones rápidas y almacenar información a largo plazo colocada por actores maliciosos en herramientas de memoria, dijo el investigador.

Los usuarios de LLM que quieran evitar esta forma de ataque deben prestar mucha atención a los resultados que indican que se ha agregado nueva memoria durante una sesión. Además, la memoria almacenada debe comprobarse periódicamente para detectar cualquier elemento que pueda haber sido implantado por fuentes no confiables. OpenAI proporciona orientación sobre cómo administrar las herramientas de memoria y la memoria específica almacenada en ellas aquí. Un representante de la empresa no respondió a un correo electrónico preguntando sobre los esfuerzos para prevenir otros ataques que implantan memoria falsa.


https://arstechnica.com/security/2024/09/false-memories-planted-in-chatgpt-give-hacker-persistent-exfiltration-channel/