Inception Jailbreak Attack Bypass Chatgpt, Deepseek, Géminis, Grok y Copilot

El par de tecnologías de jailbreak recientemente descubiertas reveló vulnerabilidades sistemáticas en las barandillas de seguridad de los servicios de IA más populares de hoy, incluidos los chatgpt de OpenAi, Géminis de Google, Copilot de Microsoft, Deepseek, Claude de Anthrope, X’s Grok, Metaai y Mistralai.

Estos jailbreaks, que se pueden ejecutar en indicaciones casi idénticas en las plataformas, permiten a los atacantes evitar los protocolos de moderación y seguridad de contenido incorporados, generando contenido ilegal o peligroso.

El primero, llamado “Inception”, explota un escenario ficticio anidado para erosionar los límites éticos de la IA, mientras que el segundo revela que no debe manipular y responder a la IA, gira a las solicitudes ilegales.

El descubrimiento de estas técnicas destaca los desafíos clave en toda la industria. A pesar de que los proveedores compiten por implementar barandillas sofisticadas, el enemigo continúa encontrando nuevas formas de destruirlos, planteando preguntas urgentes sobre la solidez y el futuro de la seguridad de la IA.

Jailbreak sistemático: “Incepción” y tecnología de derivación contextual

En los últimos meses, se ha visto la aparición de dos estrategias de jailbreak altamente efectivas que explotan las debilidades básicas en el diseño y el despliegue de modelos de lenguaje a gran escala (LLM).

El primero, llamado “Inception”, alienta a AI a imaginar un escenario ficticio, lo que lleva gradualmente la conversación a solicitudes que a menudo se superponen dentro de otro escenario y normalmente están bloqueados por un filtro de seguridad.

Al aprovechar la capacidad de la IA para mantener el juego de roles y el contexto en múltiples rotaciones, los atacantes pueden guiar a sus modelos para generar contenido que viole las pautas éticas y legales.

Este método ha demostrado ser efectivo en todo el espectro de las principales plataformas de IA, lo que indica que las vulnerabilidades subyacentes no se limitan a un solo proveedor o arquitectura.

La segunda técnica de jailbreak funciona al preguntarle a la IA cómo no debe responder a una solicitud en particular, lo que provoca información sobre la barandilla interna.

El atacante puede alternarse entre las indicaciones normales e ilegales, aprovechando la memoria de contexto de AI para evitar las verificaciones de seguridad. También se ha demostrado que este enfoque funciona en múltiples plataformas, destacando aún más la naturaleza sistemática de la amenaza.

El Asesor de CERT establece que ambos métodos se basan en el diseño básico de la IA, la motivación útil, la capacidad de mantener el contexto y la sensibilidad a la manipulación sutil del lenguaje y el escenario.

Estas escapadas de la prisión tienen serias implicaciones. Al evitar medidas de seguridad, los atacantes pueden instruir a los sistemas de IA para crear contenido relacionado con sustancias controladas, armas, correos electrónicos de phishing, malware y otras actividades ilegales.

Aunque la gravedad de cada jailbreak puede considerarse baja por sí sola, la sistematicidad de la vulnerabilidad aumenta drásticamente el riesgo. Los actores de amenaza motivados pueden aprovechar estas debilidades para automatizar la creación de contenido dañino a escala, y usar servicios de IA potencialmente legítimos como proxy para enmascarar sus actividades.

La amplia sensibilidad de las plataformas clave como ChatGPT, Claude, Copilot, Deepseek, Géminis, Grok, Metaai y Mistralai muestra que los enfoques actuales para la seguridad y la moderación de contenido de la IA son insuficientes para abordar las tácticas evolutivas del enemigo.

Esto es especialmente preocupante dada la creciente dependencia de la generación de IA en toda la industria, desde el servicio al cliente hasta la atención médica, las finanzas y las finanzas.

Respuesta del proveedor

En respuesta al descubrimiento de estas vulnerabilidades, los proveedores afectados emitieron declaraciones y comenzaron a implementar la mitigación.

Deepseek, por ejemplo, admite este informe, pero afirma que el comportamiento observado constituye jailbreak tradicional en lugar de defectos arquitectónicos, y que las referencias a los “parámetros internos” de IA y las “indicaciones del sistema” son alucinaciones en lugar de fugas de información reales. La compañía se compromete a continuar mejorando las protecciones de seguridad.

Otros proveedores, incluidos OpenAi, Google, Meta, Humanidad, Mistraali y X, aún no se han publicado al momento de escribir este escrito, pero se informan investigaciones y actualizaciones internas.

Los expertos de la industria enfatizan que las barandillas post facto y los filtros de contenido continúan siendo componentes clave de la seguridad de la IA, pero no están completamente protegidos.

Los atacantes continúan desarrollando nuevas tecnologías, como la inyección de personalidad y la evitación hostil del aprendizaje automático, aprovechando puntos ciegos con sistemas moderados, reduciendo la precisión de detección y deslizando a través de contenido dañino.

La carrera armamentista entre los desarrolladores de IA y el enemigo puede intensificarse a medida que los modelos generativos se vuelven más capaces y ampliamente adoptados.

Se cree que el investigador de seguridad David Kuzsmar, quien informó la técnica de “inicio”, y Jacob Liddle, quien identificó el método de derivación de contexto, descubrió estos jailbreaks.

Su investigación, documentada por Christopher Cullen, provocó un escrutinio detallado de los protocolos de seguridad de IA y la necesidad urgente de una defensa más robusta y adaptativa.

A medida que el generador IA continúa integrándose rápidamente en la vida cotidiana y la infraestructura crítica, el desafío de proteger estos sistemas contra adversarios creativos y sostenidos se vuelve cada vez más complicado.

¿Eres de los equipos SOC y DFIR? – Analice los incidentes de malware y comience cualquiera.run-> gratis.