A veces, lo más efectivo es lo más simple, un principio que Marco Figueroa, investigador de ciberseguridad, recordó la semana pasada al poner a prueba las capacidades de ChatGPT. La propuesta era ingeniosa: crear un juego de adivinanzas, dejando de lado los ataques técnicos y las intenciones ocultas. En lugar de tratar de desentrañar vulnerabilidades en el software, Figueroa optó por enfocarse en el lenguaje, y el resultado fue sorprendente. Mediante este enfoque, obtuvo claves de instalación genéricas de Windows 10, claves que, en teoría, no deberían dispensarse.
La clave de este experimento radicó en disfrazar la interacción como un juego. La intención no era únicamente obtener información prohibida, sino demostrar si la presentación de un contexto adecuado podría llevar a resultados inesperados. Figueroa reformuló la conversación en términos de un reto, donde la inteligencia artificial debía pensar en un texto real que el usuario intentaría adivinar a través de preguntas cerradas.
Durante la interacción, el modelo respondió con normalidad, sin detectar ninguna amenaza. Todo cambió cuando Figueroa introdujo la frase “I give up” —me rindo—, lo que activó una respuesta final del sistema. El modelo reveló entonces una clave de producto, tal y como se había estipulado en el marco del juego. Esto no fue un simple descuido, sino un ejemplo de cómo las instrucciones cuidadosamente diseñadas pudieron evadir los filtros de seguridad.
Aunque existen sistemas en ChatGPT diseñados para bloquear cualquier intento de acceder a datos sensibles —como contraseñas o enlaces peligrosos—, estos filtros, conocidos como “guardrails”, no fueron suficientemente eficaces en este caso. En un contexto de juego, el modelo no interpretó la situación como peligrosa, ya que no se utilizaron palabras ni estructuras que normalmente dispararían alertas.
Un elemento crucial que facilitó el fallo fue la técnica de ofuscación utilizada por Figueroa. En lugar de escribir expresiones directas como “Windows 10 serial number”, el investigador introdujo etiquetas HTML entre las palabras, lo que el modelo tomó como irrelevante y le permitió pasar por alto el contenido real.
¿Pero por qué funcionó y por qué es motivo de preocupación? Una razón clave es el tipo de clave revelada; no era una clave única, sino una clave genérica de instalación, como aquellas que son utilizadas en despliegues empresariales masivos. Estas claves están documentadas públicamente por Microsoft y sólo son operativas en conexión con un servidor KMS (Key Management Service) que valida su activación.
El problema no solo radica en el tipo de información obtenida, sino en cómo el modelo interpretó la conversación como un desafío lógico, sin reconocerlo como una evasión. Este experimento plantea preguntas sobre la capacidad de los modelos para discernir cuándo una interacción es potencialmente malintencionada.
Este incidente no es solo un tema anecdótico. Figueroa sugiere que la misma lógica podría usarse para acceder a una variedad de información sensible, desde enlaces maliciosos hasta datos restringidos. El contexto de la conversación juega un papel crucial, y la capacidad del modelo para identificar situaciones sospechosas podría estar en entredicho.
En resumen, el hecho de que se obtuvieron claves de un sistema tan protegido como Windows 10 subraya las vulnerabilidades en los filtros de seguridad de los modelos de inteligencia artificial. Aunque la naturaleza del contenido en este caso era menos crítica, el evento plantea un campo fértil para la especulación y la preocupación en el ámbito cibernético. El resultado muestra que una barrera que debía ser infranqueable cedió ante un enfoque ingenioso y, quizás, casual.
Gracias por leer Columna Digital, puedes seguirnos en Facebook, Twitter, Instagram o visitar nuestra página oficial. No olvides comentar sobre este articulo directamente en la parte inferior de esta página, tu comentario es muy importante para nuestra área de redacción y nuestros lectores.


