Cómo proteger los secretos en los modelos de lenguaje grande (MLG)
El Proyecto de Seguridad de Aplicaciones Open Worldwide (OWASP) ha publicado múltiples versiones de «OWASP Top 10 para Modelos de Lenguaje Grande«, un documento que se encuentra actualmente en su versión 1.1. El objetivo es demostrar no solo la naturaleza en constante evolución de los Modelos de Lenguaje Grande, sino también las formas cómo estos pueden ser atacados y defendidos. Sin embargo, es importante tener en cuenta que los Modelos de Lenguaje Grande también pueden ser utilizados para revelar secretos, como contraseñas y claves de API.
Recientemente, se informó que más de 10 millones de secretos se encontraron en confirmaciones públicas de GitHub y que la herramienta de codificación de inteligencia artificial (IA) Copilot de GitHub reveló más de 2.700 secretos válidos. Los investigadores, de la Universidad de Hong Kong, encontraron que esto se hizo a través de la técnica de «inyección de sugerencia», que es el número uno en la lista de los 10 principales para Modelos de Lenguaje Grande de OWASP. Esta técnica manipula un modelo de lenguaje grande a través de entradas astutas, causando acciones no deseadas.
Para disminuir la revelación accidental de secretos, existen algunas medidas a tomar, como rotar los secretos periódicamente, limpiar los datos y parchear regularmente y limitar los privilegios. Es importante establecer barreras y aplicar el principio de privilegio mínimo para que su LLM y su infraestructura no tengan acceso a ningún dato o funcionalidad que no necesiten. También es importante tener precaución con los Modelos de Lenguaje Grande y hacer uso de herramientas de escaneo para detectar secretos antes de que sean alimentados al LLM. En resumen, aunque los Modelos de Lenguaje Grande tienen un potencial increíble, se deben usar con precaución al igual que cualquier herramienta nueva.
Vía The Hacker News