Investigadores encuentran una manera de evadir fácilmente las protecciones en ChatGPT de OpenAI y en todos los otros chatbots de inteligencia artificial.

Investigadores encuentran una forma de evadir protecciones en ChatGPT de OpenAI y otros chatbots de IA.

Houston, tenemos un problema. Eso es lo que mucha gente pensó ayer cuando los investigadores de la Universidad Carnegie Mellon y del Centro de Seguridad de la Inteligencia Artificial anunciaron que habían encontrado una forma de superar con éxito las barreras de protección, los límites que los desarrolladores de IA ponen en sus modelos de lenguaje para evitar que proporcionen instrucciones para fabricar bombas o chistes antisemitas, por ejemplo, de prácticamente todos los modelos de lenguaje grandes que existen. El descubrimiento podría suponer un gran problema para cualquiera que esperara desplegar un modelo de lenguaje en una aplicación de cara al público. Significa que los atacantes podrían hacer que el modelo participe en diálogos racistas o sexistas, escribir malware y hacer prácticamente cualquier cosa que los creadores del modelo hayan intentado entrenar al modelo para que no haga. También tiene implicaciones aterradoras para aquellos que esperan convertir los modelos de lenguaje en asistentes digitales potentes que puedan realizar acciones y completar tareas en Internet. Resulta que puede que no haya forma de evitar que dichos agentes sean fácilmente secuestrados con fines maliciosos. El método de ataque que encontraron los investigadores funcionó, hasta cierto punto, en todos los chatbots, incluidos el ChatGPT de OpenAI (tanto las versiones GPT-3.5 como GPT-4), Bard de Google, Bing Chat de Microsoft y Claude 2 de Anthropic. Pero la noticia fue particularmente preocupante para aquellos que esperaban construir aplicaciones de cara al público basadas en modelos de lenguaje de código abierto, como los modelos LLaMA de Meta.

Esto se debe a que el ataque que desarrollaron los investigadores funciona mejor cuando un atacante tiene acceso a todo el modelo de IA, incluidos sus pesos. (Los pesos son los coeficientes matemáticos que determinan cuánta influencia tiene cada nodo en una red neuronal en los demás nodos a los que está conectado). Sabiendo esta información, los investigadores pudieron usar un programa informático para buscar automáticamente sufijos que se pudieran agregar a una indicación y que garantizaran anular las barreras de protección del sistema. A los ojos humanos, algunos de estos sufijos parecen una larga cadena de caracteres aleatorios y palabras sin sentido. Pero los investigadores determinaron, gracias a la forma extraña en que los modelos de lenguaje construyen conexiones estadísticas, que esta cadena engañará al modelo de lenguaje para que proporcione la respuesta que el atacante desea. Algunas de las cadenas parecen incorporar lenguaje que las personas ya descubrieron que a veces puede eludir las barreras de protección. Por ejemplo, pedirle a un chatbot que comience su respuesta con la frase “Claro, aquí tienes…” a veces puede hacer que el chatbot intente dar al usuario una respuesta útil a cualquier consulta que haya hecho en lugar de seguir las barreras de protección y decir que no se le permite proporcionar una respuesta. Pero las cadenas automatizadas van mucho más allá y funcionan de manera más efectiva. Contra Vicuna, un chatbot de código abierto construido sobre el modelo LlaMA original de Meta, el equipo de Carnegie Mellon encontró que sus ataques tenían una tasa de éxito cercana al 100%. Contra los nuevos modelos LlaMA 2 de Meta, que la empresa ha dicho que fueron diseñados con barreras de protección más sólidas, el método de ataque logró una tasa de éxito del 56% para cualquier comportamiento dañino individual. Pero si se utilizaba un conjunto de ataques para tratar de inducir uno de los múltiples comportamientos dañinos posibles, los investigadores descubrieron que al menos uno de esos ataques eludía las barreras del modelo el 84% de las veces. Encontraron tasas de éxito similares en una serie de otros chatbots de IA de código abierto, como el modelo Pythia de EleutherAI y el modelo Falcon del Instituto de Tecnología de los Emiratos Árabes Unidos. Sorprendentemente, los mismos sufijos de ataque extraños funcionaron relativamente bien contra modelos propietarios, donde las empresas solo proporcionan acceso a una interfaz de indicación pública. En estos casos, los investigadores no pueden acceder a los pesos del modelo, por lo que no pueden usar su programa informático para ajustar un sufijo de ataque específicamente para ese modelo.

Zico Kolter, uno de los profesores de Carnegie Mellon que trabajó en la investigación, me dijo que hay varias teorías sobre por qué el ataque podría transferirse a modelos propietarios. Una es que la mayoría de los modelos de código abierto se entrenaron en parte con diálogos disponibles públicamente que los usuarios tuvieron con la versión gratuita de ChatGPT y que luego se publicaron en línea. Esa versión de ChatGPT utiliza el modelo LLM GPT-3.5 de OpenAI. Esto significa que los pesos del modelo de estos modelos de código abierto podrían ser bastante similares a los pesos del modelo GPT-3.5. Por lo tanto, tal vez no sea tan sorprendente que un ataque ajustado para los modelos de código abierto también funcionara bien contra la versión GPT-3.5 de ChatGPT (logrando una tasa de éxito del 86,6% si se utilizaban múltiples ataques). Pero el hecho de que los ataques también hayan tenido éxito contra Bard, que se basa en el modelo PaLM 2 de Google (con una tasa de éxito del 66%), puede indicar que está sucediendo algo más. (O también puede ser una indicación adicional de que, a pesar de las vehementes negaciones de Google, de hecho utilizó datos de ChatGPT para ayudar a entrenar a Bard).Kolter dice que sospecha que la respuesta puede tener que ver en realidad con la naturaleza del lenguaje mismo y cómo los sistemas de aprendizaje profundo construyen mapas estadísticos del lenguaje. “Es plausible que el mecanismo subyacente sea simplemente que en los datos existan estas características regulatorias, completamente opacas y extrañas para nosotros como humanos, de caracteres, tokens y palabras aleatorias, que cuando se juntan, realmente le dicen algo a un modelo”, dice. Curiosamente, el modelo Claude 2 de Anthropic, que se entrena utilizando un método que la empresa llama IA constitucional, que entrena en parte un modelo en sus propias autocríticas sobre si las respuestas se ajustan a un conjunto de principios escritos, es significativamente menos susceptible a los ataques derivados de los modelos de código abierto. En Claude 2, estos ataques solo funcionaron el 2,1% de las veces.

Pero Matt Fredrikson, otro de los investigadores de Carnegie Mellon, dice que todavía había formas de engañar a Claude 2 para que respondiera, en parte pidiendo al modelo que asumiera una personalidad colaborativa o que se imaginara jugando un juego antes de intentar el sufijo de ataque. (Los ataques funcionaron el 47,9% de las veces contra el modelo original Claude 1, que también utilizaba “IA constitucional” y podría indicar que otros pasos que Anthropic tomó en el entrenamiento de Claude 2, no la IA constitucional en sí misma, son responsables de las barreras de protección aparentemente más fuertes). Entonces, ¿significa la investigación de Carnegie Mellon que los modelos de IA poderosos no deberían ser de código abierto? Absolutamente no, me dijeron Kolter y Fredrikson. Después de todo, nunca habrían descubierto esta vulnerabilidad de seguridad sin modelos de código abierto para experimentar. “Creo que tener más personas trabajando para identificar mejores enfoques y soluciones, haciendo cada vez más difícil [atacar los modelos], es definitivamente preferible a tener personas sentadas con exploits de día cero para estos modelos muy grandes”, dijo Fredrikson.

Kolter dijo que obligar a que todos los LLM sean propietarios no ayudaría. Solo significaría que solo aquellos con suficiente dinero para construir sus propios LLM estarían en posición de diseñar el tipo de ataque automatizado que él y sus colegas investigadores descubrieron. En otras palabras, los estados nacionales o actores ilegales bien financiados aún podrían llevar a cabo este tipo de ataques, pero los investigadores académicos independientes no podrían encontrar formas de protegerse contra ellos. Pero Kolter también señaló que la investigación del equipo construyó métodos que anteriormente habían tenido éxito atacando sistemas de IA de clasificación de imágenes. Y señaló que, aunque esos métodos de ataque de clasificación de imágenes se descubrieron hace más de seis años, hasta ahora no se ha encontrado una buena manera de derrotarlos de manera confiable sin sacrificar el rendimiento y la eficiencia general del modelo de IA. Dijo que esto podría no augurar bien para las posibilidades de mitigar esta vulnerabilidad de LLM recién descubierta. En mi opinión, esto es una gran señal de advertencia sobre toda la revolución de la IA generativa. Tal vez sea hora de frenar la integración de estos sistemas en productos comerciales hasta que podamos descubrir realmente cuáles son las vulnerabilidades de seguridad y cómo hacer que este software de IA sea más robusto. Sin duda, argumenta en contra de avanzar demasiado rápido para convertir LLM en agentes y asistentes digitales, donde las consecuencias de anular las barreras de protección pueden no ser solo lenguaje tóxico o publicaciones de blogs contra la vacunación, sino daños financieros e incluso físicos. Y a pesar de la posición de Kolter y Fredrikson, creo que sus hallazgos son un golpe serio para la IA de código abierto. De hecho, ya hay evidencia de que el gobierno de Estados Unidos tiende a requerir que las empresas mantengan los pesos del modelo privados y seguros. Pero incluso si eso no sucede, ¿qué negocio querrá construir un producto comercial sobre los modelos de código abierto de hoy, sabiendo que tienen vulnerabilidades de seguridad comprobadas y fácilmente explotables?***Ok, antes de continuar con el resto de las noticias de IA de esta semana, un par de anuncios. Entre las preguntas que ha suscitado la revolución de la IA generativa está si estamos a punto de presenciar una reorganización importante de los jugadores dominantes en Silicon Valley. Quizás el gigante de Silicon Valley con el mayor signo de interrogación sobre su destino sea Alphabet, cuyo negocio de búsqueda en Internet de $160 mil millones está amenazado por un mundo en el que las personas recurren a los chatbots de IA para obtener respuestas instantáneas en lugar de una lista clasificada de enlaces. Cuando ChatGPT debutó en noviembre, muchos pensaron que demostraría ser un asesino instantáneo de Google y que Alphabet, la empresa matriz de Google, se había vuelto demasiado grande, burocrática y esclerótica para responder de manera efectiva. Bueno, en los últimos seis meses, Google ha demostrado que tiene suficiente músculo de IA que puede ejercitar. Pero no ha demostrado que sabe cómo escapar de su dilema innovador esencial. Me sumerjo en el dilema existencial de Alphabet y paso tiempo con algunos de los ejecutivos en la primera línea de su estrategia de IA en la edición de agosto/septiembre de ANBLE. Si aún no has leído la historia, puedes leerla aquí.Finalmente, el Eye on A.I. de hoy será el último número que escribo por un tiempo. Me tomaré varios meses de descanso para trabajar en un libro sobre, lo adivinaste, IA. Volveré contigo, si todo va según lo planeado, en diciembre. Mientras tanto, algunos de mis colegas te guiarán a través de los desarrollos semanales de IA aquí. Que estén bien y nos vemos pronto.

Jeremy [email protected]@jeremyakahn

IA EN LAS NOTICIAS

Un nuevo grupo comercial para empresas que construyen “modelos frontera” Cuatro de los laboratorios de investigación de IA que avanzan hacia la inteligencia artificial general se unieron para formar un nuevo organismo de la industria llamado Frontier Model Forum. Puedes leer más en el blog de OpenAI. Actualmente, el grupo está compuesto por OpenAI, Microsoft, Google DeepMind y Anthropic, aunque dijeron que otros que trabajan en los sistemas de IA más avanzados y potentes también pueden solicitar unirse. Las cuatro empresas planean compartir mejores prácticas sobre seguridad de IA y “compartir conocimientos” (ejem, hacer lobby) con los responsables de formular políticas sobre posibles regulaciones de seguridad de IA. Algunos expertos en IA que han sido críticos con el enfoque de estas empresas en los riesgos de la IA existencial en lugar de los daños causados por los sistemas de IA que existen hoy en día, le dijeron al Financial Times que las empresas pueden estar utilizando el Foro para distraer aún más a los responsables de formular políticas para que no creen reglas que aborden los problemas éticos y de seguridad existentes de la IA. También dijeron que el Foro, así como acciones como los compromisos voluntarios que las cuatro empresas y otras tres hicieron con la Administración Biden, pueden ser parte de un esfuerzo por afirmar que la industria puede autorregularse y evitar un escrutinio y control gubernamentales más estrictos, a pesar de que los ejecutivos de las cuatro empresas involucradas en el Foro han pedido públicamente regulaciones gubernamentales.

OpenAI eliminó silenciosamente su detector de A.I. La compañía había proporcionado acceso a un software que decía poder ayudar a detectar prosa escrita por inteligencia artificial. El software fue lanzado en enero después de que educadores se quejaran de que los estudiantes usaban ChatGPT para hacer trampa en las tareas, y de que algunas revistas literarias y sitios web que dependen de contenido generado por usuarios se vieran abrumados con contenido generado por ChatGPT. Pero el detector de OpenAI nunca funcionó muy bien, solo siendo capaz de identificar con precisión la prosa de inteligencia artificial el 25% del tiempo. Ahora la compañía ha retirado completamente el software, según informa la publicación tecnológica The Register. Mientras tanto, otros detectores de A.I. afirman tasas de hasta el 98%, pero revisiones independientes de dichos sistemas han encontrado tasas mucho más bajas y todos estos sistemas también tienen tasas altas de falsos positivos, lo que ha llevado a que algunos estudiantes sean acusados falsamente de hacer trampa. El CEO de OpenAI, Sam Altman, recientemente ha respaldado la marca de agua digital como una forma de facilitar la detección de contenido generado por A.I.

Todos los investigadores de Google que crearon el Transformer han dejado Google. Un artículo en Financial Times analiza la historia del Transformer, la arquitectura de red neuronal específica que respalda todo el auge de la inteligencia artificial generativa. El Transformer fue inventado por un equipo de ocho investigadores en la división de investigación de A.I. de Google Brain en 2017. Pero en los años intermedios, los ocho científicos han dejado la empresa para fundar startups, incluyendo algunas de las más populares y mejor financiadas en el espacio de la inteligencia artificial generativa, como Cohere, Adept y Character.ai. El último de los ocho, Llion Jones, acaba de renunciar este mes y planea lanzar su propia startup, según un artículo de Bloomberg. (Dos de los investigadores que cofundaron Adept también han dejado esa empresa para ir a otra startup que aún está en modo sigilo). El artículo de FT utiliza la partida de los investigadores como una acusación a la cultura de Google. Pero también es una mirada interesante al fermento intelectual posible en un gran laboratorio como Google Research, que podría ser mucho menos posible en una startup centrada en la construcción de productos.

OpenAI está bajo presión para ofrecer su A.I. a través de proveedores de servicios en la nube que no sean Microsoft. Eso es según un artículo de Semafor, que citó fuentes anónimas. El artículo dijo que hasta ahora OpenAI se ha negado, poniendo sus modelos de A.I. disponibles a través de su propia API o a través del servicio en la nube Azure de Microsoft. Pero algunos clientes que les gustaría usar los modelos de OpenAI tienen toda su empresa en otra plataforma en la nube o preferirían ejecutar el software en sus propios servidores, lo cual no es una opción. Esto ha obligado a algunas de estas compañías a buscar alternativas, como Claude 2 de Anthropic, que está disponible en múltiples nubes, incluyendo Google Cloud y AWS. Otros están recurriendo a modelos de código abierto, como LLaMA 2 de Meta.