Según los investigadores de IA, hay ‘prácticamente ilimitadas’ formas de eludir la regla de seguridad de Bard y ChatGPT, y no están seguros de cómo solucionarlo.

Según investigadores de IA, hay formas ilimitadas de eludir la regla de seguridad de Bard y ChatGPT y no saben cómo solucionarlo.

  • Un grupo de investigadores dijo haber encontrado formas de eludir la moderación de contenido de los chatbots de inteligencia artificial (IA).
  • Un investigador involucrado en el estudio le dijo a Wired que no había forma de solucionar los ataques.
  • “Simplemente no sabemos cómo hacerlos seguros”, dijo, haciendo referencia a los chatbots de IA convencionales.

Un grupo de investigadores dijo haber encontrado virtualmente infinitas formas de evadir la moderación de contenido de los chatbots de IA más importantes, y nadie está seguro de cómo solucionarlo.

En un informe publicado la semana pasada, investigadores de la Universidad Carnegie Mellon en Pittsburgh y el Centro de Seguridad de IA en San Francisco dijeron haber encontrado formas de romper las estrictas medidas de seguridad implementadas en productos de IA convencionales como ChatGPT de OpenAI, Bard de Google y Claude de Anthropic.

Las “liberaciones” fueron creadas de manera completamente automatizada, lo que, según advirtieron, permitía la posibilidad de crear una cantidad “virtualmente ilimitada” de ataques similares. Los investigadores encontraron que los hacks socavaban las barreras de protección de la mayoría de los chatbots importantes y teóricamente podrían usarse para generar contenido odioso o para aconsejar sobre actividades ilegales.

Y los investigadores dicen que no hay una solución actual para solucionar esto.

“No sabemos de ninguna forma de solucionar esto”, dijo Zico Kolter, profesor asociado de CMU que participó en el estudio, a Wired. “Simplemente no sabemos cómo hacerlos seguros”.

Armando Solar-Lezama, profesor de informática en MIT, dijo a Wired que era “extremadamente sorprendente” que los ataques, que se desarrollaron en un modelo de IA de código abierto, funcionaran tan bien en sistemas convencionales. El estudio plantea preguntas sobre la seguridad de los productos de IA de acceso público, como ChatGPT.

Cuando se le preguntó sobre el estudio, un portavoz de Google dijo anteriormente a Insider que el problema afectaba a todos los modelos de lenguaje grandes, y agregó que la compañía había implementado importantes medidas de protección en Bard que planeaban “mejorar con el tiempo”. Un representante de Anthropic calificó las medidas de liberación de prisión como un área de investigación activa y dijo que aún queda trabajo por hacer.

Los representantes de OpenAI no respondieron de inmediato a la solicitud de comentarios de Insider, realizada fuera del horario laboral habitual.