El problema de desaprendizaje de la inteligencia artificial Los investigadores dicen que es prácticamente imposible hacer que un modelo de inteligencia artificial ‘olvide’ las cosas que aprende de los datos privados de los usuarios.

Imposible hacer que la inteligencia artificial olvide lo que aprende de los datos privados de usuarios.

El correo electrónico estaba haciendo una solicitud que parecía razonable, pero que Zou se dio cuenta de que sería casi imposible de cumplir.

“Estimado investigador”, comenzaba el correo electrónico. “Como saben, los participantes pueden retirarse de UK Biobank en cualquier momento y solicitar que sus datos no se utilicen más. Desde nuestra última revisión, algunos participantes involucrados con la Aplicación [REDACTADA] han solicitado que sus datos no se utilicen más”.

El correo electrónico provenía de UK Biobank, una base de datos a gran escala de datos de salud y genéticos extraídos de 500,000 residentes británicos, que está ampliamente disponible para el sector público y privado.

Zou, profesor de la Universidad de Stanford y destacado científico de datos biomédicos, ya había alimentado los datos de Biobank a un algoritmo y lo había utilizado para entrenar un modelo de inteligencia artificial. Ahora, el correo electrónico estaba solicitando la eliminación de los datos. “Aquí es donde se complica”, explicó Zou en un seminario que dio en 2019 sobre el tema.

Esto se debe a que, resulta casi imposible eliminar los datos de un usuario de un modelo de IA entrenado sin restablecer el modelo y renunciar al dinero y esfuerzo considerable invertidos en su entrenamiento. Usando una analogía humana, una vez que un AI ha “visto” algo, no hay una manera fácil de decirle al modelo que “olvide” lo que vio. Y borrar el modelo por completo también es sorprendentemente difícil.

Esto representa uno de los desafíos más difíciles y sin resolver de nuestra incipiente era de la inteligencia artificial, junto con problemas como “alucinaciones” de la IA y las dificultades para explicar ciertas salidas de la IA. Según muchos expertos, el problema de desaprendizaje de la IA se dirige hacia una colisión con regulaciones insuficientes en torno a la privacidad y la desinformación: a medida que los modelos de IA se vuelven más grandes y absorben cada vez más datos, sin soluciones para eliminar datos de un modelo, y potencialmente eliminar el modelo en sí, las personas afectadas no solo serán aquellas que hayan participado en un estudio de salud, sino que será un problema relevante para todos.

Por qué los modelos de IA son tan difíciles de eliminar como un zombi

En los años transcurridos desde el problema inicial de Zou, la emoción por herramientas de IA generativas como ChatGPT ha provocado un auge en la creación y proliferación de modelos de IA. Además, esos modelos están creciendo, lo que significa que absorben más datos durante su entrenamiento.

Muchos de estos modelos se están utilizando en industrias como la atención médica y las finanzas, donde es especialmente importante tener cuidado con la privacidad y el uso de datos.

Pero, como descubrió Zou cuando se propuso encontrar una solución para eliminar datos, no hay una manera simple de hacerlo. Esto se debe a que un modelo de IA no son solo líneas de código. Es un conjunto aprendido de relaciones estadísticas entre puntos en un conjunto de datos particular, que abarca relaciones sutiles que a menudo son demasiado complejas para la comprensión humana. Una vez que el modelo aprende esta relación, no hay una manera sencilla de hacer que el modelo ignore alguna parte de lo que ha aprendido.

“Si un sistema basado en el aprendizaje automático ha sido entrenado con datos, la única forma de eliminar retrospectivamente una parte de esos datos es volver a entrenar los algoritmos desde cero”, dijo Anasse Bari, experto en IA y profesor de ciencias de la computación de la Universidad de Nueva York, a ANBLE.

El problema va más allá de los datos privados. Si se descubre que un modelo de IA ha obtenido datos sesgados o tóxicos, como por ejemplo de publicaciones racistas en redes sociales, eliminar los datos incorrectos será complicado.

Entrenar o reentrenar un modelo de IA es costoso. Esto es particularmente cierto para los “modelos base” ultragrandes que actualmente impulsan el auge de la IA generativa. Se dice que GPT-4, el modelo de lenguaje grande que impulsa su versión premium de ChatGPT, costó más de $100 millones entrenarlo, según informes de Sam Altman, CEO de OpenAI.

Por eso, para las empresas que desarrollan modelos de IA, una herramienta poderosa que la Comisión Federal de Comercio de EE.UU. tiene para sancionar a las empresas que violan las leyes comerciales de EE.UU. es aterradora. La herramienta se llama “desglose algorítmico”. Es un proceso legal que penaliza a la empresa infractora obligándola a eliminar por completo un modelo de IA ofensivo. La FTC solo ha utilizado ese poder en pocas ocasiones, generalmente dirigido a empresas que han hecho un mal uso de los datos. Un caso conocido en el que la FTC utilizó este poder es contra una empresa llamada Everalbum, que entrenó un sistema de reconocimiento facial utilizando datos biométricos de las personas sin su permiso.

Pero Bari dice que el decomiso algorítmico asume que aquellos que crean sistemas de inteligencia artificial pueden identificar incluso qué parte de un conjunto de datos se recolectó ilegalmente, lo cual a veces no es el caso. Los datos atraviesan fácilmente diversas ubicaciones en Internet y cada vez se “raspan” de su fuente original sin permiso, lo que dificulta determinar su propiedad original.

Otro problema con el decomiso algorítmico es que, en la práctica, los modelos de IA pueden ser tan difíciles de eliminar como los zombies.

“Intentar eliminar un modelo de IA puede parecer extraordinariamente simple, simplemente presionar un botón de eliminar y el asunto está completamente concluido, pero así no es como funcionan las cosas en el mundo real”, dijo Lance Elliot, un experto en IA, a ANBLE en un correo electrónico.

Los modelos de IA pueden ser fácilmente restablecidos después de la eliminación porque es probable que existan otras copias digitales del modelo y puedan ser fácilmente reinstaladas, escribe Elliot.

Zou dice que, tal como están las cosas, o la tecnología debe cambiar sustancialmente para que las empresas puedan cumplir con la ley, o los legisladores deben replantear las regulaciones y cómo pueden hacer que las empresas cumplan.

Crear modelos más pequeños es bueno para la privacidad

En su investigación, Zou y sus colaboradores encontraron algunas formas de eliminar datos de modelos de aprendizaje automático simples basados en una técnica conocida como agrupamiento sin comprometer el modelo completo. Pero esos mismos métodos no funcionarán para modelos más complejos, como la mayoría de los sistemas de aprendizaje profundo que respaldan el auge de la IA generativa actual. Para estos modelos, Zou y sus coautores sugirieron en un artículo de investigación de 2019 que se debe utilizar un tipo diferente de régimen de entrenamiento desde el principio para hacer posible eliminar ciertas vías estadísticas en el modelo sin comprometer el rendimiento del modelo completo o requerir que se vuelva a entrenar todo el modelo.

Para las empresas preocupadas por el requisito de poder eliminar los datos de los usuarios a pedido, que es parte de varias leyes europeas de privacidad de datos, pueden ser necesarios otros métodos. De hecho, existe al menos una empresa de IA que ha construido todo su negocio en torno a esta idea.

Xayn es una empresa alemana que ofrece tecnología de búsqueda y recomendación de IA privada y personalizada. La tecnología de Xayn funciona utilizando un modelo base y luego entrenando un modelo pequeño y separado para cada usuario. Esto hace que sea muy fácil eliminar cualquiera de estos modelos individuales de los usuarios a pedido.

“Este problema de que tus datos se filtren al modelo grande nunca sucede con nosotros”, dijo Leif-Nissen Lundbæk, CEO y cofundador de Xayn.

Lundbæk dijo que cree que los modelos de IA pequeños e individuales de Xayn representan una forma más viable de crear IA de manera que cumpla con los requisitos de privacidad de datos que los modelos grandes y masivos de lenguaje que están construyendo empresas como OpenAI, Google, Anthropic, Inflection y otros. Esos modelos absorben grandes cantidades de datos de Internet, incluida información personal, tanto que las propias empresas a menudo tienen poco conocimiento sobre qué datos se encuentran en el conjunto de entrenamiento. Y estos modelos masivos son extremadamente costosos de entrenar y mantener, dijo Lundbaek.

La privacidad y los negocios de inteligencia artificial son actualmente un tipo de desarrollo paralelo, dijo.

Otra empresa de IA que intenta cerrar la brecha entre la privacidad y la IA es SpotLab, que construye modelos para la investigación clínica. Su fundador y CEO, Miguel Luengo-Oroz, trabajó anteriormente en las Naciones Unidas como investigador y científico de datos jefe. En 20 años de estudio de la IA, dice que a menudo ha pensado en esta pieza que falta: la capacidad de un sistema de IA para desaprender.

Dice que una de las razones por las que no se ha avanzado mucho en este tema es que, hasta hace poco, no había una regulación de privacidad de datos que obligara a las empresas e investigadores a hacer un esfuerzo serio para abordar este problema. Eso ha cambiado recientemente en Europa, pero en Estados Unidos, aún no existen reglas que requieran que las empresas faciliten la eliminación de los datos de las personas.

Algunas personas esperan que los tribunales intervengan donde los legisladores han fallado hasta ahora. Una demanda reciente alega que OpenAI robó “millones de datos” de los estadounidenses para entrenar el modelo de ChatGPT.

Y hay señales de que algunas grandes empresas de tecnología pueden estar comenzando a pensar más en el problema. En junio, Google anunció una competencia para que los investigadores presenten soluciones a la incapacidad de la IA para olvidar.

Pero hasta que se logre más progreso, los datos de los usuarios seguirán flotando en una constelación en expansión de modelos de IA, lo que los deja vulnerables a acciones dudosas o incluso amenazantes.

“Creo que es peligroso y si alguien tuviera acceso a estos datos, digamos, algún tipo de agencia de inteligencia o incluso otros países, quiero decir, creo que realmente se podría usar de manera negativa”, dijo Lundbæk.