IA Visual Generativa: sesgos y preferencias

Jun 28, 2023 por Bruno Caldas

La IA visual generativa, un avance con consecuencias inesperadas

La IA visual generativa es uno de los avances más impresionantes en medios computacionales creativos de todos los tiempos.

Con unas pocas sugerencias o descripciones, se crea una imagen que refleja la inspiración de los creadores. Esta evolución puede tener consecuencias nefastas para la sociedad. Como ocurre con cualquier perturbación importante, algunos resultados serán positivos, otros no tanto: los efectos sobre los puestos de trabajo de los ilustradores, por ejemplo, podrían ser devastadores.

inteligencia-artificial-bias

Sesgos en la generación de imágenes semánticas

Pero además de las implicaciones sociales de la IA Visual Generativa, la imagen semántica -mi término favorito para los sistemas de texto a imagen- también tiene sus propios problemas. Un artículo escrito por investigadores de la Universidad de Leipzig, en colaboración con la start-up Hugging Face, muestra lo sesgada que puede ser la generación de imágenes semánticas. Los resultados pueden explorarse en una serie de herramientas.

Es fácil ver cómo la mayoría de las imágenes generadas por IA Visual Generativa de «director general» resultan masculinas, mientras que los «enfermeros» están representados por mujeres, lo que refleja y refuerza los desequilibrios de la sociedad. Los «nativos americanos» son representados en su mayoría con tocados, una visión estereotipada que no refleja las costumbres de la vida real.

Los modelos utilizados en la investigación -Stable DIffusion de Stability y Dall-E de OpenAI- se entrenan con millones de imágenes emparejadas con descripciones textuales, descargadas de la web. Los modelos captan estadísticamente las relaciones entre los textos y las imágenes. Además de las cuestiones de privacidad y autoría -pocas de estas imágenes tienen una licencia explícita que permita utilizarlas para estos fines-, el uso bruto de los materiales implica que los resultados siempre reflejarán los problemas existentes en la sociedad.

Si la mayoría de las fotos de directores generales en Internet son de hombres, también lo serán las imágenes generadas por IA. Los grandes modelos lingüísticos como ChatGPT corren la misma suerte, y por eso OpenAI añade muchas restricciones a su uso, como la negativa a responder a algunas preguntas. Los modelos de imagen, sin embargo, no suelen tener estas salvaguardas, en particular si se publican como código abierto.

Un prejuicio menos conocido en este tipo de modelos tiene que ver con la estética y la subjetividad. Para las personas que no son WEIRD -blancas, educadas, industriales, ricas, democráticas- todas las imágenes generadas por la IA tienen el mismo aspecto aburrido. No se trata de descartar las asombrosas capacidades de los motores generativos. La tecnología ha avanzado mucho desde las primeras redes GAN de aspecto surrealista.

Pero hay muchos elementos en las técnicas de entrenamiento de los modelos de difusión que conducen a sesgos de gusto. En primer lugar, está el hecho de que, una vez más, otras culturas visuales están subrepresentadas en los conjuntos de imágenes extraídas de Internet. Los usuarios de los países desarrollados son mucho más proclives a publicar contenidos que sus homólogos del Sur global.

¿Quién define qé es una imagen de calidad?

Lo que quizá sea aún más importante es que la orientación de la calidad subjetiva en los conjuntos (y en las redes entrenadas a partir de ellos) la realizan prácticamente sólo personas de grupos RAROS.

Una forma de que esto ocurra es que las colecciones en bruto raspadas no son apropiadas para el entrenamiento, ya que contienen demasiadas imágenes basura – desenfocadas, mal iluminadas, partes incompletas de logotipos… Sin embargo, filtrar manualmente cinco mil millones de imágenes en busca de calidad sería imposible.

Por eso se entrenan redes especializadas para estas tareas. Y los datos utilizados para entrenar estos algoritmos provienen de sistemas de votación. Se muestra a los usuarios una serie de imágenes y se les pide que las valoren en una escala del 1 al 10, por ejemplo. Una vez entrenado el predictor, se utiliza para hacer una selección del conjunto original. En el caso de Laion-5B (por cinco mil millones), el conjunto utilizado originalmente por Stable Diffusion, se obtuvo el conjunto Laion-Asthetics, con «sólo» 600 millones de imágenes.

Pero, ¿quiénes eran estos votantes? ¿El gusto subjetivo de quién quedó impreso en el conjunto de entrenamiento? En el caso de Laion, votaron frikis de la imagen generativa reunidos en grupos de discordia, participantes en un concurso de fotografía digital e incluso un grupo de estudiantes alemanes de secundaria.

Por último, los sistemas de votación también se utilizan durante el periodo de entrenamiento de los modelos, para guiar la generación de imágenes «atractivas» – y de nuevo, con votos procedentes mayoritariamente de una comunidad de personas pequeña y no diversa.

La necesidad de mitigar los sesgos en la IA visual generativa

Como cualquier medio de comunicación incipiente, causa diversos trastornos y tiene muchas aristas que recortar. Dado que no se considera una actividad de alto riesgo, puede incluso colarse entre las lagunas de la legislación y no estar sujeta a salvaguardias obligatorias. Pero para todos los que practicamos la informática creativa es fundamental ser conscientes de sus problemas y mitigar activamente sus sesgos.

Al igual que la discriminación positiva, es un esfuerzo por corregir los desequilibrios de representación en la educación y la gobernanza, hay que adoptar una postura activa para no dejar que la injusticia de la sociedad se traslade a los resultados de la IA visual generativa, que podría llegar a ser muy influyente en un futuro no tan lejano.

Bruno Caldas

Experto en Inteligencia Artificial y Bellas Artes, y profesor del Máster en Creative Computing.

Artículos relacionados