Aprendizaje automático admisible: cómo hacer que el aprendizaje automático sea justo

Dado que el aprendizaje automático está a la vanguardia de la atención mundial, las personas son cada vez más conscientes de los sesgos que pueden contener los modelos y cómo esto puede conducir a decisiones injustas. Para adaptarse a la necesidad de equidad, no solo necesitamos hacer modelos con alto poder predictivo, sino que también sean admisibles bajo restricciones regulatorias.

Un verano trabajé como pasante en una compañía de seguros. Mi trabajo consistía en cotizar un seguro de viaje. Era libre de usar cualquier información que pudiera tener en mis manos, como la edad del cliente, sus ganancias estimadas, cuánto le habían costado a la compañía de seguros en el pasado, mucho más, excepto por una cosa: su género. El gobierno noruego prohíbe estrictamente el uso del género en la fijación de precios de seguros. Había solo un problema. El género estuvo altamente correlacionado con muchas de las variables utilizadas en el modelo. No me importó que el género no estuviera incluido en el modelo, ya que muchas otras variables actuaron como proxy de la información. Si uno quiere un modelo que sea realmente admisible bajo restricciones regulatorias, debemos asegurarnos de que la información que usamos en la predicción sea independiente de la información confidencial.

En esencia, queremos utilizar información que sea informativa sobre nuestro objetivo, mientras que no sea informativa sobre información confidencial. Para lograr este objetivo, necesitamos conducirnos con el campo de la teoría de la información, que tiene como objetivo, entre otras cosas, cuantificar la información. Fue el genio Cloud Shannon quien se dio cuenta de que la información está estrechamente relacionada con la incertidumbre y utilizó este conocimiento para formular una teoría matemática de la información. ¿Como funciona?

Si te digo que afuera está lloviendo mientras estás empapado en la lluvia, no te sentirás particularmente informado. Si te dijera que mañana también llovería, al menos me sentirías un poco informado, pero no sería tan sorprendente. Sin embargo, el conocimiento de que los meteoritos van a llover del cielo mañana se sentiría mucho más sorprendente, por lo tanto, sería más informativo.

Medimos la cantidad de información obtenida, o la cantidad de sorpresa, como entropía. Dada una variable aleatoria, Z, la entropía viene dada por

También te puede interesarBoom en modelos de lenguaje grande
Definición de entropía

Podemos extender aún más la entropía a la entropía condicional, que es la cantidad de entropía ganada dada alguna otra información. Esto es como tener que cancelar su viaje familiar debido a la lluvia a pesar de que el pronóstico del tiempo decía sol, lo que hace que la lluvia sea una sorpresa aún más desagradable. Matemáticamente, la entropía condicional viene dada por

Entropía condicional

que miden la incertidumbre de Y dado que S es saber, en promedio. Digamos que tenemos una variable de respuesta Y, como la probabilidad de impago de un préstamo, y algunos datos X = (X_1…, X_p) que se supone que está correlacionado con Y e información sensible S = (S_1…, S_q), como la edad, el género, la raza y el estado civil de una persona. La información mutua condicional (CMI) entre Y y Xdado S es

Información mutua condicional

MI(Y, X | S) mide la impacto neto de X en la reducción de la incertidumbre de Ydado que S es saber Si MI(Y, X | S) = 0, entonces H(Y | S) = H(Y, X | S), por lo que no hay información contenida en X acerca de Y que no está ya contenido en Scomo se describe en la siguiente figura.

Diagrama de información de Proxy. X obtiene su información sobre Y solo a través de S.

En otras palabras, X actúa como un proxy de la información contenida en S. Usando el ejemplo donde Y es la probabilidad de impago de un préstamo, si este modelo se utilizara para aprobar préstamos, terminaríamos con un modelo que discrimina puramente a las personas en función de su edad, sexo, raza y estado civil. Este no es el tipo de modelos por los que queremos regir nuestras decisiones.

También te puede interesarAbrazando el amor propio y la autoaceptación: un viaje de empoderamiento para mujeres negras en 2023

Al realizar la selección de características para nuestros modelos, podemos usar InfoGrams para elegir variables que tengan tanto un fuerte poder predictivo como una alta admisibilidad. Las variables que obtienen una puntuación baja en seguridad o importancia caen en la región roja en forma de L que se muestra a continuación.

Infograma de un modelo que predice si los ingresos de una persona superan los 50.000$.

Los datos utilizados para crear esta figura se extraen de la base de datos de la Oficina del Censo de los Estados Unidos de 1994 y el modelo tiene como objetivo predecir la probabilidad de tener un ingreso superior a $ 50,000. Los Datos incluyen datos confidenciales como la edad, el sexo, la raza y el estado civil. El infoGram muestra que la relación es el predictor más fuerte, pero que también tiene un índice de seguridad pobre ya que está correlacionado con variables sensibles como el estado civil, lo que sugiere que su inclusión en el modelo no está justificada.

Para obtener más ejemplos del uso de InfoGrams y una visión detallada de la teoría, consulte el artículo original. ¡Es una gran lectura!

También te puede interesarCompare algoritmos de aprendizaje automático en una sola línea de código: LazyPredict

Scroll al inicio