Sun. Oct 2nd, 2022

Cookies y privacidad, experimentos intercalados, accesos telefónicos limpios y métricas de prueba

Foto de la NASA en UnsplashLa prueba A/B es uno de los pasos más críticos en la producción de Machine Learning: solo queremos implementar un nuevo modelo ML si se puede demostrar que es mejor en producción. En la Parte I de esta serie, cubrimos cómo configurar un experimento A/B con una población dividida, cómo interpretar los resultados de la prueba con significación estadística y qué tipo de errores se esperan. En esta Parte II profundizaremos en algunas consideraciones prácticas. Cubriremos: cookies y privacidad: cómo realizar pruebas A/B en usuarios que no han iniciado sesión, experimentos intercalados: un método poderoso para obtener resultados de prueba para modelos de recomendación más rápido, accesos telefónicos limpios: cómo evitar sesgos estadísticos en los resultados de la prueba y las métricas comunes de rendimiento del modelo: qué medir para determinar si el nuevo modelo es mejor. Empecemos de inmediato.

Cookies y privacidad

Si los usuarios inician sesión con su propia cuenta, como por ejemplo en Amazon, Facebook, Instagram, Twitter, Netflix o Google, entonces asignar un usuario al control o al tratamiento es sencillo: simplemente convierta la identificación del usuario en un indicador binario, 0 para control y 1 para tratamiento. Sin embargo, los usuarios no siempre inician sesión. Las personas pueden buscar en Google o Amazon, por ejemplo, como usuarios invitados. En este caso, todavía podemos identificar de forma única a estos usuarios con cookies del navegador. Como recordatorio, una cookie es simplemente un archivo de texto que se genera cuando un usuario visita un sitio web por primera vez y se almacena en la computadora del usuario. En las pruebas A/B, una ‘cookie de análisis’ puede simplemente especificar si el usuario está en el grupo de control o de tratamiento. Una desventaja de las pruebas A/B basadas en cookies es que las cookies tienen un tiempo de vida limitado. Por ejemplo, la prevención de seguimiento inteligente (ITP) de Safari elimina algunas cookies después de 7 días, por lo que si una prueba se ejecuta durante más de una semana, los usuarios serán reasignados después de cada semana. Esto hace que sea difícil medir el impacto a largo plazo en el usuario de un nuevo modelo de ML. Y también está el papel de las regulaciones de privacidad del usuario. Por ejemplo, el Reglamento General de Protección de Datos (GDPR) de la UE establece que los propietarios de sitios web deben recibir el consentimiento explícito del usuario antes de usar cualquier cookie, excepto aquellas que son “estrictamente necesarias” (y es difícil argumentar que las pruebas A/B son estrictamente necesarias para ejecutar un servicio). Si los usuarios no dan su consentimiento, simplemente no podemos usar cookies de análisis, por lo que no es posible realizar una prueba A/B con una división de población. El incumplimiento del RGPD puede costarle a una empresa multas de cientos de millones de euros.

Experimentos intercalados

El intercalado es una poderosa alternativa a las pruebas A/B de población dividida. La idea básica es presentar a cada usuario tanto el control como el tratamiento, y ver qué versión prefiere. Es como dejarles elegir directamente entre Coca-Cola y Pepsi en lugar de mostrarles solo una opción a la vez: la señal resultante es mucho más directa. Una implementación concreta de esta idea es la intercalado de borrador de equipo algoritmo para dos (o más) modelos de recomendación. En el enfoque, las recomendaciones que se muestran al usuario combinan los resultados del modelo A y el modelo B: los dos modelos simplemente se turnan para contribuir con su video mejor calificado que aún no está en la lista intercalada, como se muestra en el ejemplo a continuación. El modelo que elige primero se selecciona lanzando una moneda.Intercalar el resultado de la clasificación de los modelos A y B. A y B se turnan para elegir su elemento mejor clasificado que aún no se ha seleccionado. (Fuente: Neflix) La intuición detrás de la intercalación es que, debido a que cada usuario puede seleccionar directamente del control y el tratamiento, deberíamos obtener los resultados de las pruebas antes en comparación con las pruebas A/B tradicionales con dos poblaciones. Y, de hecho, esta intuición se ha confirmado experimentalmente: Netflix informa que necesitan 100 veces menos usuarios para lograr un 95 % de potencia experimental (el equivalente a recordar en un experimento A/B) en comparación con las pruebas A/B tradicionales basadas en la población. Esta es una gran ventaja: significa que pueden ejecutar 100 veces más experimentos, lo que les permite conocer las preferencias de los usuarios mucho más rápido.

Limpie los accesos telefónicos

Otra consideración importante es cómo ejecutar un experimento A/B de manera conservadora sin dañar las métricas comerciales con un nuevo modelo que podría ser potencialmente peor (recuerde el error de tipo S discutido en la Parte I). Una solución es aumentar gradualmente su prueba A/B, por ejemplo, comience con un tratamiento del 1 %, aumente hasta el 5 % después de una semana, luego al 10 %, 25 % y finalmente al 50 %. El problema con este tratamiento gradual El enfoque de acceso telefónico es que no puede usar los datos del período de acceso telefónico en sí mismo en la prueba A/B porque puede estar sesgado por los efectos estacionales. Como ejemplo extremo, supongamos que creó un nuevo modelo de clasificación de búsqueda de comercio electrónico y lo marcó hasta el 1 % en la semana 1 y el 50 % en la semana 2, y esa semana 1 resultó ser una semana con un sitio: amplio descuento. Entonces, por supuesto, el grupo de control tendrá una tasa de compra general más alta que el grupo de tratamiento porque ha estado expuesto a más tráfico durante la semana de descuento. El diseño de la prueba A/B viola la suposición de identidad: los grupos no son idénticos. Un remedio puede ser desechar los datos del período de acceso telefónico y solo considerar los datos obtenidos durante el período de acceso telefónico 50/50. Sin embargo, este enfoque también puede producir resultados de prueba sesgados debido a la efecto de pre-exposición: algunos de los usuarios del grupo de tratamiento ya han estado expuestos al tratamiento anteriormente y esta exposición previa puede cambiar sus acciones durante el período de prueba medido. Por ejemplo, si un nuevo modelo de búsqueda de comercio electrónico es mucho mejor que aumenta la probabilidad de que un usuario regrese, entonces el grupo de tratamiento durante el período de prueba ya no es completamente aleatorio, incluye usuarios que regresaron porque habían Ya vi el nuevo modelo. Esto viola de nuevo el supuesto de identidad. Por lo tanto, una mejor práctica es la llamada acceso telefónico privado: para cada usuario, primero decida aleatoriamente si formará parte o no del experimento. Esta población puede ser solo el 1% de la población al principio y aumentar a partir de ahí. Luego, para los usuarios del experimento, divídalos aleatoriamente con igual probabilidad en control y tratamiento. Listo, ha resuelto tanto el problema del sesgo estacional (porque ambas poblaciones en el experimento tienen el mismo tamaño en todo momento) como el problema de la preexposición (porque ningún participante en el tratamiento ha estado preexpuesto). El acceso telefónico puede considerarse ‘limpio’.

¿Qué métricas debes medir?

Por último, consideremos qué métricas se deben rastrear durante las pruebas A/B de los modelos ML. Esta elección depende del problema que esté resolviendo, como la clasificación o clasificación, y también de lo que esté tratando de optimizar exactamente. Por ejemplo, considere un modelo de detección de fraude con tarjeta de crédito que aprueba o cancela transacciones. En este caso, puede medir dos cosas, (1) el monto total del contracargo recibido de falsos negativos y (2) el número total de falsos positivos; estos son, por supuesto, indicadores de recuperación y precisión, respectivamente. Entonces, puede considerar que el nuevo modelo es mejor si es mejor en una o ambas de estas métricas. Es posible que también desee realizar un seguimiento del recuento de devoluciones de cargo además del monto de la devolución de cargo, lo que indicaría la cantidad de clientes afectados por falsos negativos, y no solo la pérdida monetaria total. Como se mencionó anteriormente, la elección de las métricas depende de qué es exactamente lo que está tratando de optimizar. En un modelo de clasificación, como el que se usa para la búsqueda, la selección de anuncios o las recomendaciones, puede medir y comparar [email protected], la precisión promedio promedio dentro de las k impresiones mejor clasificadas. Aquí, el ‘promedio’ se toma sobre las k clasificaciones y la ‘media’ se toma sobre los usuarios (por ejemplo, si un usuario vio recomendaciones de películas clasificadas en 1, 2, 3 y 5, pero no en 4, entonces el [email protected] para ese usuario sería (1/1 + 2/2 + 3/3 + 3/4 + 4/5)/5 = 0,91). Se esperaría que un mejor modelo tuviera un mejor [email protected] ¿Cómo elegir k? Una buena opción puede ser la cantidad de resultados que se muestran en la primera página, como k=10 para Google. Después de todo, la mayoría de las personas ni siquiera visitan la segunda página. Además, hay ciertas métricas específicas del problema que normalmente se miden, como: en la clasificación de anuncios: el número total de clics en anuncios y los ingresos totales de anuncios, en e – Clasificación de búsqueda de comercio: recuento total de ventas, monto total de ventas, ingresos totales, en la clasificación de búsqueda de sitios web: tasa de éxito de la sesión y tiempo promedio de sesión: ¿cuánto tiempo les toma a los usuarios encontrar lo que están buscando? en un sistema de recomendación de video: recuento total de clics y tiempo promedio de visualización: ¿cuánto tiempo pasan los usuarios en un video? Cualquier comparación de modelos también debe considerar la compensación entre ganancias a corto plazo contra el impacto a largo plazo de nuestra elección de modelo, el último de los cuales puede no ser visible de inmediato. Por ejemplo, si un nuevo modelo de recomendación de videos promueve más videos cortos (como los popularizó TikTok), el recuento de clics puede aumentar a corto plazo, pero los usuarios pueden encontrar contenido menos significativo y sentirse insatisfechos a largo plazo.

Conclusión

Para resumir: en ausencia de identificaciones de usuario de los usuarios registrados, las pruebas A/B se pueden ejecutar con cookies del navegador. Sin embargo, las cookies están sujetas a regulaciones de privacidad como el RGPD de la UE. La intercalación es un enfoque poderoso para obtener resultados de pruebas A/B mucho más rápido en comparación con las pruebas tradicionales de división de población. La idea básica es presentar a cada usuario tanto el control como el tratamiento, y ver qué versión eligen ellos mismos. El intercalado de borrador de equipo es una implementación particular que está utilizando Netflix en la producción. Hay varios efectos estadísticos que pueden sesgar los resultados de la prueba A/B durante el acceso telefónico. Una buena solución es un acceso telefónico cerrado, donde solo permitimos que una fracción de los usuarios participe en el experimento, con una asignación de 50/50 entre control y tratamiento. Este enfoque se considera un acceso telefónico ‘limpio’. La elección de las métricas de prueba A/B depende del problema y de qué métrica exacta estamos tratando de optimizar. También debemos ser conscientes del impacto a largo plazo del modelo, que puede no ser visible de inmediato en los resultados de la prueba A/B.