Si los usuarios inician sesión con su propia cuenta, como por ejemplo en Amazon, Facebook, Instagram, Twitter, Netflix o Google, entonces asignar un usuario al control o al tratamiento es sencillo: simplemente convierta la identificación del usuario en un indicador binario, 0 para control y 1 para tratamiento. Sin embargo, los usuarios no siempre inician sesión. Las personas pueden buscar en Google o Amazon, por ejemplo, como usuarios invitados. En este caso, todavía podemos identificar de forma única a estos usuarios con cookies del navegador. Como recordatorio, una cookie es simplemente un archivo de texto que se genera cuando un usuario visita un sitio web por primera vez y se almacena en la computadora del usuario. En las pruebas A/B, una ‘cookie de análisis’ puede simplemente especificar si el usuario está en el grupo de control o de tratamiento. Una desventaja de las pruebas A/B basadas en cookies es que las cookies tienen un tiempo de vida limitado. Por ejemplo, la prevención de seguimiento inteligente (ITP) de Safari elimina algunas cookies después de 7 días, por lo que si una prueba se ejecuta durante más de una semana, los usuarios serán reasignados después de cada semana. Esto hace que sea difícil medir el impacto a largo plazo en el usuario de un nuevo modelo de ML. Y también está el papel de las regulaciones de privacidad del usuario. Por ejemplo, el Reglamento General de Protección de Datos (GDPR) de la UE establece que los propietarios de sitios web deben recibir el consentimiento explícito del usuario antes de usar cualquier cookie, excepto aquellas que son “estrictamente necesarias” (y es difícil argumentar que las pruebas A/B son estrictamente necesarias para ejecutar un servicio). Si los usuarios no dan su consentimiento, simplemente no podemos usar cookies de análisis, por lo que no es posible realizar una prueba A/B con una división de población. El incumplimiento del RGPD puede costarle a una empresa multas de cientos de millones de euros.
El intercalado es una poderosa alternativa a las pruebas A/B de población dividida. La idea básica es presentar a cada usuario tanto el control como el tratamiento, y ver qué versión prefiere. Es como dejarles elegir directamente entre Coca-Cola y Pepsi en lugar de mostrarles solo una opción a la vez: la señal resultante es mucho más directa. Una implementación concreta de esta idea es la intercalado de borrador de equipo algoritmo para dos (o más) modelos de recomendación. En el enfoque, las recomendaciones que se muestran al usuario combinan los resultados del modelo A y el modelo B: los dos modelos simplemente se turnan para contribuir con su video mejor calificado que aún no está en la lista intercalada, como se muestra en el ejemplo a continuación. El modelo que elige primero se selecciona lanzando una moneda.
Otra consideración importante es cómo ejecutar un experimento A/B de manera conservadora sin dañar las métricas comerciales con un nuevo modelo que podría ser potencialmente peor (recuerde el error de tipo S discutido en la Parte I). Una solución es aumentar gradualmente su prueba A/B, por ejemplo, comience con un tratamiento del 1 %, aumente hasta el 5 % después de una semana, luego al 10 %, 25 % y finalmente al 50 %. El problema con este tratamiento gradual El enfoque de acceso telefónico es que no puede usar los datos del período de acceso telefónico en sí mismo en la prueba A/B porque puede estar sesgado por los efectos estacionales. Como ejemplo extremo, supongamos que creó un nuevo modelo de clasificación de búsqueda de comercio electrónico y lo marcó hasta el 1 % en la semana 1 y el 50 % en la semana 2, y esa semana 1 resultó ser una semana con un sitio: amplio descuento. Entonces, por supuesto, el grupo de control tendrá una tasa de compra general más alta que el grupo de tratamiento porque ha estado expuesto a más tráfico durante la semana de descuento. El diseño de la prueba A/B viola la suposición de identidad: los grupos no son idénticos. Un remedio puede ser desechar los datos del período de acceso telefónico y solo considerar los datos obtenidos durante el período de acceso telefónico 50/50. Sin embargo, este enfoque también puede producir resultados de prueba sesgados debido a la efecto de pre-exposición: algunos de los usuarios del grupo de tratamiento ya han estado expuestos al tratamiento anteriormente y esta exposición previa puede cambiar sus acciones durante el período de prueba medido. Por ejemplo, si un nuevo modelo de búsqueda de comercio electrónico es mucho mejor que aumenta la probabilidad de que un usuario regrese, entonces el grupo de tratamiento durante el período de prueba ya no es completamente aleatorio, incluye usuarios que regresaron porque habían Ya vi el nuevo modelo. Esto viola de nuevo el supuesto de identidad. Por lo tanto, una mejor práctica es la llamada acceso telefónico privado: para cada usuario, primero decida aleatoriamente si formará parte o no del experimento. Esta población puede ser solo el 1% de la población al principio y aumentar a partir de ahí. Luego, para los usuarios del experimento, divídalos aleatoriamente con igual probabilidad en control y tratamiento. Listo, ha resuelto tanto el problema del sesgo estacional (porque ambas poblaciones en el experimento tienen el mismo tamaño en todo momento) como el problema de la preexposición (porque ningún participante en el tratamiento ha estado preexpuesto). El acceso telefónico puede considerarse ‘limpio’.
Por último, consideremos qué métricas se deben rastrear durante las pruebas A/B de los modelos ML. Esta elección depende del problema que esté resolviendo, como la clasificación o clasificación, y también de lo que esté tratando de optimizar exactamente. Por ejemplo, considere un modelo de detección de fraude con tarjeta de crédito que aprueba o cancela transacciones. En este caso, puede medir dos cosas, (1) el monto total del contracargo recibido de falsos negativos y (2) el número total de falsos positivos; estos son, por supuesto, indicadores de recuperación y precisión, respectivamente. Entonces, puede considerar que el nuevo modelo es mejor si es mejor en una o ambas de estas métricas. Es posible que también desee realizar un seguimiento del recuento de devoluciones de cargo además del monto de la devolución de cargo, lo que indicaría la cantidad de clientes afectados por falsos negativos, y no solo la pérdida monetaria total. Como se mencionó anteriormente, la elección de las métricas depende de qué es exactamente lo que está tratando de optimizar. En un modelo de clasificación, como el que se usa para la búsqueda, la selección de anuncios o las recomendaciones, puede medir y comparar MAP@k, la precisión promedio promedio dentro de las k impresiones mejor clasificadas. Aquí, el ‘promedio’ se toma sobre las k clasificaciones y la ‘media’ se toma sobre los usuarios (por ejemplo, si un usuario vio recomendaciones de películas clasificadas en 1, 2, 3 y 5, pero no en 4, entonces el AP@5 para ese usuario sería (1/1 + 2/2 + 3/3 + 3/4 + 4/5)/5 = 0,91). Se esperaría que un mejor modelo tuviera un mejor MAP@k. ¿Cómo elegir k? Una buena opción puede ser la cantidad de resultados que se muestran en la primera página, como k=10 para Google. Después de todo, la mayoría de las personas ni siquiera visitan la segunda página. Además, hay ciertas métricas específicas del problema que normalmente se miden, como: en la clasificación de anuncios: el número total de clics en anuncios y los ingresos totales de anuncios, en e – Clasificación de búsqueda de comercio: recuento total de ventas, monto total de ventas, ingresos totales, en la clasificación de búsqueda de sitios web: tasa de éxito de la sesión y tiempo promedio de sesión: ¿cuánto tiempo les toma a los usuarios encontrar lo que están buscando? en un sistema de recomendación de video: recuento total de clics y tiempo promedio de visualización: ¿cuánto tiempo pasan los usuarios en un video? Cualquier comparación de modelos también debe considerar la compensación entre ganancias a corto plazo contra el impacto a largo plazo de nuestra elección de modelo, el último de los cuales puede no ser visible de inmediato. Por ejemplo, si un nuevo modelo de recomendación de videos promueve más videos cortos (como los popularizó TikTok), el recuento de clics puede aumentar a corto plazo, pero los usuarios pueden encontrar contenido menos significativo y sentirse insatisfechos a largo plazo.
Para resumir: en ausencia de identificaciones de usuario de los usuarios registrados, las pruebas A/B se pueden ejecutar con cookies del navegador. Sin embargo, las cookies están sujetas a regulaciones de privacidad como el RGPD de la UE. La intercalación es un enfoque poderoso para obtener resultados de pruebas A/B mucho más rápido en comparación con las pruebas tradicionales de división de población. La idea básica es presentar a cada usuario tanto el control como el tratamiento, y ver qué versión eligen ellos mismos. El intercalado de borrador de equipo es una implementación particular que está utilizando Netflix en la producción. Hay varios efectos estadísticos que pueden sesgar los resultados de la prueba A/B durante el acceso telefónico. Una buena solución es un acceso telefónico cerrado, donde solo permitimos que una fracción de los usuarios participe en el experimento, con una asignación de 50/50 entre control y tratamiento. Este enfoque se considera un acceso telefónico ‘limpio’. La elección de las métricas de prueba A/B depende del problema y de qué métrica exacta estamos tratando de optimizar. También debemos ser conscientes del impacto a largo plazo del modelo, que puede no ser visible de inmediato en los resultados de la prueba A/B.
Los días felices de la PDA y Blackberry han quedado definitivamente atrás, pero el factor…
Tutorial sobre cómo pronosticar usando un modelo autorregresivo en PythonFoto de Aron Visuals en UnsplashForecasting…
Si tienes un iPhone, los AirPods Pro son la opción obvia para escuchar música, ¡aunque…
Ilustración de Alex Castro / The Verge Plus nuevos rumores sobre el quinto Galaxy Fold.…
Se rumorea que los auriculares premium de próxima generación de Apple, los AirPods Max 2,…
El desarrollador Motive Studio y el editor EA han lanzado un nuevo tráiler de la…