Thu. Sep 29th, 2022

Obtenga información de una comparación en tres líneas de código

Imagine que está tratando de determinar si existe una diferencia significativa en el pago total medio entre dos ciudades en las que recoge un taxi. Decide crear un diagrama de caja para observar la tarifa total por ciudad de recogida.Imagen del autorEste gráfico le brinda algunas ideas sobre la diferencia en la tarifa total entre varias ciudades, pero no le brinda información sobre lo que está buscando. ¿No sería bueno si agregara anotaciones estadísticas en un diagrama de caja como el que se muestra a continuación? Ahí es cuando la anotación de estadísticas es útil.Image by Authorstatsannotation es un paquete de Python para calcular pruebas estadísticas y agregar anotaciones estadísticas en gráficos generados con seaborn. Para instalar statsannotation, escriba: pip install statsannotation seaborn.Vamos a la tarifa total media para cada ciudad:Imagen del autor Podemos ver que la tarifa total mediana de los taxis que recogen clientes en Queens es la más alta, seguida de Bronx, Brooklyn y Manhattan. Para tener una mejor idea de la distribución de la tarifa total por ciudad, podemos crear el diagrama de caja para la tarifa total por ciudad:Imagen del autor Para agregar anotaciones estadísticas al gráfico, usaremos statsannotions. Comience por obtener las tarifas totales de todos los viajes por ciudad: A continuación, obtenga todas las combinaciones posibles de las dos ciudades para las comparaciones:[(‘Manhattan’, ‘Brooklyn’),
(‘Manhattan’, ‘Bronx’),
(‘Manhattan’, ‘Queens’),
(‘Brooklyn’, ‘Bronx’),
(‘Brooklyn’, ‘Queens’),
(‘Bronx’, ‘Queens’)]¡Ahora estamos listos para agregar anotaciones estadísticas a la gráfica! En especial, utilizaremos la prueba U de Man-Whitney para comparar dos grupos independientes. La hipótesis nula es que las tarifas totales de las dos ciudades son iguales. La hipótesis alternativa es que las tarifas totales de las dos ciudades no son iguales. Manhattan vs. Brooklyn: prueba de Mann-Whitney-Wilcoxon de dos colas, P_val:7.225e-01 U_stat=9.979e+05
Brooklyn vs. Bronx: prueba de Mann-Whitney-Wilcoxon de dos colas, P_val:1.992e-02 U_stat=1.608e+04
Bronx vs. Queens: Prueba de Mann-Whitney-Wilcoxon de dos caras, P_val:1.676e-02 U_stat=2.768e+04
Manhattan vs. Bronx: prueba de Mann-Whitney-Wilcoxon de dos colas, P_val:5.785e-04 U_stat=2.082e+05
Brooklyn vs. Queens: prueba de Mann-Whitney-Wilcoxon de dos colas, P_val:3.666e-12 U_stat=9.335e+04
Manhattan vs. Queens: prueba de Mann-Whitney-Wilcoxon de dos colas, P_val:2.929e-30 U_stat=1.258e+06Image by AuthorEl significado del número de estrellas en la trama: ns: p <= 1.00e+00
*: 1.00e-02 < p <= 5.00e-02
**: 1.00e-03 < p <= 1.00e-02
***: 1.00e-04 < p <= 1.00e-03
****: p <= 1.00e-04ns significa no estadísticamente significativo. En general, cuanto menor es el valor de p, mayor es la evidencia a favor de la hipótesis alternativa. En el gráfico anterior, podemos ver que existe una diferencia significativa en el pago total medio entre la mayoría de los pares de ciudades, excepto Manhattan y Brooklyn. Si no le gusta la notación de estrella y desea agregar valores p a su gráfico, especifique text_format="simple" :Imagen del autor ¡Y verás los valores p para la comparación entre un par de ciudades en particular! ¡Felicitaciones! Acabas de aprender a agregar anotaciones estadísticas a tu gráfico marino. Espero que este artículo le brinde la habilidad para investigar las relaciones entre dos datos en un nivel más profundo. Siéntase libre de jugar y bifurcar el código fuente de este artículo aquí: