Gaussian Copula es una técnica de modelado estadístico para la síntesis de datos. Copula nos permite descomponer una distribución de probabilidad conjunta en los marginales de las variables (que por definición no tienen correlación) y una función que “acopla” estos marginales. En otras palabras, Copula es esa función de “acoplamiento”, o una distribución multivariada con información de correlación incrustada. Gaussian Copula es, por lo tanto, una distribución normal multivariada con correlaciones aprendidas. Un proceso de alto nivel de este generador de datos es el siguiente: Aprenda la distribución de probabilidad de cada columna. Aplique una transformación CDF inversa de una normal estándar en ellos (es decir, convierta las distribuciones de las columnas en distribuciones normales) Aprenda las correlaciones de esas variables aleatorias recién generadas para construir un modelo de cópula Muestra de la distribución normal estándar multivariante con las correlaciones aprendidas
La red adversa generativa tabular condicional (CTGAN) es una técnica de síntesis de datos de aprendizaje profundo. Como sugiere el nombre, este es un método basado en GAN. Una GAN básica consta de 2 redes neuronales: una como generador que toma alguna entrada y genera datos sintéticos a partir de ella. Luego, hay una segunda red neuronal que actúa como un discriminador para ver si pueden diferenciar entre los datos reales y los sintéticos. El resultado del discriminador es una retroalimentación al generador para ayudar al generador a producir mejores salidas sintéticas.
Dado que la distribución por edad tiene múltiples modos en el conjunto de datos original, CTGAN hizo un mejor trabajo al mantener esta propiedad, mientras que Gaussian Copula convierte la distribución en un solo modo. Por otro lado, Gaussian Copula mantiene la proporción entre categorías para género y objetivo. variables mejor que CTGAN. La distribución de número_episodio se replica mejor con CTGAN, en comparación con la cópula gaussiana.
Todas las variables originalmente no tenían valores faltantes, y los conjuntos de datos sintéticos de CTGAN y Gaussian Copula pueden reproducir eso.
Se utiliza Kolmogorov-Smirnov (KS) de dos muestras para probar si dos muestras provienen de la misma distribución. Ejecutamos esta prueba en todas las variables entre datos reales y de cópula gaussiana, así como entre datos reales y CTGAN. Dado que la estadística KS es la distancia máxima entre dos CDF, cuanto menor sea, mejor para nuestro caso de uso. En general, la estadística KS media en todas las variables es ligeramente menor para CTGAN en comparación con la cópula gaussiana.
Hasta ahora, hemos investigado los conjuntos de datos columna por columna. Ahora, echemos un vistazo a la relación por pares. El mapa de calor de las correlaciones de Pearson por pares de la cópula gaussiana parece tener más parecido con el de los datos de identidad. Para verificar esto, calculamos la Precisión de correlación. Primero, discrete los coeficientes de correlación en 6 niveles:[-1-05)(negativofuerte)[-05-03)(negativomedio)[-03-01)(negativobajo)[-0101)(sincorrelación)[0103)(positivobajo)[0305)(positivomedio)[051)(positivofuerte)LuegocalculeelporcentajedeparesenlosqueelconjuntodedatossintéticoyeloriginalasignanelmismoniveldecorrelaciónLaprecisióndecorrelacióndeGaussianCopulaesmuchomayorqueladeCTGAN(83%frentea67%)[-1-05)(strongnegative)[-05-03)(middlenegative)[-03-01)(lownegative)[-0101)(nocorrelation)[0103)(lowpositive)[0305)(middlepositive)[051)(strongpositive)ThencalculatethepercentageofpairswherethesyntheticandoriginaldatasetassignthesamecorrelationlevelThecorrelationaccuracyofGaussianCopulaismuchlargerthanthatofCTGAN(83%vs67%)
Dada una parte que no tiene acceso al conjunto de datos original, ¿es posible que resuelva un problema de aprendizaje automático basado en datos sintéticos y obtenga información lo más cercana posible a lo que habría generado con datos reales? Para responder a esa pregunta, usamos el conjunto de datos sintéticos para entrenar un clasificador XGBoost y lo usamos para hacer predicciones sobre los datos originales. Luego, compare esta puntuación con lo que se habría logrado si entrenamos XGBoost con los datos originales. CTGAN puede lograr un rendimiento predictivo más cercano a lo que hubiéramos logrado con datos reales, en comparación con Gaussian Copula.
Para evaluar lo difícil que es distinguir entre instancias reales y sintéticas, mezclamos ambos conjuntos de datos con banderas que indican si los datos son reales o sintéticos. Luego entrene un modelo de ML que intente predecir este indicador. Cuanto más fácil es predecir la bandera, más se distingue entre datos reales y sintéticos. Para esta prueba, entrenamos XGBoost y Logistic Regression como detectores. Los datos sintéticos de CTGAN plantean un desafío más difícil de distinguir tanto para XGBoost como para Logistic Regression, en comparación con los datos de Gaussian Copula, dado que el AUROC de sus detectores correspondientes es más bajo.
Para este conjunto de datos públicos de sepsis en particular, desde el punto de vista de la evaluación de variables individuales, CTGAN y la cópula gaussiana van de la mano. Sin embargo, Gaussian Copula tiene una precisión de correlación por pares sorprendentemente mejor, mientras que CTGAN logra una mejor eficacia de ML y es menos probable que se detecte.
Los días felices de la PDA y Blackberry han quedado definitivamente atrás, pero el factor…
Tutorial sobre cómo pronosticar usando un modelo autorregresivo en PythonFoto de Aron Visuals en UnsplashForecasting…
Si tienes un iPhone, los AirPods Pro son la opción obvia para escuchar música, ¡aunque…
Ilustración de Alex Castro / The Verge Plus nuevos rumores sobre el quinto Galaxy Fold.…
Se rumorea que los auriculares premium de próxima generación de Apple, los AirPods Max 2,…
El desarrollador Motive Studio y el editor EA han lanzado un nuevo tráiler de la…