La detección de anomalías en datos de series temporales es una tarea común en la ciencia de datos. Tratamos las anomalías como patrones de datos que no existen como se esperaba. Hoy, concentrémonos en detectar anomalías en una serie de tiempo univariada especial generada por un Proceso estocástico.Los datos deben parecer ruidosos, caóticos y aleatorios en esas series temporales estocásticas. Los cambios inesperados deberían estar ocurriendo todo el tiempo. Si el valor no cambia o cambia con un patrón determinista, algo está mal con los datos. Echemos un vistazo a la siguiente gráfica y verá las secciones sospechosas etiquetadas y comprenderá por qué deben detectarse como anomalías.
Los datos de series temporales anteriores se generan mediante un proceso de recorrido aleatorio. Luego, agrego al azar tres secciones de una onda sinusoidal con ruido gaussiano y un área con un valor constante. Primero, genero la serie temporal. Luego, agrego cuatro regiones anómalas al azar.
Las secciones de anomalía tienen diferentes longitudes, frecuencias y amplitudes. ¿Podemos encontrar esas secciones fácilmente? La respuesta es sí.
La idea es calcular densidad espectral primero, normalizar y finalmente calcular el Entropía de ShannonAquí comparo dos ejemplos de observaciones con la ventana móvil de 200. Arriba hay una ventana en una región anómala y debajo hay una ventana en regiones normales.
“La entropía de Shannon de una distribución es la cantidad esperada de información en un evento extraído de esa distribución. Da un límite inferior al número de bits necesarios en promedio para codificar símbolos extraídos de una distribución P”.
En la ventana de anomalía anterior, la señal estará “activa” en el intervalo de frecuencia de 1 Hz únicamente (la probabilidad de 1 Hz es casi 1, otras son casi 0). No hay sorpresas, ni incertidumbres; por lo tanto, la entropía será de alrededor de 0 para este caso. La señal puede estar “activa” en varios intervalos de frecuencia con diferentes probabilidades para la región buena. Tenemos más incertidumbres o información desconocida, por lo que mayor será la entropía.
No siempre se ven las entropías espectrales extremadamente cercanas a cero para esas anomalías similares a las ondas sinusoidales. La razón detrás de esto es cómo calculamos el espectro. Existe la posibilidad de que la frecuencia máxima se extienda a dos contenedores de frecuencia vecinos (fuga espectral debido a la resolución de frecuencia). Entonces, la entropía de Shannon no estará cerca de cero, pero seguirá siendo más pequeña que los casos en una ventana normal. tasa de muestreo y Tamaño FFT determinar los intervalos de frecuencia. Si no se especifica el tamaño de FFT, usaremos el tamaño de la ventana.
La entropía espectral combina la idea de FFT, la densidad espectral y la entropía de Shannon. Podemos usarlo para verificar cuánta información contiene una ventana de datos de series temporales. Una mayor entropía implica incertidumbre y aleatoriedad. Una entropía más baja indica patrones regulares y deterministas. Por lo tanto, podemos detectar patrones a partir de la aleatoriedad utilizando la entropía espectral. Por supuesto, la entropía espectral funciona de manera opuesta: detecta la aleatoriedad de una serie de datos con patrones. Pero el análisis de frecuencia tal vez ya funcione lo suficientemente bien para esos casos. Gracias por leer. Diviértete con tu serie temporal.
Los días felices de la PDA y Blackberry han quedado definitivamente atrás, pero el factor…
Tutorial sobre cómo pronosticar usando un modelo autorregresivo en PythonFoto de Aron Visuals en UnsplashForecasting…
Si tienes un iPhone, los AirPods Pro son la opción obvia para escuchar música, ¡aunque…
Ilustración de Alex Castro / The Verge Plus nuevos rumores sobre el quinto Galaxy Fold.…
Se rumorea que los auriculares premium de próxima generación de Apple, los AirPods Max 2,…
El desarrollador Motive Studio y el editor EA han lanzado un nuevo tráiler de la…