Sun. Dec 4th, 2022

Un tema comúnmente pasado por alto por los profesionales del aprendizaje automático

Foto de portada generada por el autor usando una herramienta de inteligencia artificial Dreamstudio. El muestreo de datos es el núcleo de la ciencia de datos. De una población dada f(x), muestreamos puntos de datos. Todos estos puntos de datos se denominan colectivamente muestras aleatorias denotadas por la variable aleatoria X. Pero, como sabemos, la ciencia de datos es un juego de probabilidad, a menudo, repetimos el experimento muchas veces. En tal escenario, terminamos con n muestras aleatorias X₁, X₂, … Xₙ (que no debe confundirse con la cantidad de puntos de datos en una muestra). A menudo, estas muestras aleatorias son independientes, pero distribuidas de forma idéntica, por lo que se denominan variables aleatorias independientes e idénticamente distribuidas con pdf o pmf f(x), o variables aleatorias iid. marco para calcular la distribución límite y la varianza asintótica, dadas muestras iid. El método Delta te permite calcular la varianza de una función de una variable aleatoria (con alguna transformación como veremos más adelante) cuya varianza es conocida. Este marco está estrechamente relacionado con el método de transformación de variables en estadística del que he hablado anteriormente con mucho detalle. Dadas las muestras aleatorias iid X₁, X₂, … Xₙ, su pdf conjunta está dada porEcuación 1: PDF conjunta de variables aleatorias iid En un caso especial, si todas las muestras iid (estamos descartando ‘aleatorias’ pero asumimos que están ahí) se distribuyen normalmente con media y varianza como 0 y 1, entonces X² ~ χ²₁, es decir, chi -distribución cuadrada de grado de libertad igual a 1. (Se puede probar escribiendo un script simple en Python, R o Julia).

Convergencia

La convergencia en la distribución nos dice cómo Xₙ converge a alguna distribución límite cuando n → ∞. Podemos hablar de convergencia a varios niveles:Convergencia en probabilidad: Una secuencia de variables aleatorias X₁, X₂, … Xₙ →ₚ X si para todo ε> 0,Ecuación 2. Convergencia en probabilidad donde →ₚ denota convergencia en probabilidad. Uno de esos usos de la convergencia en probabilidad es la ley débil de los grandes números. Para iid X₁, X₂, … Xₙ con 𝔼(X) = μ, y var(X) < ∞, entonces (X +, X₂+ … + Xₙ)/n →ₚ μ.2. Convergencia casi segura: Decimos que Xₙ → X como (casi seguro) siEcuación 3. Convergencia casi segura. La convergencia casi segura implica convergencia en probabilidad pero viceversa no es cierto. La ley fuerte de los grandes números es el resultado de una convergencia casi segura donde 𝔼(X) = μ, var(X) = σ², entonces (X +, X₂+ … + Xₙ)/n → μ, como3. Convergencia en la Distribución: Decimos Xₙ → X si la secuencia de funciones de distribución F_{Xₙ} de Xₙ converge a la de X en un sentido apropiado: F_{Xₙ}(x) → F_{X}(x) para todo x, donde F_{X } es continua (Tenga en cuenta que mi estilo de escritura usó notación de látex en ausencia de Medio que no puede admitir ecuaciones complicadas). La convergencia en la distribución es la propiedad de la distribución y no una variable aleatoria particular que es diferente de las dos distribuciones anteriores. La convergencia en la función de generación de momentos implica la convergencia en la distribución, es decir, M_{X_n}