¿Por qué MSE = Sesgo² + Varianza?

Introducción a los “buenos” estimadores estadísticos y sus propiedades

“La compensación de sesgo-varianza” es un concepto popular que encontrará en el contexto de ML/AI. Al construir para hacerlo intuitivo, pensé que les daría a los amantes de las fórmulas entre ustedes una explicación habladora de dónde proviene esta ecuación clave:

MSE = Sesgo² + Varianza

Bueno, este artículo no se trata solo de probar esta fórmula, eso es solo un medio (je) para un fin. Lo estoy usando como una excusa para brindarles una mirada entre bastidores sobre cómo y por qué los estadísticos manipulan algunos componentes básicos y cómo pensamos qué hace que algunos estimadores sean mejores que otros, pero tenga cuidado: está a punto de volverse técnico. por aquí.Imagen creada por el autor. Las incursiones en las fórmulas y los detalles esenciales generalizados están fuera de lugar en mi blog, por lo que a muchos lectores les gustaría aprovechar esta oportunidad para salir corriendo. Si la idea de una prueba te llena de pavor existencial, aquí tienes un artículo divertido para que lo disfrutes. No temas, aún podrás seguir el próximo artículo de compensación de sesgo-varianza, pero tendrás que confiar en que esta fórmula es precisa. ¡Este artículo es para aquellos que exigen pruebas! (Y una discusión sobre las letras griegas adornadas). ¿Sigues aquí? Agradable. Este material será más fluido si está algo familiarizado con algunos conceptos básicos, así que aquí hay una lista de verificación rápida:Parcialidad; Distribución; estimación; Estimar; Estimador; Valor esperado E(X); Función de pérdida; Significar; Modelo; Observación; Parámetro; Población; Probabilidad; Variable aleatoria; Muestra; Estadística; Varianza V(X)Si le falta un concepto, lo tengo cubierto en mi glosario estadístico. Para asegurarnos de que se sienta cómodo manipulando los componentes básicos para nuestra discusión, tomemos un extracto de mi guía de campo para los parámetros de una distribución:

Valor esperado E(X)

Un valor esperado, escrito como E(X) o E(X = x), es la probabilidad ponderada teórica significar (esta palabra se pronuncia “promedio”) de la variable aleatoria X. La encuentras ponderando (multiplicando) cada valor potencial x que X puede tomar por su probabilidad correspondiente P(X = x) y luego combinándolos (con una integral ∫ para variables continuas como altura o una suma para variables discretas como altura redondeada a la pulgada más cercana): E(X) = ∑ x P(X = x)Foto de milos tomasevic en UnsplashSi estamos tratando con un dado justo de seis caras, X puede tomar cada valor en {1, 2, 3, 4, 5, 6} con la misma probabilidad 1/6, entonces:E(X) = (1)(1/6) + (2)(1/6) + (3)(1/6) + (4)(1/6) + (5)(1/6) + (6)( 1/6) = 3.5 En otras palabras, 3.5 es el promedio ponderado de probabilidad para X y a nadie le importa que 3.5 ni siquiera sea un resultado permitido de la tirada del dado.

Varianza V(X)

Reemplazar X con (X – E(X))² en la fórmula E(X) anterior te da la varianza de una distribución. Déjame autorizarte a calcularlo cada vez que te venga la necesidad: V(X) = E[(X – E(X))²] = ∑[x – E(X)]²P(X = x)Esa es una definición, así que no hay pruebas para esta parte. Hagamos un giro para obtener la varianza de un dado justo: V(X) = ∑[x – E(X)]²P(X=x) = ∑(x – 3,5)² P(X=x) = (1–3,5)² (1/6) + (2–3,5)² (1/6) + (3–3,5)² (1/6) + (4–3,5)² (1/6) + (5 –3,5)² (1/6) + (6–3,5)² (1/6) = 2,916666… Si trabaja con datos continuos, utilizará una integral en lugar de una suma, pero es la misma idea.

Fórmula alternativa V(X)

En nuestra prueba a continuación, vamos a usar un pequeño cambio con esa fórmula de varianza, reemplazando el bit del medio con el bit más a la derecha: V(X) = E[(X – E(X))²] = mi[(X )²] – [E(X)]²Te debo una explicación de dónde viene, así que cubramos eso rápidamente: V(X) = E[(X – E(X))²]
= mi[X² – 2 X E(X) + E(X)²]
= E(X²) – 2 E(X) E(X) + [E(X)]²
= mi[(X )²] – [E(X)]²¿Cómo y por qué sucedió esto? El bit clave va de la línea 2 a la línea 3… la razón por la que podemos hacer esto con los corchetes es que los valores esperados son sumas/integrales, así que lo que se nos permita hacer con constantes y corchetes para sumas e integrales también permitido hacer con los valores esperados. por eso si a y b son constantes, entonces E[aX + b] = aE(X) + b. Ah, y E(X) en sí misma también es una constante, no es aleatoria después de que se calcula, por lo que E(E(X)) = E(X). Me alegro de que se haya solucionado.estimaciones (las cosas que desea estimar) a menudo se indican con letras griegas sin adornos, con mayor frecuencia θ. (Esta es la letra “theta” que tendríamos en inglés si sintiéramos que “th” merecía su propia letra; “th” está lo suficientemente cerca de “pffft” para hacer de θ una opción realmente excelente para el marcador de posición estándar en estadística .) Las estimaciones θ son parámetros, por lo que son constantes (desconocidas): E(θ) = θ y V(θ) = 0.Estimadores (las fórmulas que está utilizando para estimar la estimación) a menudo se indican poniendo bling en letras griegas, como un pequeño sombrero en θ, así:Dado que es un fastidio hacer que esta publicación de blog represente una θ con un sombrero muy bien en una publicación de Medium, te pediré que uses tu imaginación y veas a este pequeño y pulcro individuo cada vez que escriba “θhat”. Además, estás pasando por esto con lápiz y papel de todos modos, no estás tratando de estudiar fórmulas solo leyendo, como una especie de maníaco, ¿verdad? — para que no te confundas con mi notación. Copiarás las fórmulas formateadas con el bonito sombrero de arriba y luego leerás tus propias notas, echando un vistazo a mis explicaciones habladas para ayudarte si te pierdes. Los estimadores son variables aleatorias hasta que ingresas tus datos para obtener una estimar (“mejor conjetura”). Una estimación es una constante, por lo que la tratará como un simple número. De nuevo, para que no nos confundamos:estimaciónθ, lo que estamos tratando de estimar, una constante.Estimador, θhat, la fórmula que estamos usando para obtener la estimación, una variable aleatoria que depende de los datos que obtengas. ¡Cuestión de azar!Estimaralgún número que sale al final una vez que ingresamos datos en el estimador. Ahora, para saber si nuestro estimador θhat es tonto como un ladrillo, vamos a querer verificar si podemos suponer que esté cerca del estimador θ. Así que E() de la variable aleatoria X = (θhat – θ) es la primera con la que jugaremos. E(X) = E((θhat – θ)) = E(θhat ) – E(θ) = E(θsombrero) – E(θ) = E(θsombrero) – θEsta cantidad tiene un nombre especial en estadística: sesgo. Un estimador insesgado es aquel en el que E(θsombrero) = θ, que es una propiedad excelente. significa que podemos suponer nuestro estimador para estar en el dinero (en promedio). En mi publicación de blog de introducción suave, expliqué que el sesgo se refiere a “resultados que están sistemáticamente fuera de lugar”. Debería haber dicho más correctamente que el sesgo es la distancia esperada entre los resultados que nos da nuestro estimador (θhat) y lo que buscamos (θ), en otras palabras:

Sesgo = E(θsombrero) – θ

Si te gustan los estimadores imparciales, te encantarán algunos UMVUE. Este acrónimo significa estimador insesgado de varianza mínima uniforme y se refiere a un criterio para la mejor elección entre los estimadores insesgados: si todos son insesgados, elija el que tenga la varianza más baja. (Y ahora lo he llevado aproximadamente al capítulo 7 de un libro de texto de inferencia estadística de nivel de maestría. De nada).UMVUE, no Humvee. Foto de Ryan en Unsplash El término elegante para “me ofreciste dos estimadores con el mismo sesgo, así que elegí el que tenía la varianza más pequeña, duh” es eficienciaPor supuesto, hay muchas maneras diferentes de elegir un “mejor” estimador. Buenas propiedades para buscar incluyen imparcialidad, eficiencia relativa, consistencia, imparcialidad asintótica y eficiencia asintótica. Los dos primeros son pequeñas propiedades de la muestra y los ultimos tres son propiedades de muestras grandes ya que se ocupan de cómo se comporta el estimador a medida que aumenta el tamaño de la muestra. Un estimador es coherente si finalmente está en el objetivo a medida que crece el tamaño de la muestra. (Así es, ¡es hora de poner límites! Lea esto si su tiempo -> infinito). La eficiencia es una propiedad bastante sólida que debe tener en cuenta, ya que nadie quiere que su estimador esté por todas partes. (Bruto). Dado que la eficiencia tiene que ver con la varianza, intentemos reemplazar X = (θhat — θ) en nuestra fórmula de varianza:

Varianza V(X) = E[(X)²] – [E(X)]²
se convierte en V(θhat -θ) = E[(θhat – θ)²] – [E(θhat – θ)]²

La varianza mide la dispersión de una variable aleatoria, por lo que restar una constante (puede tratar el parámetro θ como una constante) simplemente cambia todo sin cambiar la dispersión, V(θsombrero – θ) = V(θsombrero), entonces:

V(θsombrero) = E[(θhat – θ)²] – [E(θhat) – E(θ)]²

Ahora reordenamos los términos y recordamos que E(θ) = θ para constantes:

mi[(θhat – θ)²] = [E(θhat) – θ]² + V(θsombrero)

Ahora echemos un vistazo a esta fórmula, porque tiene algunas cosas especiales con nombres especiales. Pista: ¿recuerdas el sesgo?

Sesgo = E(θsombrero) — θ

¿Podemos encontrar eso en nuestra fórmula? ¡Claro que puede!

mi[(θhat – θ)²] = [Bias]² + V(θhat) = Sesgo² + Varianza

Entonces, ¿qué diablos es la cosa de la izquierda? Es una cantidad útil, pero no fuimos muy creativos al nombrarla. Dado que “error” es una forma decente de describir la diferencia (a menudo anotada como ε) entre dónde aterrizó nuestro tiro (θhat) y hacia dónde apuntábamos (θ), E[(θhat – θ)²] = E(ε²).E(ε²) se nombra, espérelo, ¡error cuadrático medio! Eso es MSE para abreviar. Sí, se llama literalmente E(ε²): tomamos la media (otra palabra para el valor esperado) de los errores al cuadrado ε². Puntos de bonificación para la creatividad allí, estadísticos. MSE es la opción más popular (y vainilla) para la función de pérdida de un modelo y tiende a ser la primera que le enseñan (aquí está en mi propio curso de aprendizaje automático). tener:

MSE = Sesgo² + Varianza

Ahora que ha trabajado con las matemáticas, está listo para comprender de qué se trata la compensación de sesgo-varianza en el aprendizaje automático. Cubriremos eso en mi próximo artículo: manténgase en sintonía presionando el botón Seguir. Si se divirtió aquí y está buscando un curso completo de IA aplicada diseñado para ser divertido tanto para principiantes como para expertos, aquí está el que hice para tu diversión: Estos son algunos de mis tutoriales favoritos de 10 minutos:

aliintizar71