Regresiones

NATURALEZA

Desde comienzos del siglo XIX, la lógica de la regresión y, en concreto, el llamado método de los mínimos cuadrados se encuentra presente en diversas investigaciones impulsadas por Legendre, Laplace o Gauss y, por tanto, vinculadas a la astronomía, la física olas matemáticas. A pesar de ello, el concepto surge, a finales del siglo citado, en una investigación titulada “Regression towards mediocrity inhereditary statute” y elaborada por Galton. En ella, se estudia la dependencia de la estatura de las personas respecto de la estatura de sus progenitores. A partir de este momento, autores como Pearson o Yule trasladan el planteamiento de Galton a un entorno estadístico, por lo que desarrollan la regresión y, en general, la estadística inferencial. Así, se inicia el progresivo avance del concepto, el cual aún se erige como un tema de investigación, y su aplicación en múltiples disciplinas científicas.

CONCEPTO

Técnica estadística y de análisis de datos que describe y predice la relación entre una o más variables explicativas o de entrada y una variable respuesta o de salida. Simplificando, la regresión sería un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente Y y una o varias variables independientes X. Hay distintos métodos para el ajuste de esta relación.
Existen dos grandes modelos de regresión: (i) lineal, el cual asume que la relación entre las variables adopta la forma de una recta, de manera que la variable de salida varía a un ritmo constante respecto a la/s variable/s de entrada, y busca examinar y estimar valores continuos; (ii) No lineal en cuanto que asume que las relaciones entre las variables son más complejas que las reflejadas en una recta adoptando modelos polinomiales,exponenciales, de potencia o logarítmicos. Estos modelos pueden ser particularmente útiles cuando se trata de conjuntos de datos del mundo real, donde es común que las relaciones entre las variables no sean lineales. En este tipo de regresión destaca la regresión logística que asume que la relación entre las variables adopta la forma de un sigmoide y busca examinar y estimar la probabilidad de que un valor de la variable de salida pertenezca a una determinada categoría.
Cuando se trata de modelado predictivo, los modelos de regresión lineal son ampliamente utilizados y conocidos. Pese a ello, estos modelos tienen ciertas limitaciones cuando se trata de ajustar tipos de datos complejos, donde las relaciones entre variables pueden no ser lineales. En tales casos, los modelos de regresión no lineal entran en juego, ofreciendo mejores predicciones al ajustar una curva a los puntos de datos. Sin embargo, comprender los modelos de regresión no lineal requiere una buena comprensión de algunos conceptos y terminologías clave. Mientras los modelos de regresión simple son fáciles de entender y resultan auto explicativos.

IMPORTANCIA

Se trata de una técnica de aprendizaje automático (machine learning) y, específicamente, de aprendizaje supervisado (supervised learning). Bajo este marco, aúna dos propósitos interrelacionados. Primero: la descripción, basada en detallar la relación entre la/s variable/s de entrada y la variable de salida a partir de valores conocidos. Así, el algoritmo identifica patrones en los datos y aprende de las observaciones realizadas. Segundo: la predicción, centrada en pronosticar un valor desconocido de la variable de salida a partir de uno o más valores conocidos de la/s variable/s de entrada.

USOS Y RIESGOS

Por una parte, la técnica se puede introducir en todos los ámbitos que guardan relación con el Estado de Derecho, los derechos y la democracia debido a que, fruto de su capacidad a la hora de describir y predecir la realidad, posibilita la adopción fundamentada de decisiones. Partiendo de esta base, conviene enumerar algunos fines a modo de ejemplo: la estimación de la probabilidad de que un determinado evento ocurra o la optimización de los recursos. Por otra parte, la técnica depende de aquellas decisiones que guían su diseño, aplicación y control. Sumado a ello, resulta vulnerable a errores que moldean la interpretación de los resultados y, por ende, la adopción de decisiones. En este sentido, considérese la equívoca apreciación de causalidad o el sobre ajuste (overfitting).

AUTORES

Óscar Moreno Corchete

Privacy Settings
We use cookies to enhance your experience while using our website. If you are using our Services via a browser you can restrict, block or remove cookies through your web browser settings. We also use content and scripts from third parties that may use tracking technologies. You can selectively provide your consent below to allow such third party embeds. For complete information about the cookies we use, data we collect and how we process them, please check our Privacy Policy
Youtube
Consent to display content from - Youtube
Vimeo
Consent to display content from - Vimeo
Google Maps
Consent to display content from - Google
Spotify
Consent to display content from - Spotify
Sound Cloud
Consent to display content from - Sound