Modelado y Evaluación

1 Modelado

El objetivo de esta fase es desarrollar modelos predictivos que permitan identificar presas en riesgo de desborde o desabasto, utilizando datos históricos de almacenamiento hídrico en Sonora. Se buscó abordar el problema desde un enfoque de predicción para estimar los niveles futuros de agua en las presas y evaluar posibles riesgos.

1.1 Selección de Modelos

Se consideraron diferentes técnicas de modelado, cada una adecuada según las características de los datos y el objetivo.

  • Linear Regression: Modelo estadístico que asume que hay una relación lineal entre las variables independientes (precipitación, capacidad máxima, etc) y la variable dependiente (almacenamiento de agua). Su simplicidad lo hace útil como línea base.
  • Decision Tree: Divide los datos en subconjuntos según condiciones basadas en las variables independientes. Este modelo es capaz de capturar relaciones no lineales y ofrece interpretabilidad.
  • Random Forest: Conjunto de múltiples árboles de decisión que combina sus predicciones para mejorar la precisión y reducir el riesgo de sobreajuste.
  • XGBoost: Algoritmo basado en árboles de decisión que emplea técnicas de boosting para optimizar iterativamente el desempeño, corrigiendo los errores de modelos previos.
  • Support Vector Regretion (SVR): Extiende el concepto de Support Vector Machines (SVM) para problemas de regresión. Busca un hiperplano que maximice el margen alrededor de las predicciones, útil en contextos con relaciones complejas y no lineales.

1.2 División de los Datos

Los datos se dividieron en conjuntos de entrenamiento y prueba, utilizando un 80% de los registros para entrenar los modelos y el 20% restante para evaluar su desempeño. Este proceso se realizó de forma individual para cada presa, permitiendo que los modelos capturen las características únicas de cada caso.

1.3 Métricas de Evaluación

Para determinar el desempeño de los modelos, se emplearon las métricas: Error Absoluto Medio (1), Error Cuadrático Medio (2), Error Porcentual Absoluto Medio (3) y Coeficiente de Determinación (4).1 Se busca que las métricas MAE, MSE y MAPE sean lo más cercanos a 0. En adición, \(R^2\) debe ser lo más cercano a 1.

La tabla a continuación resume los resultados promedio obtenidos para cada modelo aplicado a las presas:

Modelo MAE Promedio MSE Promedio R2 Promedio MAPE Promedio
0 Linear Regression 167.706821 96250.356487 -6.784704 1.136267e+16
1 Decision Tree 173.710948 127391.523860 -0.448930 3.492557e+14
2 Random Forest 172.000983 127329.936756 -0.387404 3.454752e+14
3 XGBoost 168.705741 119459.683456 -0.374427 3.329663e+14
4 SVR 182.705639 109401.919295 -7.035679 1.225258e+16

para tener el análisis más extenso, favor de ver colab, en el cuál se muestran los resultados obtenidos de cada modelo por cada presa.

2 Evaluación

De acuerdo con con los resultados a los promedios obtenidos en la fase de modelado se elige al modelo XGBoost, dicho modelo tiene menos menos error en la mayoria de las presas y un coeficiente de determinacion mas cercano a 1.

A continuación se muestra una gráfica con los resultados del modelo XGBoost haciendo una prediccion de 800 dias:

Recuerde que;

Tabla XIII. Nombres de las presas.
  Clave Presa Municipio
0 LCDSO Lázaro Cárdenas Nacozari de García
1 PECSO Plutarco Elías Calles Soyopa
2 AOBSO Álvaro Obregón Cajeme
3 AGZCH Abraham González Guerrero
4 ARCSO Adolfo Ruiz Cortines Alamos
5 PMOSO Ing. Rodolfo Félix Valdés Hermosillo
6 ARLSO Abelardo Rodríguez Luján Hermosillo
7 CHTSO Cuauhtémoc Tubutama
8 IRASO Ignacio R. Alatorre Guaymas
9 BICSO Bicentenario Álamos

Como se observa, para la presa con clave BICSO deberíamos hacer una predicción de días más pequeña ya que es una presa “nueva” y no hay tantos datos como en la mayoría de casos.

Para el modelado se usaron parámetros casi por defecto, habría que ajustarlos y tener un mejor rendimiento.

Con estos parámetros el modelo predice que habrá desabasto en las presas:

  • ARLSO
  • IRASO
  • CHTSO
  • ARCSO

Esto no significa que las demás no tengan problemas, pues todas van a la baja (con este modelo).

Back to top

Footnotes

  1. Métricas de error

    Para obtener una cuantificación ‘general’ de la calidad de las predicciones, se evalua que tan bien coinciden las predicciones \((f_t)\) con los valores reales \((y_t)\) en el tiempo \(t\). Afortunadamente, se han ideado métricas de error para evaluar la calidad del modelo y permitir la comparación con otras regresiones que poseen diferentes parámetros. Estas métricas son breves pero informativos de la calidad de los datos. A continuación se presentan las utilizadas en este trabajo:

    \[ MAE = \frac{1}{n}\sum_{t=1}^n |y_t-f_t| \tag{1}\]

    \[ MSE = \frac{1}{n}\sum_{t=1}^n (y_t-f_t)^2 \tag{2}\]

    \[ MAPE=\frac{100}{n}\sum_{t=1}^n \left| \frac{y_t-f_t}{y_t}\right| \tag{3}\]

    \[ R^2 = 1 - \frac{\sum\limits_{i=1}^{n}(y_t-f_t)^2}{\sum\limits_{i=1}^{n}(y_t-\bar{y})^2} \tag{4}\]

    El error medio absoluto (MAE) y el error cuadrático medio (MSE) son métricas de error comúnmente utilizadas en la evaluación de modelos. Sin embargo, el MSE suele ser mayor que el MAE debido al cuadrado de la diferencia.

    ↩︎