Comprensión de los datos

0.1 Recolección de los datos

0.1.1 Datos existentes

Nuestra fuente de datos principal es la página de datos abiertos del estado de sonora, específicamente en el apartado de recursos hídricos, en el cuál podemos obtener 8 archivos .xlsx que contienen la información por claves de las 10 presas que abastecen al estado de Sonora. Además del uso de su catálogo y diccionario.

0.1.2 Datos adquiridos

Daremos un breve vistazo a los datos, pues se detallarán de mejor manera en las siguientes secciones.

Como se mencionó, existe un archivo .xlsx por cada 10 años, desde 1941 hasta el año presente, exceptuando los años de 1960 a 1969, dado que la información de los años 1960 a 1969 no se encuentra disponible se buscara contactar al responsable de esta área dentro de la página de datos abiertos del estado de sonora e intentar obtener dichos datos. Cada uno de esos archivos tiene las siguientes columnas:

Index(['Clave', 'Fecha', 'Almacenamiento'], dtype='object')

Como observar, tenemos tres columnas, como nuestro propósito es hacer predicciones sobre el almacenamiento por cada presa, necesitaremos todas las columnas.

Nota

El almacenamiento está dado en Hectómetros cúbicos que es equivalente a un millón de metros cúbicos.

Además el catálogo nos aporta información sobre cada clave, de donde podemos saber, por ejemplo, los limites de almacenamiento de cada presa y su localización, para ser más concretos, las columnas que contiene son:

Index(['Clave', 'Comision', 'Subdireccion', 'Presa', 'Nombre_comun', 'Estado',
       'Municipio', 'cap_name', 'cap_namo', 'vol_muerto', 'Río', 'Numero',
       'Latitud', 'Longitud', 'Altitud', 'Identificador_cuenca_disponibilidad',
       'Cuenca de disponibilidad', 'Numero_region_hidrologica',
       'Region_hidrológica'],
      dtype='object')

En este caso, las columnas que nos interesan, ya que nos ayudarían a lograr nuestro objetivo, son: Clave, Presa, Municipio, cap_name, cap_namo, vol_muerto, latitud, longitud y las demás pueden ser descartadas para nuestro análisis.

0.1.3 Datos adicionales

Para complementar la falta de algún dato, se hará uso de los datos de CONAGUA de donde obtener información de los recursos hídricos a nivel nacional.

En general, con los datos se espera poder sacar predicciones de una cantidad de tiempo considerable.

0.2 Descripción de los datos

La cantidad de mediciones obtenidas son: 202993, donde cada medición tiene su fecha y lugar de medición. Las dimensiones de la base de datos son (202993, 3).

Tabla II. Descripción de las variables.
  Variable Tipo de dato Descripción
0 Clave Texto Tiene la información sobre la clave que identifica a la presa.
1 Fecha Fecha Fecha del registro.
2 Almacenamiento (hmÂ3) Numérico Tiene la información sobre el nivel de ocupación (almacenamiento) de la presa.

En total tenemos 10 puntos de medición en los datos. Cada medición esta asociada a una Clave la cual, describiremos a continuación asociándola al nombre de la presa, acompañado del porcentaje que representan en el conjunto de datos.

Clave Nombre de Presa Municipio Cantidad Porcentaje
LCDSO Lázaro Cárdenas Nacozari de García 26744 13.174839%
PECSO Plutarco Elías Calles Soyopa 19986 9.845660%
AOBSO Álvaro Obregón Cajeme 22756 11.210239%
AGZCH Abraham González Guerrero 19986 9.845660%
ARCSO Adolfo Ruiz Cortines Alamos 21631 10.656032%
PMOSO Ing. Rodolfo Félix Valdés Hermosillo 19986 9.845660%
ARLSO Abelardo Rodríguez Luján Hermosillo 24631 12.133916%
CHTSO Cuauhtémoc Tubutama 26744 13.174839%
IRASO Ignacio R. Alatorre Guaymas 19986 9.845660%
BICSO Bicentenario Álamos 543 0.267497%

0.3 Exploración de los datos

0.3.1 Distribución de almacenamiento

Primeramente, visualizaremos mediante boxplots la distribución del almacenamiento de agua en las presas, esto nos permitirá identificar valores atípicos en la capacidad de almacenamiento en diferentes presas.

Como se observa, debido a la diferencia de tamaño de las presas, ver los boxplots de cada una de ellas en una misma escala hace difícil detectar los valores atípicos.

Nota

Un boxplot permite visualizar rápidamente la dispersión de una serie de datos, ya que indica los cuartiles, la mediana, los valores extremos y los valores atípicos de los datos.

0.3.2 Variabilidad temporal

El siguiente gráfico muestra como cambia el almacenamiento de cada presa con respecto al tiempo.

Se puede observar la falta de los datos de los años antes mencionados, además de un comportamiento parecido entre algunas de las presas cada una respecto respecto a su almacenamiento.

0.3.3 Identificación de Presas en Riesgo (Diagrama de Barras de Almacenamiento Promedio)

El siguiente gráfico compara los niveles promedio de almacenamiento sobre el límite de almacenamiento de las diferentes presas para identificar cuales de ellas están en posible riesgo.

Por ejemplo, en este gráfico podemos ver que la presa ‘Bicentenario’ (BICSO) podría estar en riesgo de desabasto, caso contrario a la presa ‘Abraham González’ (AGZCH), la cuál podría estar en riesgo de desborde.

0.4 Verificación de la calidad de los datos

0.4.1 Datos perdidos

Acorde las validaciones de datos null o NaN la cantidad y sus proporción son:

Tabla IV. Datos perdidos por variable.
Columna Cantidad datos faltantes Porcentaje
Clave 0 0%
Fecha 0 0%
Almacenamiento(hm³) 0 0%
Nota

Recuerde que el periodo de 1960-1969 no se encuentra disponible para su descarga.

0.4.2 Incoherencia en los datos

En la columna Almacenamiento(hm³) se encontró que hay mediciones con valor - en lugar de ser un registro en formato numérico como se muestra a continuación.

array([1.30000e-01, 1.50000e-01, 1.60000e-01, ..., 5.39333e+02,
       1.06360e+01, 2.72700e+00])

Dándonos:

Tabla V. Cantidad y porcentaje de la incoherencia en los datos.
Formato Cantidad Porcentaje
- 13673 6.74%
Cadena de texto como número 140392 69.16%
Valor númerico 48927 24.1%

Este error también se puede considerar en error de datos tipográfico.

Se detectaron que el formato de la columna Fecha tienen 2 tipos de formato, que son:

Tabla VI. Heterogeneidad en la variable Fecha.
Formato Cantidad Porcentaje
YYYY/MM/DD 186934 92.08%
YYYY-MM-DD HH:MM:SS 16059 7.92%

0.4.3 Datos atípicos

A continuación se muestra una parte de los valores en la columna Almacenamiento que son menores que el primer cuartil o mayores que el tercer cuartil, según su clave.

Tabla VII. Datos perdidos por Clave.
  Clave Cantidad_outliers
0 AGZCH 89
1 ARLSO 79
2 BICSO 119
3 CHTSO 208
4 PMOSO 1245
Back to top