Index(['Clave', 'Fecha', 'Almacenamiento'], dtype='object')
Comprensión de los datos
0.1 Recolección de los datos
0.1.1 Datos existentes
Nuestra fuente de datos principal es la página de datos abiertos del estado de sonora, específicamente en el apartado de recursos hídricos, en el cuál podemos obtener 8 archivos .xlsx
que contienen la información por claves de las 10 presas que abastecen al estado de Sonora. Además del uso de su catálogo y diccionario.
0.1.2 Datos adquiridos
Daremos un breve vistazo a los datos, pues se detallarán de mejor manera en las siguientes secciones.
Como se mencionó, existe un archivo .xlsx
por cada 10 años, desde 1941 hasta el año presente, exceptuando los años de 1960 a 1969, dado que la información de los años 1960 a 1969 no se encuentra disponible se buscara contactar al responsable de esta área dentro de la página de datos abiertos del estado de sonora e intentar obtener dichos datos. Cada uno de esos archivos tiene las siguientes columnas:
Como observar, tenemos tres columnas, como nuestro propósito es hacer predicciones sobre el almacenamiento por cada presa, necesitaremos todas las columnas.
El almacenamiento está dado en Hectómetros cúbicos que es equivalente a un millón de metros cúbicos.
Además el catálogo nos aporta información sobre cada clave, de donde podemos saber, por ejemplo, los limites de almacenamiento de cada presa y su localización, para ser más concretos, las columnas que contiene son:
Index(['Clave', 'Comision', 'Subdireccion', 'Presa', 'Nombre_comun', 'Estado',
'Municipio', 'cap_name', 'cap_namo', 'vol_muerto', 'Río', 'Numero',
'Latitud', 'Longitud', 'Altitud', 'Identificador_cuenca_disponibilidad',
'Cuenca de disponibilidad', 'Numero_region_hidrologica',
'Region_hidrológica'],
dtype='object')
En este caso, las columnas que nos interesan, ya que nos ayudarían a lograr nuestro objetivo, son: Clave, Presa, Municipio, cap_name, cap_namo, vol_muerto, latitud, longitud
y las demás pueden ser descartadas para nuestro análisis.
0.1.3 Datos adicionales
Para complementar la falta de algún dato, se hará uso de los datos de CONAGUA de donde obtener información de los recursos hídricos a nivel nacional.
En general, con los datos se espera poder sacar predicciones de una cantidad de tiempo considerable.
0.2 Descripción de los datos
La cantidad de mediciones obtenidas son: 202993, donde cada medición tiene su fecha y lugar de medición. Las dimensiones de la base de datos son (202993, 3).
Variable | Tipo de dato | Descripción | |
---|---|---|---|
0 | Clave | Texto | Tiene la información sobre la clave que identifica a la presa. |
1 | Fecha | Fecha | Fecha del registro. |
2 | Almacenamiento (hmÂ3) | Numérico | Tiene la información sobre el nivel de ocupación (almacenamiento) de la presa. |
En total tenemos 10 puntos de medición en los datos. Cada medición esta asociada a una Clave
la cual, describiremos a continuación asociándola al nombre de la presa, acompañado del porcentaje que representan en el conjunto de datos.
Clave | Nombre de Presa | Municipio | Cantidad | Porcentaje |
---|---|---|---|---|
LCDSO | Lázaro Cárdenas | Nacozari de García | 26744 | 13.174839% |
PECSO | Plutarco Elías Calles | Soyopa | 19986 | 9.845660% |
AOBSO | Álvaro Obregón | Cajeme | 22756 | 11.210239% |
AGZCH | Abraham González | Guerrero | 19986 | 9.845660% |
ARCSO | Adolfo Ruiz Cortines | Alamos | 21631 | 10.656032% |
PMOSO | Ing. Rodolfo Félix Valdés | Hermosillo | 19986 | 9.845660% |
ARLSO | Abelardo Rodríguez Luján | Hermosillo | 24631 | 12.133916% |
CHTSO | Cuauhtémoc | Tubutama | 26744 | 13.174839% |
IRASO | Ignacio R. Alatorre | Guaymas | 19986 | 9.845660% |
BICSO | Bicentenario | Álamos | 543 | 0.267497% |
0.3 Exploración de los datos
0.3.1 Distribución de almacenamiento
Primeramente, visualizaremos mediante boxplots la distribución del almacenamiento de agua en las presas, esto nos permitirá identificar valores atípicos en la capacidad de almacenamiento en diferentes presas.
Como se observa, debido a la diferencia de tamaño de las presas, ver los boxplots de cada una de ellas en una misma escala hace difícil detectar los valores atípicos.
Un boxplot permite visualizar rápidamente la dispersión de una serie de datos, ya que indica los cuartiles, la mediana, los valores extremos y los valores atípicos de los datos.
0.3.2 Variabilidad temporal
El siguiente gráfico muestra como cambia el almacenamiento de cada presa con respecto al tiempo.
Se puede observar la falta de los datos de los años antes mencionados, además de un comportamiento parecido entre algunas de las presas cada una respecto respecto a su almacenamiento.
0.3.3 Identificación de Presas en Riesgo (Diagrama de Barras de Almacenamiento Promedio)
El siguiente gráfico compara los niveles promedio de almacenamiento sobre el límite de almacenamiento de las diferentes presas para identificar cuales de ellas están en posible riesgo.
Por ejemplo, en este gráfico podemos ver que la presa ‘Bicentenario’ (BICSO) podría estar en riesgo de desabasto, caso contrario a la presa ‘Abraham González’ (AGZCH), la cuál podría estar en riesgo de desborde.
0.4 Verificación de la calidad de los datos
0.4.1 Datos perdidos
Acorde las validaciones de datos null
o NaN
la cantidad y sus proporción son:
Columna | Cantidad datos faltantes | Porcentaje |
---|---|---|
Clave | 0 | 0% |
Fecha | 0 | 0% |
Almacenamiento(hm³) | 0 | 0% |
Recuerde que el periodo de 1960-1969 no se encuentra disponible para su descarga.
0.4.2 Incoherencia en los datos
En la columna Almacenamiento(hm³)
se encontró que hay mediciones con valor -
en lugar de ser un registro en formato numérico como se muestra a continuación.
array([1.30000e-01, 1.50000e-01, 1.60000e-01, ..., 5.39333e+02,
1.06360e+01, 2.72700e+00])
Dándonos:
Formato | Cantidad | Porcentaje |
---|---|---|
- | 13673 | 6.74% |
Cadena de texto como número | 140392 | 69.16% |
Valor númerico | 48927 | 24.1% |
Este error también se puede considerar en error de datos tipográfico.
Se detectaron que el formato de la columna Fecha
tienen 2 tipos de formato, que son:
Formato | Cantidad | Porcentaje |
---|---|---|
YYYY/MM/DD | 186934 | 92.08% |
YYYY-MM-DD HH:MM:SS | 16059 | 7.92% |
0.4.3 Datos atípicos
A continuación se muestra una parte de los valores en la columna Almacenamiento
que son menores que el primer cuartil o mayores que el tercer cuartil, según su clave.
Clave | Cantidad_outliers | |
---|---|---|
0 | AGZCH | 89 |
1 | ARLSO | 79 |
2 | BICSO | 119 |
3 | CHTSO | 208 |
4 | PMOSO | 1245 |