Sociedad y Tecnología

Contenidos acerca del cambio socio tecnológico en Chile. Abordamos la adopción de tecnologías y sus consecuencias en el país.

Elaborado por Paulina Benítez M. paulinabenitez14@gmail.com


Sobre el ciclo de vida de los datos en el ciberespacio

Esta entrada analiza materias específicas sobre las fuentes de datos, en particular del conjunto de datos (dataset) que nutren de contenido este blog. Nos referimos a las fuentes de datos abiertos de carácter público disponibles en el ciberespacio. La entrada hace explícitas ciertas cuestiones prácticas (metodológicas) a las que se hace frente al momento de llevar adelante el análisis de datos de algún corpus de datos abiertos gubernamentales almacenado en repositorios nacionales. Ello es posible porque, si bien estos dataset tienen un objetivo primario, cuando quedan almacenados en el ciberespacio, pueden ser reutilizados en otros propósitos. Además, con el tiempo experimentan cambios que deben ser considerados para mantener la consistencia del conjunto. Así, en los dataset no sólo quedan almacenados los datos de un período, también quedan registradas las decisiones adoptadas por las organizaciones que los generaron. A esto último es lo que en este blog se entiende por “huella digital”.

La entrada analiza estos aspectos (objetivo primario, reutilización y ciclo de vida de los dataset), a través del dataset de bencina en línea, el Sistema de Información en Línea de Precios de Combustibles en Estaciones de Servicio. Una plataforma digital de la Comisión Nacional de Energía (CNE) que, desde el año 2012, entrega a los usuarios información actualizada de los precios de venta de los combustibles en los servicentros. Este dataset es uno de los primeros publicados en Chile y se planteó por objetivo mejorar el arbitraje entre la oferta y la demanda de combustible, esto es, eliminar la asimetría de la información.

Mejorar el arbitraje es el objetivo primario de este dataset. Entonces, el elemento central no es que los servicentros informen de los cambios en sus precios, sino hacer que la consulta de los precios que hacen los usuarios sea rápida y efectiva. Para ello es importante que los precios sean informados, pero además que los datos queden disponibles y datificados. La datificación tiene por finalidad que la comparación de datos sea rápida, para lo cual los datos además de los precios, tienen la latitud y longitud de los servicentros. Ambas permiten que el usuario pueda comparar los precios de los combustibles de los servicentros más cercanos a su ubicación.

A continuación, presentamos un ejemplo mínimo de la reutilización de datos con un objetivo distinto del original. El Gráfico 1 muestra la serie histórica de precios (2012 – junio 2025) de los principales combustibles de bencina en línea; estos son las gasolinas de 93, 95, 97 octanos, petróleo diésel, kerosene, gas natural (GNC, GNL) y electricidad. Para efectos del análisis no se consideraron los precios de GNC, GNL ni Electricidad. Para generar el Gráfico 1 se juntaron los trece dataset anuales. El resultado obtenido es un dataset con casi cinco millones de registros (4.847.185) emitidos por mil ochocientos un servicentros. El precio nominal promedio se obtuvo de promediar los precios informados semanalmente por todos los servicentros del país durante el período.

El Gráfico 1 muestra el precio nominal de los combustibles en pesos ($) por litro, es decir, los precios no fueron ajustados por el índice de inflación. El Gráfico 1 pretende mostrar que el cambio en el nivel de precios del período no fue lineal. Hay un primer momento en que aquellos se mantuvieron relativamente estables, entre el 2012-2020; posteriormente ellos dieron un salto (año 2021) que les ubica en el valor actual. El aumento en los precios de combustibles observado en el Gráfico 1 estuvo correlacionado con el aumento de la inflación, porque los combustibles (energía) son una parte importante de la composición del IPC (Índice de Precios al Consumidor). Pero, desde la perspectiva de los datos se aprecia otro hecho importante. En el año 2024 aparecieron nuevos combustibles, por lo que el gráfico es más denso en esta última parte. El hecho se debe a los cambios en este sector económico. Los combustibles 93 y A93 son los mismos (al igual que 95 y A95, 97 y A97, DI y ADI, KE y AKE), pero sus precios no lo son, porque cambió la modalidad de atención (Autoservicio) en el servicentro. Y lo que importa para mejorar el arbitraje entre la oferta y la demanda son los precios.

En resumen, el ejemplo muestra un conjunto de datos específicos cuyo objetivo primario es mejorar la asimetría de información en el ámbito de los precios de combustibles; pero que en el ejemplo del Gráfico 1 se emplearon para describir la serie histórica del precio nominal de los combustibles en Chile (2012-2025). La elaboración del ejemplo necesitó realizar un trabajo de adecuación de los datos, dado que estos sufrieron cambios durante el ciclo de vida. Específicamente, estos dataset originales presentaron cambios en el nombre de variables, en el registro de los combustibles, en la aparición de nuevas variables y en la eliminación de otras. La adecuación de datos también implicó detectar valores fuera de rango, en el ejemplo no fueron consideraron los valores mayores a $2.000 y menores a $100. Adecuar el dataset es un trabajo que consume mucho más tiempo que consultar y hacer los cálculos asociados al análisis, debido a que los conjuntos de datos no consideran la reutilización como una parte integral de ellos. En relación a este aspecto Chile está en una muy mala posición a nivel internacional, ocupa el penúltimo lugar entre los países OCDE, como da cuenta el Índice de datos abiertos, útiles y reutilizables 2023 (OURdata). Los datos abiertos públicos o gubernamentales deben cumplir los estándares, que no son sólo estar disponibles y permitir el acceso en repositorios, también significan que sean reutilizables dentro y fuera del sistema de datos abiertos públicos.



Deja un comentario

About Me

Paulina es doctora en Ciencias Sociales e investigadora independiente. Actualmente, se dedica al estudio del cambio socio tecnológico en Chile basado en el análisis de datos masivos, principalmente públicos. Hasta febrero de 2022 fue profesora de la Universidad de Concepción (Chile).

Newsletter