Sociedad y Tecnología

Contenidos acerca del cambio socio tecnológico en Chile. Abordamos la adopción de tecnologías y sus consecuencias en el país.

Elaborado por Paulina Benítez M. paulinabenitez14@gmail.com


Reutilizar datos abiertos

Hoy los datos abiertos se han convertido en un recurso de información, su valor no sólo está circunscrito al acceso en formatos abiertos, sino que también a la capacidad de reutilizarlos mediante la recombinación con otros datos ampliando la finalidad para la cual fueron creados. En el caso de los datos públicos de Chile, aquellos que están publicados en los repositorios web ¿puede el usuario recombinarlos tal como están? Nos referimos a las bases de datos de los censos, encuestas y a los que periódicamente producen las principales instituciones del país. Este aspecto de los datos es importante, porque su reutilización pertenece a la categoría de “nuevas cosas” que se pueden hacer debido al cambio socio tecnológico actual. Esto quiere decir que cualquier persona interesada en las materias que contienen los datos abiertos de carácter público puede acceder a un variado conjunto de datos que, antes de su apertura, estaba reservado sólo para algunas personas y grupos, generalmente ubicadas cerca de los productores (universidades, centros de investigación y otros similares). Además, la introducción masiva de tecnologías informáticas en el país hace que las personas tengan capacidad de computación para procesar esos datos y generar aplicaciones que amplíen su valor. En este blog hemos planteado en varias ocasiones que el tratamiento de los datos y en particular el de los datos públicos, requiere del trabajo de datificación para minimizar los costos de procesamiento en las etapas previas (validación, depuración, tratamiento de datos faltantes, etc.). Mejorar la calidad de los datos es uno de los costos más altos en el análisis de la ciencia de datos. La actividad ocupa, en promedio, el 50% del tiempo.

Lo anterior pone de relieve la labor de preparación de los datos antes de su uso, esta tarea se encarga de reparar problemas (inconsistencias y errores) que afectan a los datos en su ciclo de vida lo que significa que sean datificados (Mayer-Schonberger y Cukier, 2013). La situación se ve agravada debido a que los datos experimentan transformaciones en el tiempo (nacen, mueren, algunos permanecen), esta dinámica deja una huella digital (Hilbert, 2013) de la organización, o institución que los genera . Por tanto, ocupar distintos conjuntos de datos que se refieren a un mismo evento, pero que tienen fechas diferentes, en ciertos casos requieren de una nueva tarea de preparación: empalme entre ellos, eliminar ciertos temas temporales, por ejemplo, si se trabaja con los precios de bienes y servicios se deberá eliminar el efecto de la inflación. En esta línea también están aquellas variables o categorías que desaparecen porque fueron perdiendo valor en el tiempo. Además, en muchas ocasiones los conjuntos de datos que han sido publicados necesitan ser agrupados con otros conjuntos de datos.

Existen modelos para evaluar la calidad de los datos abiertos en función de la utilidad que prestan al usuario. Entre ellos está el esquema de puntuación de estrellas de Tim Berners-Lee (creador de la Web). Consiste en otorgar la puntuación de una a cinco estrellas de acuerdo a características de formato y funcionalidad que poseen los datos abiertos. Entonces, calificar con una estrella significa que la entidad publica los datos en la web con formato abierto (open data). Dos estrellas representan la publicación de datos estructurados, por ejemplo, tablas de datos en Excel. Las tres estrellas, que usa formato abierto, tales como archivos CSV, tablas con valores separados por comas que facilitan el movimiento de un programa a otro. Cuatro estrellas, significa que usa el identificador universal de recursos (Uniform Resource Identifier, URI) para que los usuarios pueden apuntar a estos datos directamente. Las cinco estrellas, significa enlazar los datos, esto es, que la data usada pueda ser vinculada con otros datos que proveen elementos de contexto. Así el puntaje obtenido, expresado en el número de estrellas, entrega una idea de que tan habilitado está el conjunto de datos para ser reutilizado sin inconvenientes por el usuario.

Aplicamos este esquema de evaluación a los datos de febrero 2024 de la plataforma de Mercado Público (MP), que contienen las órdenes de compra (OC) que realizan los organismos compradores del Estado en un período determinado, y que se pueden descargar todos los días en formato “CSV”. Lo que significa que cumplen con los requisitos de 1, 2 y 3 estrellas. Además, los datos se pueden descargar directamente mediante un identificador uniforme de recursos (URI). Por ejemplo, el archivo con los datos de MP de febrero de 2024 se puede descargar con el enlace https://transparenciachc.blob.core.windows.net/oc-da/2024-2.zip, por lo tanto, los datos de la plataforma MP también cumplen con los requisitos de la cuarta estrella. Y ¿se pueden enlazar con otros datos? de manera de proporcionarles contexto y obtener la quinta estrella. Con este propósito hicimos el ejercicio de calcular el gasto comunal per cápita, desde la perspectiva de la comuna de residencia del proveedor: el gasto de las OC que va a las comunas en que tiene domicilio el proveedor divido por la población de la comuna. Esto requiere combinar los datos de Mercado Público – que tiene los datos de la comuna y región a la que pertenece el proveedor de la OC-, con alguna otra fuente de datos que disponga de la población de las comunas del país, para lo cual se usó la información disponible en Wikipedia Anexo:Comunas de Chile. El Gráfico 1 muestra el resultado de la vinculación de ambos conjuntos de datos. Cada círculo corresponde a una comuna del país, su ubicación corresponde a la intersección del gasto de las OC del Estado y la población de la comuna. El eje horizontal representa la población de la comuna y el eje vertical el gasto realizado por el Estado. Se incorporó el nombre de las comunas que tienen mayor gasto de OC, la línea de tendencia y el Coeficiente de Determinación (R2). La pendiente de la línea entrega el gasto comunal per cápita. 

Fuente: Elaboración propia con los datos de Mercado Público, febrero 2024.

Una última observación sobre los datos del gráfico. El gasto comunal per cápita es aproximadamente $70.000, pero la correlación entre los datos de gasto y población es muy baja (0,1891) e indica que no es representativo, en otras palabras, que las OC que solicita una comuna no son suministradas por proveedores que viven en la comuna. Además, las comunas que reciben más gasto de OC corresponden a comunas de la Región Metropolitana donde se asientan las principales empresas del país.

¿El gráfico es una muestra que los datos de Mercado Público tienen la quinta estrella? La respuesta es negativa. Si bien los datos disponen de las categorías comuna y región del proveedor, están en formato texto lo que es fuente de errores porque impide que el enlace con otros conjuntos de datos se realice de manera fácil utilizando las categorías (comuna, región). Los principales errores que el ejercicio encontró fueron: (1) un tercio de las OC tienen el nombre de la comuna en blanco; (2) hay nombres de comunas mal escritas; (3) un grupo de comunas aparece con más de un nombre. Por ejemplo, la comuna de Aysén (nombre oficial) también está descrita como AISEN, Aysen, Aisen; y Paiguano (nombre oficial) y Paihuano. (4) Otro error habitual en los textos es la incorporación de espacios al comienzo y/o final de una palabra. Todos estos problemas se solucionarían si la plataforma de Mercado Público adoptase el Código Único Territorial (CUT) de comunas: la codificación sistematizada para las comunas del país y las abreviaturas de regiones y provincias (Códigos Únicos Territoriales de la Subsecretaría de Desarrollo Regional y Administrativo, SUBDERE). Los errores no se circunscriben al nombre de la comuna, en algunos casos hay una mala asignación de la unidad de moneda de la OC lo que hace que los montos se salgan de escala. El error habitual consiste en asignarlos en UTM o UF en lugar de pesos. Otro error se manifiesta en la comuna de Santiago, tiene registrados cuatro nombres distintos: Santiago, Santiago Centro, Santiago Oeste, Santiago Sur. Si bien es un error de nombre, pero no es del mismo tipo de los anteriores, porque no hay un error de escritura o una diferencia con el nombre oficial. En este caso lo más probable es que se haga la diferencia para identificar las zonas de la comuna para efectos administrativos y de gestión. En la práctica el registro mejora un aspecto, pero invalida otro. La solución es una nueva categoría.

Finalmente, el ejercicio muestra que aquella información disponible en formato abierto que necesita ocupar más de un conjunto de datos base es un tema pendiente si se quiere que ellos estén disponibles con una mayor frecuencia. Notar que las OC se actualizan diariamente en la plataforma de MP, pero si para enlazar estos datos con otros, para aumentar el ámbito de representación, debemos destinar varias horas a su depuración y conexión no será posible avanzar en la línea de reutilización de los datos.



Deja un comentario

About Me

Paulina es doctora en Ciencias Sociales e investigadora independiente. Actualmente, se dedica al estudio del cambio socio tecnológico en Chile basado en el análisis de datos masivos, principalmente públicos. Hasta febrero de 2022 fue profesora de la Universidad de Concepción (Chile).

Newsletter