Prototipo para la generación de metadata con la información de estudios y encuestas

Basado en un proceso inicial en forma manual, para poder entender la composición de los datos, se encontró que:

Realizar el proceso en forma manual no es factible cuando el número de elementos de orígenes de datos es alto.
La estructura del sitio, es altamente estandarizado por lo que existe la factibilidad de la creación de un recurso automatizado.
o Obtención de los datos en forma automática
o Clasificación de información
o Creación de las secciones relacionadas con la descripción de los datos y cuestionarios
Es necesario contar con procesos adicionales para la integración de los metadatos con la
descripción del proyecto con los metadatos de los archivos de datos.
Ejemplo activo con datos Ensanut

Los resultados de la aplicación de alguno de los prototipos pueden ser consultados y modificados en el siguiente site (Se creó una instancia de prueba, las instrucciones de acceso están más adelante), que utiliza una de las herramientas utilizadas por el Banco Mundial, así como el INEGI:

https://adsmexico.com/nada/index.php/home

Algunos resultados de “process mining” y mapa referencial de los encuestados utilizando herramientas adicionales.

URL: https://adsmexico.com/blog/2024/10/04/demo-process-mining/

Este ejemplo de un estudio publicado en el site del World Bank, muestra uno de los estudios con una documentación más completa. Si se observa la construcción de los reportes (PDF) disponibles en el site ENSANUT , gran parte de la información está presente. Sin embargo, para que el usuario pueda observarla por fuerza requiere de abrir el archivo, cosa que no sucede cuando está publicado en forma de metadato.

https://microdata.worldbank.org/index.php/catalog/2786#study_desc1684331110642

Herramientas

Para la realización y presentación del prototipo se utilizaron las siguientes herramientas:

Data Documentation Initiative (DDI) Estándar para la publicación de los metadatos y referencias de herramientas para crear consultas disponibles para el usuario.
Nesstar Publisher. Una aplicación “Desktop” que facilita integrar el estándar DDI a los estudios, reduciendo la curva de aprendizaje en la creación de un procedimiento para la documentación de los datos. (Este editor contiene muchas funcionalidades que permiten realizar un trabajo profesional. – La última versión disponible al momento 2024, está en estado funcional. )
Microdata Cataloging Tool (NADA) NADA es una aplicación para servidor de web diseñada para la publicación y control de estudios documentados con el estándar DDI.
Knime. Herramienta “ETL” para la transformación de los archivos de datos. Es posible la
utilización de otras herramientas como R u otro ambiente de programación, sin embargo la
presentación visual del proceso en ocasiones facilita el entendimiento general del proceso en lugar de código lineal.
PROM / Disco , En el proceso de exploración de datos, se descubrió que existen elementos
suficientes para poder aplicar técnicas de “process mining”: evento, fecha y hora de inicio, fecha y hora de fin, recurso. Permitiendo hacer un pequeño esquema simple del flujo de cada una de las encuestas, incluyendo la animación de la misma.
QGIS, En el proceso de exploración de datos, se descubrió que existen elementos suficientes para poder representar en un mapa ciertos datos relacionados con la encuesta. Mismos que pueden servir de referencia para otro tipo de análisis asociados con la información obtenida.
Entendiendo que se aplicaron procesos de anonimización, se adicionó un múltiplo aleatorio para poder obtener una dispersión de los puntos.
CSViewer, OpenRefine, Herramientas disponibles para poder explorar los archivos csv en forma dinámica.