Prototipo para la generación de metadata con la información de estudios y encuestas

Basado en un proceso inicial en forma manual, para poder entender la composición de los datos, se encontró que:

  • Realizar el proceso en forma manual no es factible cuando el número de elementos de orígenes de datos es alto.
  • La estructura del sitio, es altamente estandarizado por lo que existe la factibilidad de la creación de un recurso automatizado.
    o Obtención de los datos en forma automática
    o Clasificación de información
    o Creación de las secciones relacionadas con la descripción de los datos y cuestionarios
  • Es necesario contar con procesos adicionales para la integración de los metadatos con la
    descripción del proyecto con los metadatos de los archivos de datos.
  • Ejemplo activo con datos Ensanut

Los resultados de la aplicación de alguno de los prototipos pueden ser consultados y modificados en el siguiente site (Se creó una instancia de prueba, las instrucciones de acceso están más adelante), que utiliza una de las herramientas utilizadas por el Banco Mundial, así como el INEGI:

https://adsmexico.com/nada/index.php/home


Algunos resultados de “process mining” y mapa referencial de los encuestados utilizando herramientas adicionales.

URL: https://adsmexico.com/blog/2024/10/04/demo-process-mining/


Este ejemplo de un estudio publicado en el site del World Bank, muestra uno de los estudios con una documentación más completa. Si se observa la construcción de los reportes (PDF) disponibles en el site ENSANUT , gran parte de la información está presente. Sin embargo, para que el usuario pueda observarla por fuerza requiere de abrir el archivo, cosa que no sucede cuando está publicado en forma de metadato.


https://microdata.worldbank.org/index.php/catalog/2786#study_desc1684331110642

Herramientas

Para la realización y presentación del prototipo se utilizaron las siguientes herramientas:

  • Data Documentation Initiative (DDI) Estándar para la publicación de los metadatos y referencias de herramientas para crear consultas disponibles para el usuario.
  • Nesstar Publisher. Una aplicación “Desktop” que facilita integrar el estándar DDI a los estudios, reduciendo la curva de aprendizaje en la creación de un procedimiento para la documentación de los datos. (Este editor contiene muchas funcionalidades que permiten realizar un trabajo profesional. – La última versión disponible al momento 2024, está en estado funcional. )
  • Microdata Cataloging Tool (NADA) NADA es una aplicación para servidor de web diseñada para la publicación y control de estudios documentados con el estándar DDI.
  • Knime. Herramienta “ETL” para la transformación de los archivos de datos. Es posible la
    utilización de otras herramientas como R u otro ambiente de programación, sin embargo la
    presentación visual del proceso en ocasiones facilita el entendimiento general del proceso en lugar de código lineal.
  • PROM / Disco , En el proceso de exploración de datos, se descubrió que existen elementos
    suficientes para poder aplicar técnicas de “process mining”: evento, fecha y hora de inicio, fecha y hora de fin, recurso. Permitiendo hacer un pequeño esquema simple del flujo de cada una de las encuestas, incluyendo la animación de la misma.
  • QGIS, En el proceso de exploración de datos, se descubrió que existen elementos suficientes para poder representar en un mapa ciertos datos relacionados con la encuesta. Mismos que pueden servir de referencia para otro tipo de análisis asociados con la información obtenida.
    Entendiendo que se aplicaron procesos de anonimización, se adicionó un múltiplo aleatorio para poder obtener una dispersión de los puntos.
  • CSViewer, OpenRefine, Herramientas disponibles para poder explorar los archivos csv en forma dinámica.

A.I. vs Automation

Difference between Artificial Intelligence and Automation.

Es común confundir estos dos términos.

La automatización se refiere a que una computadora realice actividades especificas que normalmente hacían los humanos inteligentes, como tomar la orden de tu hamburguesa o cobrarte la gasolina o mandarte un mail o un mensaje después de que terminaste tu compra en línea o hacer un asiento contable o realizar un proceso de auditoría o leer un libro o recordarte que tienes una cita…

Entonces nos queda que la Inteligencia artificial es un proceso de generación de “algo” basado en muchos ejemplos similares a ese “algo”, aplicándole modelos para determinar estadísticamente a una velocidad impresionante que ese “nuevo algo” es lo mas cercano al “algo deseado”.

Un “Sistema de recomendación”, que posiblemente te gustaría ver, si el sistema te deja escoger, o simplemente vas a escuchar la música que probablemente te va a agradar sabiendo que de va a dar mas flojera cambiar de cancion a esperar a que se termine.

Un “Sistema de vigilancia” que basado en el análisis de videos pueda predecir que “comprador” esta practicando “shop lifting” en las tiendas. A final de cuentas parece ser que es mas barato aceptar las perdidas por robo, que mantener “empleados” que monitoreen este proceso, como cajeros que cuantifiquen las cuentas de lo que llevas en el carrito del super.

Algunos efectos colaterales por falta de contexto al aplicar I.A. son confusiones culinarias.

Puede ser la razón por la cual “Turkey” cambio a “Türkiye” y posiblemente “Peru” debiese hacer lo mismo que significa “Pavo” en portugués, o cambiar los nombres de los países para que no sean considerados en recetas de cocina.

A.I. Peperoncino

De “kilos en Chile” a “Peperoncino nel Peperoncino”.

Explicaciones mas sofisticadas se pueden encontrar como en este pdf (USNA): “Lexical relations”

Dr. Bot

Un ejemplo sencillo de como aplicar chatbots para determinar si esta afectado por el Covid-19.

Para activar la conversación simplemente salude al robot con un sencillo “hola” y el bot iniciara con el diagnostico.

Google ChatBot

Usando esquemas con preguntas que vayan dirigiendo al usuario a diferentes contextos de la conversación, es posible predecir un segmento de la conversación.

Aunado con la tecnología asociada para determinar las entidades, en el ejemplo cuando el bot pregunta la localidad, si el usuario escribe:

Zamora y Plátano, el bot identificara que no es el nombre de una ciudad, en cambio si el usuario solamente teclea Zamora lo identificara como una ciudad en alguna parte del planeta.

El proceso de configuración del Bot, es sencillo, pero requiere de mucho tiempo de diseño en como reaccionar a las posibles palabras que el usuario utilice. Existen muchas formas para expresar la misma idea y cada individuo puede utilizar palabras comunes o modismos para hacerlo.

Este proceso de segmentación e identificación de “sentidos” tiene que ser revisada por el equipo de integracion.

Simple ejemplo:

“Quiero una chela bien Elodia” es lo mismo que “Quiero una cerveza bien fría”

Por lo que se requerirá una lista de posibilidades para describir la palabra “Cerveza” y otra para “Fría”.

En algunos casos es importante hacer configuraciones para poder diferenciar el sentido de la misma palabra o siglas, como “AI”:

Artificial Inteligence

Artificilal Insemination

En conclusión, no se necesitar ser un genio, solo se requiere tiempo y una aplicación que amerite la aplicación de ese tiempo.

Google Chat Guide