Transformando el análisis de datos en el DANE mediante aprendizaje automático

Las oficinas nacionales de estadística (ONE) desempeñan un papel crucial en el suministro de datos precisos y oportunos que los formuladores de política, las empresas, los investigadores y el público en general pueden utilizar para informar decisiones, inversiones y acciones para el desarrollo sostenible y la gobernanza eficaz de los datos.

En respuesta a la creciente demanda de datos precisos y oportunos para apoyar diversos esfuerzos estadísticos, el instituto de estadística de Colombia (DANE) publicó un marco para la producción de Estadísticas experimentales en 2021. Desde entonces, como parte de la iniciativa Data for Now, el DANE viene desarrollando diversos proyectos que combinan el uso de métodos y fuentes no tradicionales con datos oficiales para la producción estadística. En 2022, la Dirección encargada de Recopilación de Datos del DANE propuso el uso del aprendizaje automático (ML) para aprovechar el poder del procesamiento del lenguaje natural (NLP) para capturar y procesar de manera eficiente datos de calidad a través de información basada en audio.

Reconociendo la importancia de los indicadores de hambre, seguridad alimentaria y nutrición para mejorar los sistemas agrícolas y alimentarios, el DANE optó por integrar modelos de aprendizaje automático y NPL en sus operaciones, con un enfoque en la recopilación diaria de precios y cantidades de alimentos. A través de una colaboración con la Global Partnership, el DANE participó en un programa de desarrollo de capacidades con el fin de crear un mecanismo semi-automático de recopilación y análisis de datos para del Sistema de Información de Precios y Oferta del Sector Agropecuario (SIPSA).

Alineando con los ODS

Los esfuerzos del DANE se alinean con metas específicas de los Objetivos de Desarrollo Sostenible (ODS), particularmente el ODS 2 - Hambre Cero. Los datos más recientes revelan que en 2022, el 28,1% de los hogares colombianos experimentó inseguridad alimentaria moderada, y el 4,9% enfrentó inseguridad alimentaria severa. Al examinar estas tasas de prevalencia a nivel subnacional, resulta evidente que estas cifras pueden llegar al 59,7% para la inseguridad alimentaria moderada y al 17,5% para la inseguridad alimentaria grave. Esto pone de manifiesto la necesidad de aumentar esfuerzos para reducir la desnutrición en el país, enfatizando el papel crucial de los datos relacionados con este fenómeno en el diseño de políticas públicas.

Al buscar posibles causas de este problema, la Organización de las Naciones Unidas para la Agricultura y la Alimentación (FAO) relaciona el aumento de los precios de mercado de los alimentos y la asequibilidad de dietas saludables con niveles más altos de seguridad alimentaria severa y moderada o severa. Así, mejorar la recolección de datos sobre precios y cantidades de alimentos ofrecidos diariamente en el mercado permitirá tener información más precisa para comprender las posibles causas de la desnutrición en Colombia.

Impacto transformador: los modelos de procesamiento del lenguaje natural mejoran la recopilación de datos y análisis de los ODS

A través de la colaboración y la capacitación, el DANE ha implementado con éxito modelos de NPL para mejorar la recopilación de datos y el análisis de los ODS dentro de la institución, alistando el camino para futuras mejoras en la efectividad institucional. El equipo del DANE ha adquirido experiencia en modelos de NLP y sus aplicaciones, lo que les permite identificar oportunidades para mejorar los procesos de recopilación de datos; así como los conocimientos necesarios para el desarrollo de un prototipo que pretende cuantificar las interrelaciones entre los indicadores de los ODS.

Para el Sistema de Información de Precios y Oferta del Sector Agropecuario (SIPSA), el modelo previsto promete revolucionar la recopilación de datos al eliminar la necesidad de transcribir manualmente los datos del papel a herramientas digitales. Esta automatización minimizará los errores y agilizará la elaboración de los boletines técnicos diarios del mercado.

“El conocimiento de diferentes herramientas en el Taller de Machine Learning ofrecido en el marco de la iniciativa D4N permitió al equipo de trabajo de SIPSA proponer una estrategia de transcripción de la información de audio recopilada, y luego, un proyecto piloto en colaboración con el equipo de Data Management. El proyecto ha logrado avances importantes en la optimización de la digitalización de la información de SIPSA_A manteniendo las condiciones requeridas de calidad y oportunidad de dicha información.”

– Paola Galvis, Experto temático, SIPSA, DANE

Mejorar los datos a través de la capacitación, la colaboración y la innovación

En este marco, el DANE y la Global Partnerhsipl contrataron los servicios de consultores de aprendizaje automático (ML), para brindar capacitación integral al equipo del DANE y formular una hoja de ruta de implementación sólida. Esta iniciativa no sólo permitió al equipo del DANE mejorar sus procedimientos de análisis de datos, sino que también permitió mejoras en tiempo real de sus operaciones estadísticas, mejorando su capacidad para la toma de decisiones basada en evidencia. En la primera capacitación, durante el primer semestre de 2023, 14 participantes adquirieron habilidades en diseño e implementación de herramientas para lectura y almacenamiento de audios que se utilizarán para ejecutar modelos de procesamiento de lenguaje natural.

La colaboración comprendió tres fases: capacitación en ML, creación conjunta de modelos de ML y diseño e implementación de una hoja de ruta. Uno de los aprendizajes más importantes durante la capacitación fue la necesidad de adaptar el contenido a las necesidades específicas del equipo del DANE y sus proyectos. Esto incluyó centrarse en ejemplos y casos de uso que fueran relevantes para el contexto del análisis de datos en el área de políticas públicas. La capacitación permitió resaltar la importancia de fomentar un ambiente de colaboración y aprendizaje entre los participantes que sea propicio para la discusión de ideas y soluciones a problemas específicos en sus áreas de trabajo.

La fase de entrenamiento

El equipo del DANE aprendió sobre análisis automatizado de texto, reconocimiento de imágenes y programación en software Python y Orange. El objetivo era utilizar este conocimiento para mejorar la captura, el procesamiento y el control de calidad de múltiples formatos de datos. Los participantes pudieron comprender los fundamentos teóricos y prácticos del ML, así como aprender a utilizar herramientas y bibliotecas específicas para el análisis de texto, audio e imágenes.

La fase de co-creación

La fase de co-creación brindó a los participantes la oportunidad de practicar lo que aprendieron en el entrenamiento, aplicado a conjuntos de datos del mundo real en desafíos actuales de su trabajo. Durante esta fase, el DANE y la Global Partnership trabajaron conjuntamente para desarrollar modelos de ML que se adaptaran a las necesidades específicas del DANE. Esto implicó construcción de algoritmos, sesiones técnicas y orientación para configurar los modelos. Algunos elementos claves para esta fase fueron la comunicación efectiva, la adaptabilidad al entorno DANE, las visitas presenciales a los centros de recolección de datos y la colaboración. Superar los desafíos y fomentar un entorno de aprendizaje resultó fundamental para la ejecución exitosa de esta iniciativa.

“El proceso de co-creación representa un gran logro en el fortalecimiento de las capacidades técnicas del DANE. Nos permite combinar nuestra amplia experiencia en control de calidad de datos con el uso de fuentes y técnicas de datos emergentes. Si bien todavía se necesitan capacidades adicionales, este es un importante paso adelante.”

– Andrés Arévalo, Experto temático, Unidad ODS, DANE

La fase de implementación y diseño de una hoja de ruta.

Para asegurar las implementaciones exitosas de los modelos de ML en el DANE, el equipo a cargo del proceso de recolección de datos para SIPSA desarrolló una hoja de ruta detallada con el apoyo del consultor de ML. El primer paso de la hoja de ruta fue identificar áreas donde los modelos de ML podrían extenderse a otras aplicaciones de investigación del DANE. Técnicos del DANE analizaron el impacto de los modelos e identificaron oportunidades para adaptarlos y mejorarlos, en función de las necesidades de otros proyectos y áreas de trabajo. Una vez trazadas las líneas de trabajo, el equipo del DANE desarrolló herramientas de ML que fueron diseñadas para ser funcionales, escalables e integradas con los sistemas existentes.

Actualmente, el DANE se encuentra trabajando con una segunda consultora experta en modelos de ML en la implementación de la hoja de ruta, bajo un esquema de co-creación donde existe un trabajo conjunto permanente entre el equipo del DANE y la experta. Hasta el momento, se ha hecho una exploración exhaustiva de diversas técnicas de preprocesamiento de audio con el objetivo de mejorar la calidad y la información contenida en el conjunto de datos. Adicionalmente, se llevó a cabo una extensa fase de preprocesamiento para maximizar la utilidad y la coherencia del conjunto de datos, proporcionando así una base sólida para análisis posteriores. El DANE se centró en buenas prácticas para garantizar la calidad y el mantenimiento a largo plazo de las soluciones implementadas.

Próximos pasos e implicaciones futuras

La implementación exitosa del proyecto en el DANE permitirá establecer un sólido caso de negocios para la implementación de modelos de aprendizaje automático al identificar ventajas específicas que pueden potenciar la innovación futura, como una mejor calidad de los datos, mayor puntualidad, procesos de producción optimizados e innovación en análisis de datos. Por otro lado, también permitió identificar cuáles son las principales barreras para un uso generalizado, como la necesidad de una infraestructura adecuada, gestionar el cambio organizacional, garantizar el aprendizaje continuo, y mantener la privacidad y la ética de los datos.

De cara al futuro, existen varios hitos clave para perfeccionar el algoritmo de procesamiento del lenguaje natural (PLN). Estos pasos incluyen la transición de un prototipo de algoritmo PNL a su versión final, pilotear el modelo y escalar la solución a diversos proyectos y operaciones estadísticas, para ello el DANE continúa trabajando con la experta en ML. El éxito y los resultados de este proyecto serían clave para ampliar la solución.

Para garantizar el éxito de los modelos de aprendizaje automático, es esencial contar con datos de alta calidad. Los datos de mala calidad pueden provocar una grave degradación de los resultados y tener mayores consecuencias cuando las decisiones se basan en esos productos. Igualmente importante es el uso de modelos de lenguaje previamente entrenados (PLM) para aprender representaciones universales en grandes corpus de manera auto-supervisada. Los modelos previamente entrenados y las representaciones aprendidas pueden beneficiar una serie de tareas posteriores de NLP.

A la luz de estos logros y el compromiso continuo de avanzar en los procesos de datos utilizando el aprendizaje automático, la Global Partnership continuará apoyando a los países en su viaje hacia mayores mejoras e innovación en el análisis de datos.

Revisiones de Víctor Andrés Arévalo Cabra, Profesional en el Grupo de Indicadores ODS; Revisiones editoriales de Stephanie Welstead, Consultora de Comunicaciones, Global Partnership.