Pour être utilisables, les données doivent respecter des normes de qualité convenues. Les normes de qualité des données font référence au niveau d'exactitude, d'actualité, de précision et de fiabilité des performances. Chaque initiative de partage de données fixe ses propres normes de qualité et définit ce qui est acceptable et ce qui ne l'est pas en fonction des objectifs qu'elle se propose d'atteindre. Il est clair que certains cas d'utilisation (par exemple, dans le contexte des soins de santé ou de l'aide humanitaire) exigent des normes de qualité des données plus élevées que d'autres. Il est donc impossible d'établir une définition universelle des données "suffisamment bonnes".
Investir pour garantir le respect des normes de qualité des données convenues peut consommer du temps et des ressources. Toutefois, la mise en place d'un système à cet effet permet d'économiser des ressources à des stades ultérieurs des projets, car les erreurs et les biais peuvent être repérés avant que les données ne soient utilisées, ce qui évite des efforts coûteux pour corriger les erreurs une fois l'initiative ou la plate-forme établie.
L'adoption de cadres de qualité appropriés lors de la phase de collecte des données et la mise en place d'approches transparentes pour limiter et atténuer les biais lors de la phase d'analyse des données sont des étapes utiles pour améliorer la qualité des données.
Définir les approches appropriées en matière de qualité des données
Les approches de la qualité et de la véracité des données varient selon les initiatives. Par exemple, les plateformes d'échange de données comme le Humanitarian Data Exchange (HDX) ne vérifient pas la qualité des données qu'elles reçoivent des partenaires. L'architecture de données du HDX n'est pas conçue pour nettoyer les données soumises. Cette initiative adopte une approche "d'acheteur averti", où la véracité des données est évaluée par l'utilisateur.
D'autres initiatives travaillent intensivement avec des partenaires de données pour garantir la qualité des données partagées. Les organisateurs de la Global Fishing Watch (GFW), par exemple, peuvent passer des mois à effectuer des contrôles de qualité des données reçues des gouvernements, car chaque pays communique ses données différemment. L'équipe du GFW standardise le format des données et vérifie l'absence d'erreurs. Les divergences telles que les champs de données manquants ou les fuseaux horaires erronés sont courantes, et l'équipe GFW travaille avec les gouvernements pour les corriger. Ce n'est que lorsque l'équipe GFW est convaincue de la qualité des données qu'elle passe à l'étape de l'analyse.
Une autre approche consiste à confier le nettoyage et le contrôle de la qualité des données aux fournisseurs de données. Ce point est généralement discuté au début de l'initiative, et les partenaires de données acceptent les exigences de format de données de l'initiative. Par exemple, INSPIRE exige que les partenaires effectuent le nettoyage des données, les contrôles de qualité et les mesures d'assurance qualité nécessaires avant le partage.
Transparence pour l'atténuation et la limitation des distorsions liées aux données
En avril 2022, Haïti a été le théâtre de violences généralisées dues à des bagarres entre deux gangs. Le conflit a entraîné le déplacement d'environ 35 000 personnes de la zone touchée. Flowminder est une fondation à but non lucratif spécialisée dans l'analyse des Big Data, telles que les enregistrements des détails des appels, l'imagerie satellite et les enquêtes sur les ménages, afin de résoudre les problèmes de développement. Pour fournir plus de preuves et de détails sur le déplacement, elle a formé un partenariat de partage de données avec un opérateur de télécommunications représentant 74 % de la part de marché nationale.
L'objectif de ce partenariat était de générer des preuves pour mieux comprendre les mouvements à grande échelle de la population déplacée et soutenir la mise en place d'une réponse politique appropriée. Dans son rapport final, Flowminder a fourni un avertissement détaillé sur les limites des données provenant des opérateurs de réseaux mobiles, qui ne sont pas statistiquement représentatives car l'accès aux téléphones n'est pas universel. Le rapport invite les lecteurs à tenir compte des limites des données lorsqu'ils tirent des conclusions à partir de l’étude.