Plans et tarifsInscrivez-vous gratuitement

Qualité De Données : Comment Définir Des Standards Dans Votre PME

Telmo Silva Le octobre 18, 2024

12,9 millions d’euros. C’est la moyenne de l’impact financier de données de mauvaise qualité qui pèse sur les entreprises chaque année, selon Gartner.

Comment arrive-t-on à ce chiffre ?

Des données manquantes, erronées, dupliquées, pas mises à jour qui nécessitent des ressources humaines, du temps de traitement et de nettoyage. Et bien évidemment l’impact financier de décisions prises sur des données qui ne sont pas fiables, et des risques de non-conformité aux réglementations en matière de gestion et traitement des données…

Il est donc essentiel de maintenir une norme de qualité de données (ou data quality) dans votre entreprise dans un contexte où la gouvernance des données est devenue centrale.

Mais qu’est-ce qu’un standard de qualité de données et qui le définit ?

C’est ce que nous allons découvrir !

Introduction aux normes de qualité de données

Les normes de qualité de données sont des lignes directrices visant à garantir l’exactitude, la cohérence et la fiabilité des données sur le long terme. 

Elles servent de feuille de route pour atteindre et maintenir l’intégrité des données dans l’ensemble de l’entreprise. Ces lignes directrices auront un impact direct sur vos opérations, l’expérience des clients, et même votre rentabilité, etc.

Pourquoi votre entreprise a besoin de normes de qualité de données

Réconcilier les données silotées

Les entreprises puisent leurs données en moyenne dans 400 sources différentes, notamment les commentaires des clients, les rapports de vente, les analyses de marché, les données internes, etc.

Toutefois, si les données sont inexactes et complètement déconnectées entre elles, elles vous mèneront à coup sûr dans la mauvaise direction.

Les normes de qualité de données vont permettre de standardiser les données normalement silotées, créant ainsi une source unique de vérité.

Répondre aux normes de protection de données

Vous allez également renforcer la confidentialité et la protection des informations sensibles, telles que les données personnelles de vos clients.

Exemples de normes de qualité de données récurrentes.

Voici quelques-unes des normes de qualité de données les plus couramment utilisées :

  • ISO 8000 : Cette norme internationale, met l’accent sur l’importance de la gestion et de l’intégrité des données. Elle couvre divers aspects essentiels tels que la gouvernance, l’évaluation et la gestion de la qualité des informations, en prenant en compte aussi bien les données de base que celles utilisées dans les secteurs industriels.
  • Exhaustivité (data completeness) : Il s’agit de données sans valeurs manquantes et de toutes les informations nécessaires présentes dans un ensemble de données.
  • Validité (data validity) : elle garantit que les données collectées ou obtenues sont exactes et fiables.
  • Pertinence (data relevancy) : Il s’agit de données significatives qui peuvent être utilisées pour prendre des décisions éclairées et apporter de la valeur à l’entreprise.
  • Fraicheur (data freshness) : Il s’agit de la disponibilité et de l’état de préparation des données. Il s’agit également de s’assurer que les données sont mises à jour en temps voulu et qu’elles conservent leur pertinence au fil du temps.

Chaque organisation a des besoins distincts en fonction de ses processus de traitement des données. Des besoins distincts nécessitent des normes personnalisées basées sur la dynamique opérationnelle. Toutefois, l’objectif premier de l’utilisation de normes de qualité de données reste le même, à savoir maintenir des données de la meilleure qualité possible pour piloter efficacement et atteindre ses objectifs.

Quelques dimensions essentielles pour améliorer la qualité de vos données

Les dimensions essentielles de la qualité de données ont été présentées par Diane Storm et Richard Wang en 1996 et sont depuis devenus une référence.

Ces dimensions préparent les données à l’extraction d’informations précieuses et permettent de façonner des opérations commerciales adaptées pour fournir une valeur maximale aux utilisateurs finaux. Ces dimensions sont les suivantes :

blog données de qualité principes

Data Validity : Adhérer aux bons formats et tranches de données

La data validity, ou validité des données garantit que les données sont appropriées sur la base de règles commerciales prédéfinies. Cela signifie que les données doivent être conformes aux formats et aux tranches établis. Elles doivent également suivre les règles fixées par les normes spécifiques du secteur ou par le cadre réglementaire propre à l’entreprise.

On peut citer quelques exemples de règles de data validity, comme l’acceptation d’un champ spécifique comme données numériques, le rejet de codes postaux non valides ou l’acceptation d’âges compris entre 30 et 60 ans uniquement. Ces règles dépendent des exigences de votre entreprise ou des normes du secteur, et leur respect garantit la validité des données.

Data Accuracy : Garantir l’exactitude des données

La data accuracy, ou exactitude des données, fait référence à des données correctes représentant des valeurs « normales ». Dans les cas où la marge d’erreur est acceptable, les valeurs des données doivent se situer dans cette marge. Si l’exactitude des données ne fait pas l’objet de vérification régulières, votre pilotage sera forcément impacté.

L’exactitude est mesurée par une recherche primaire ou comparée à des références tierces. Par exemple, un citoyen européen remplit un formulaire d’enquête en indiquant le revenu moyen en euros alors que la valeur attendue est en dollars.

Data Completeness : Combler les valeurs manquantes

La data completeness, ou exhaustivité des données, garantit qu’une base de données ne contient pas de valeurs manquantes.

Attention, des données complètes ne sont pas nécessairement valides ou exactes !

Les jeux de données incomplets vont fausser les résultats et donc biaiser vos analyses.

Par exemple, un utilisateur soumet une commande en ligne avec une adresse incomplète. Pour compléter cette donnée incomplète, vous pourriez lancer une campagne email demandant à vos clients de mettre à jour leur adresse de livraison.

Data Consistency : Harmoniser les données entre systèmes

La data consistency, ou cohérence des données, est le fait de réconcilier les mêmes données stockées dans plusieurs outils. Veiller à la cohérence de ces données pour l’ensemble de vos équipes est crucial pour garantir la fiabilité de vos données et des décisions prises à tout niveau.

Par exemple, un de vos employés reçoit une augmentation lors de son entretien annuel, elle est bien répertoriée dans votre outil RH mais pas dans votre outil de gestion de paie. Avoir deux valeurs différentes pour une même colonne dans ces deux tables sera source de confusion et de potentiel litiges avec l’employé.

Timeliness : Des données toujours à jour

Cette notion de timeliness signifie simplement que les données doivent être mises à jour régulièrement dans une base de données ou un data warehouse.

En fonction de vos besoins, ces mises à jour peuvent être programmées tous les mois, toutes les semaines, ou en temps réel.

Par exemple, il paraît important de mettre à jour vos données de stock produits, ou bien vos dépenses publicitaires marketing tous les jours pour un business e-commerce. En revanche, il ne paraît pas nécessaire de mettre à jour vos données de budget à la même fréquence. Une fois par mois ou par trimestre peut suffire.

Data Relevancy : Définir l’importance de chaque donnée pour le pilotage

La data relevancy, ou pertinence des données, désigne l’ensemble de règles pour déterminer quelles données sont réellement utiles pour vos analyses. Prendre en compte des données non pertinentes va simplement ajouter de la complexité et diluer l’importance des données sur lesquelles vous devez vous concentrer.

Par exemple, est-il réellement utile de garder l’historique de vos commandes des dix dernières années de votre site e-commerce ? Au rythme auquel le secteur évolue, l’historique des 2 ou 3 dernières années est plus que suffisant. Les commandes antérieures peuvent être exclues des analyses.

Data Uniqueness : Éliminer les doublons

La data uniqueness, ou unicité des données, consiste à éliminer les données en double et d’optimiser l’usage des ressources.

Les données dupliquées vont vous sortir des informations peu fiables en raison de la multiplicité des occurrences d’un record.

Par exemple, des doublons dans votre table de prospects vont donner lieu à des résultats inexactes sur le volume de demandes réelles. Cela va fausser votre analyse de performance marketing et commerciale et vous inciter à accélérer sur des canaux pas forcément rentables.

Mise en œuvre des normes de qualité de données

Il ne suffit pas de définir des normes de qualité de données. Ces normes doivent répondre à vos besoins et objectifs en matière d’amélioration de la qualité des données. Des objectifs qui doivent être clairs et mesurables.

Cela parait évident, mais l’exercice est loin de l’être !

Pour être clairs et compris de tous, vos objectifs doivent être précis, quantifiables et mesurables dans une période spécifique. Par exemple : « Diminuer le nombre de données clients incomplètes de 50% en 3 mois ».

Exemples d’objectifs et de mesures

ProjetCritèreMesureObjectif
améliorer l’exactitude des donnéesTaux d’erreur des donnéesPourcentage de données contenant des erreursRéduire le taux d’erreur des données à moins de 1 % dans les six mois
améliorer l’exhaustivité des donnéesPourcentage d’exhaustivité des donnéesProportion de champs de données entièrement remplisAtteindre un taux d’exhaustivité de 95 % pour tous les champs de données critiques au cours du prochain trimestre
améliorer la cohérence des donnéesScore de cohérence des donnéesNombre d’incohérences identifiées lors des audits de donnéesDiminuer les incohérences de 50 % au cours de l’année suivante
garantir la récence des donnéesTaux de données à jourPourcentage des données mises à jour dans les délais requisVeiller à ce que 98 % des données soient mises à jour dans les 24 heures suivant l’événement concerné
améliorer la validité des donnéesScore de validité des donnéesNombre de données échouant aux contrôles de validationRéduire le nombre de données non valides à moins de 2 % au cours des six prochains mois

Outils et technologies pour améliorer la qualité de données

Différents outils et technologies de pointe sont aujourd’hui disponibles pour améliorer la qualité de données. Ces outils sont divisés en deux catégories : Les plateformes d’observation des données et les outils de data management.

Voyons comment ces outils contribuent à l’amélioration et au maintien des normes de qualité de données :

Plateformes d’observabilité de données

Un outil de data observability permet de surveiller la santé de vos données tout au long de leur cycle de vie, et agit comme un système de monitoring pour vérifier la qualité et l’intégrité des données.

Ces outils sont votre filet de sécurité pour détecter rapidement des potentielles anomalies dans vos données. Vous aurez une meilleure compréhension de la façon dont elles se comportent, changent ou s’éloignent des normes.

Quelques avantages à l’implémentation d’un outil d’observabilité des données :

  • Plus de transparence : ils permettent de mieux comprendre l’environnement de l’entreprise, y compris les opérations, les transactions et les processus. En outre, ces informations améliorent la transparence au sein de l’organisation et aident à respecter les normes de qualité de données nécessaires.
  • Une détection dynamique des erreurs : Le monitoring et les alertes en temps réel permettent de détecter les soucis de qualité de données avant qu’ils n’aient un impact trop important sur votre activité.
  • Une analyse des causes fondamentales : Les plateformes d’observabilité des données offrent un diagnostic à la racine en identifiant les goulots d’étranglement et les problèmes de performance. Un diagnostic à la racine guide l’entreprise vers la cause et la solution du problème.

Exemples d’outils d’observabilité des données

  • Monte Carlo : montecarlodata.com – Monte Carlo assure la surveillance de bout en bout des pipelines de données, la détection automatisée des anomalies et le suivi du cheminement des données.
  • Datafold : datafold.com – Datafold fournit une solution d’observabilité des pipelines de données avec une fonctionnalité unique de comparaison des diffusions de données pour détecter des changements inattendus dans les pipelines.
  • Bigeye : bigeye.com – Bigeye surveille automatiquement les tables de données et alerte en cas d’anomalies tout en fournissant des diagnostics détaillés sur la qualité de données.
  • Databand : databand.ai – Databand propose un suivi complet des flux de données, en mettant l’accent sur la résolution des problèmes de performance et la gestion proactive des incidents.
  • Anomalo : anomalo.com – Anomalo détecte automatiquement les anomalies dans les données avant même que celles-ci n’affectent les opérations ou analyses, en se basant sur des modèles d’apprentissage automatique.
  • Lightup : lightup.ai – Lightup est spécialisé dans la surveillance en temps réel des pipelines de données et dans la détection des pannes critiques, ce qui garantit une continuité des analyses.
  • Soda.io : soda.io – Soda.io offre des outils open-source pour surveiller, diagnostiquer et améliorer la qualité de données. Il permet également de mettre en place des règles pour l’intégrité des données.
  • Accio : accio.io – Accio aide les entreprises à détecter et résoudre les problèmes liés à la qualité de données grâce à des algorithmes de machine learning et des tableaux de bord intuitifs.

Outils de data management

Il existe des outils destinés à des tâches spécifiques, comme la déduplication, qui permet de supprimer les données dupliquées, et des outils qui contrôlent toutes les dimensions de la qualité de données.

L’utilisation des plateformes de data management présente les avantages suivants :

  • Mises à jour en temps réel : Les alertes en temps réel concernant l’écart des données par rapport aux normes de qualité guident les équipes vers une correction instantanée et permettent de gagner du temps.
  • Traitement varié : Les outils de data management sont multifonctionnels et peuvent traiter différents types, formats et sources de données sans perdre en efficacité ou en précision.
  • Audits complets : Enfin et surtout, ils facilitent les audits réguliers afin d’évaluer et d’améliorer vos normes actuelles de qualité de données.

Investir dans les bons outils pour maintenir des normes de qualité de données ouvre la voie à un succès durable.

Cependant, aucun outil n’est une solution miracle à la mauvaise qualité de données, et le choix des bons outils dépend des exigences de l’entreprise et des objectifs de qualité de données.

Exemples d’outils de contrôle de la qualité de données (adaptation)

  • ClicData : clicdata.com – ClicData est une plateforme basée sur le cloud qui combine des outils de gestion de données et d’analyse dans laquelle vous pouvez nettoyer, normaliser, combiner et améliorer vos ensembles de données.
  • Informatica Data Quality : informatica.com – Informatica, bien qu’international, est également bien implanté en France et utile pour ses solutions avancées de gestion de la qualité de données et de gouvernance.
  • Dataiku : dataiku.com – Dataiku, offre une plateforme qui permet d’assurer une gestion continue et proactive de la qualité de données, avec une forte intégration de la data science.
  • Semarchy xDM : semarchy.com – Semarchy, logiciel de gestion des données de référence (MDM) et propose des solutions pour surveiller et améliorer la qualité de données à grande échelle.
  • OpenDataSoft : opendatasoft.com – permet de gérer des jeux de données publics ou privés, tout en mettant en avant la qualité de données partagées et leur accessibilité.
  • Axway AMPLIFY : axway.com – Axway, propose des solutions pour améliorer la qualité de données échangées au sein des entreprises.
  • Yooda Insight : yooda.com – Outil français axé sur l’analyse des données SEO, mais qui inclut également des fonctionnalités pour garantir la fiabilité et la qualité de données marketing et commerciales.
  • Talend Trust Assure : talend.com – Une extension des fonctionnalités de Talend dédiée spécifiquement à la confiance dans la gestion des données, offrant un suivi des flux de données en temps réel.
5 Reasons Why You Should Get Smart About Business Intelligence
Image libre de droit. Source : BigStock.com

Les impacts des normes de qualité de données sur votre PME

Si elles sont correctement mises en œuvre, c’est-à-dire adoptées par toutes les parties prenantes et avec les bonnes technologies, ces normes vont avoir un impact considérable sur les performances de vos équipes, mais aussi sur la santé financière de votre organisation.

Réduction des coûts et gains d’efficacité

Avec des données de fiables, pertinentes et complètes vous réduirez les coûts opérationnels tout en améliorant l’efficacité des process.

Les data analystes ou les responsables métiers en charge des reportings passent non seulement un temps considérable à examiner les données manuellement ; mais il y a aussi un risque d’oubli ou d’erreur dans la manipulation des données. Donc des rapports pas fiables.

Par exemple, 50 % des data scientists consacrent 30 % de leur temps ou plus à la préparation des données, et 47 % estiment que le maintien de la qualité de données est la tâche la plus difficile.

Imaginez tout ce temps passé à nettoyer des données au lieu de se concentrer sur les tâches à haute valeur : l’analyse de données …

Impact sur le processus de prise de décision

Les normes de données de haute qualité garantissent un haut degré de fiabilité, générant des analyses qui reflètent la réalité de vos résultats.

Par exemple, en raison de l’utilisation d’un format de données obsolète, Public Health England (PHE) n’a pas signalé près de 16 000 cas de coronavirus.

Vous ne pouvez plus vous contenter de l’à peu près pour votre pilotage. Vous avez besoin de précision, d’agilité et de confiance dans les chiffres qui vous sont présentés.

Des données fiables, des clients rassurés

Les données de vos clients est sans doute votre asset le plus précieux de votre entreprise… Si elles sont à jour !

Toute entreprise, grande ou petite, doit traiter les données de ses clients pour comprendre leurs habitudes d’achat et leurs préférences. Cela permet de créer des expériences personnalisées pour les clients. Cependant, des informations incomplètes, incohérentes ou trompeuses sur les clients conduisent à des hypothèses inexactes sur les clients, ce qui risque de compromettre leur fidélité.

Par exemple, Unity Technologies s’est basé par erreur sur de mauvaises données d’un grand compte pour ses projections. Impact ? Une perte de confiance de la part des investisseurs et perte financière de 110 milliards de dollars.

Nous sommes loin des chiffres à l’échelle d’une PME, mais cet exemple révèle tout de même l’impact immédiat de la qualité des données sur les résultats d’une organisation… Et que nous sommes tous concernés !

Promouvoir une culture de la qualité de données au sein des organisations

Promouvoir la culture du pilotage par la donnée est l’étape 1. Il faut ensuite sensibiliser chaque équipe des conséquences des données incomplètes, dupliquées ou non valides.

Comment faire ?

Formez vos employés sur les normes à appliquer, ce qu’elles impliquent dans leur quotidien, et contrôlez régulièrement pour corriger les mauvaises habitudes. Si ces règles impliquent des changements radicaux, l’accompagnement demandera du temps pour que chacun intègre de nouveaux automatismes.

Programmes de formation et de sensibilisation

La formation et la sensibilisation des employés est un processus continu qui nécessite des remises à niveau régulières pour de tenir les membres du personnel au courant des nouvelles évolutions, politiques et des systèmes mis en place.

En mettant l’accent sur les « meilleures pratiques » en matière de qualité de données tout au long des programmes de formation, on améliore considérablement les connaissances et la compréhension de chacun.

Ne faites pas l’erreur de reposer la responsabilité uniquement sur l’équipe de data analystes ou DSI, il est essentiel d’impliquer l’ensemble de vos équipes. Vous pouvez désigner un « champion » dans chaque équipe qui sera garant de la qualité et fiabilité des données dans leur domaine.

Embarquez vos équipes et améliorez la qualité de données dans votre PME

Les programmes de formation et de sensibilisation ne sont qu’un début. La clé du succès réside dans la création d’une équipe solide et dédiée qui s’engage à ce que l’organisation respecte ses normes de qualité de données.

Cet engagement garantit :

  • La responsabilité : Une équipe d’experts désignée veille à ce que toutes les parties de l’entreprise respectent scrupuleusement les rôles qui leur sont attribués dans le maintien d’une exactitude optimale des informations.
  • Expertise : L’équipe désignée est composée de professionnels ayant une connaissance approfondie du maintien des normes et de la correction rapide des écarts par rapport aux normes.
  • Adaptation des normes au fil du temps : L’équipe se tient au courant de l’évolution des tendances dans le monde des données et utilise ces connaissances pour réévaluer régulièrement les normes existantes de votre entreprise.

Bonne chance !

Table des matières

Partager ce blog

Autres blogs

Comment Améliorer L’Ergonomie de Vos Tableaux de Bord

On confond souvent les design et ergonomie. Un tableau de bord au design soigné attire l’œil, c’est certain. Mais est-ce qu’il est vraiment simple à utiliser ? Pas forcément. Et…

Minimisation des données : Quels principes appliquer pour garantir la conformité RGPD ?

92 % des internautes se déclarant préoccupés par la manière dont leurs données personnelles sont collectées et utilisées. Le règlement général sur la protection des données (RGPD) y répond par…

Collecter et Analyser des Données En Temps Réel : Quelles Options sur ClicData ?

Vous peinez déjà à gérer le flux constant et gigantesques de données ?  Mauvaise nouvelle, ça ne va pas s’arranger. Statista estime que le volume de données générées devrait atteindre 394…
Tous les articles

Votre vie privée compte.

Cookies essentiels
Nécessaire pour les fonctionnalités du site web telles que notre chat de vente, les formulaires et la navigation. 
Cookies fonctionnels et analytiques
Nous aide à comprendre d'où viennent nos visiteurs en collectant des données d'utilisation anonymes.
Cookies publicitaires et de suivi
Utilisé pour diffuser des annonces pertinentes et mesurer les performances publicitaires sur des plateformes telles que Google, Facebook et LinkedIn.
Tout accepterSauvegarderTout refuser