Pleins feux sur la qualité des données : Qualité des données - Dimension 3, Précision

Qualité des données 22 mai 2023 Ángel Agudo, Patricia Pina, Juan Diego Martin, Ron Potok, Chris Ciompi

Une série d'entretiens avec l'équipe de direction de Clarity AI sur les 8 dimensions de la qualité des données

Comment Clarity AI s'assure-t-il que ses données sont de la plus haute qualité ?

Clarity AI utilise un cadre en huit dimensions pour garantir la qualité optimale des données. Ces dimensions sont la couverture, la fraîcheur / l'actualité, l' exactitude, la mise à jour des données, l'explicabilité, la cohérence, le point dans le temps et le retour d'information. Dans cette série d'entretiens avec des dirigeants de Clarity AI , chacune de ces dimensions est explorée et expliquée. Clarity AIL'équipe d'experts de l'entreprise crée des méthodologies scientifiques et factuelles qui s'appuient ensuite sur une intelligence artificielle puissante et évolutive (par exemple, l'apprentissage automatique) pour collecter, nettoyer, analyser et étendre les ensembles de données existants afin d'alimenter sa plateforme technologique de durabilité ou de l'intégrer directement dans les flux de travail existants des utilisateurs.

Dimension 3 - Précision

Clarity AIÁngel Agudo, vice-président chargé des produits, Patricia Pina, responsable de la recherche et de l'innovation en matière de produits, Juan Diego Martin, responsable de la stratégie des données, et Ron Potok, responsable de la science des données, discutent avec Chris Ciompi, directeur général du marketing de Clarity AI, de la dimension critique de l'exactitude et de sa relation avec la qualité des données. Le groupe a discuté de la manière dont un système de collecte de données peut exploiter les algorithmes pour améliorer la précision des données. Le système utiliserait des algorithmes pour extraire et vérifier les données, puis alerterait en temps réel les personnes chargées de la collecte des données en cas d'anomalie. Cela permettrait de garantir l'exactitude des données dès le départ et d'instaurer un climat de confiance avec les clients. En outre, le groupe a évoqué l'importance de l'explicabilité pour instaurer la confiance et différencier les données correctes des données incorrectes. Dans l'ensemble, le groupe a souligné la nécessité d'un système de collecte de données efficace, précis et transparent afin d'instaurer la confiance avec les clients et de garantir des données de haute qualité, et donc des résultats.

Chris Ciompi : Bonjour à tous et merci d'être venus à la table pour discuter d'une autre dimension de la qualité des données. Parlons de l'exactitude. Je laisse la parole à Ángel. Veuillez définir l'exactitude dans le cadre de la qualité des données.

Ángel Agudo : Nous utilisons diverses technologies telles que le traitement du langage naturel (NLP) pour collecter efficacement les données des rapports. Ces données sont soumises à une compilation d'algorithmes en temps réel, qui les comparent à d'autres dimensions de l'entreprise, dans le temps et avec d'autres entreprises du secteur, afin d'identifier les erreurs potentielles. Pour ce faire, les algorithmes sont entraînés avec l'aide d'experts en développement durable, qui confrontent chaque point de données à un support théorique solide. En fonction du résultat, le point de données peut être considéré comme correct, ou un rappel par un humain peut être nécessaire pour évaluer la question. Dans certains cas, le point de données rapporté peut être fourni, mais complété par une valeur ajustée, afin de donner une meilleure image de la réalité de l'entreprise. Tout cela garantit que Clarity AI fournit des données de la plus haute qualité sur le marché, du point de vue de la précision.

Chris Ciompi : Je vous remercie. Patricia, pourquoi l'exactitude est-elle importante pour les consommateurs de données sur le développement durable ?

Patricia Pina: Les données relatives à la durabilité sont utilisées pour prendre des décisions. Si vous disposez de mauvaises données, vous prendrez de mauvaises décisions. La précision est donc essentielle. C'est la base, l'élément constitutif de tout le reste. Pour illustrer ce point : si nous examinons les données sur les émissions de CO2, qui se trouvent être à la fois la mesure la plus rapportée et la plus utilisée dans l'industrie, et que nous nous concentrons sur les données rapportées, qui sont les données les plus stables et les plus matures du marché, nous voyons des chiffres très différents circuler sur le marché. Notre étude a révélé que dans 40 % des cas, il y avait des divergences dans les chiffres fournis par les fournisseurs de données sur ces entreprises. Il est important de remédier à ces divergences, car cela fait une énorme différence dans les calculs et les rapports que les acteurs du marché utilisent pour informer sur les émissions de leurs produits financiers. Cela peut augmenter l'empreinte carbone de 20 %, voire plus. Et pour mettre ces 20 % en perspective : 7 % est la diminution annuelle vers laquelle nous devons tendre pour respecter l'alignement de Paris. Les chiffres de 20 à 30 % sont donc très significatifs.

Chris Ciompi : Je vous remercie. Je vais insister un peu sur l'exemple et sur l'alignement de Paris. Lorsque vous parlez de l'alignement de Paris, vous parlez des objectifs de 2030 et de 2050, n'est-ce pas ?

Patricia Pina : Oui, je fais référence au taux de décarbonisation dont nous aurions besoin pour atteindre les objectifs de 2030 et 2050.

Chris Ciompi : D'accord, excellent. Je vous remercie. Juan Diego, quelle est la précision des données sur l'ensemble de la couverture de Clarity AI?

Juan Diego Martín : Nous nous efforçons d'obtenir une précision de plus de 99 % dans nos données. Pour ce faire, nous employons une stratégie que nous appelons "quatre niveaux de défense". Le premier consiste en des accords de niveau de service très stricts, conclus avec toutes les personnes impliquées dans le processus. Le deuxième est la technologie, qui nous permet de repérer les anomalies dès que possible, et nous avons quatre atouts principaux pour cette responsabilité : l'heuristique, les approches concurrentes, les contrôles de précision utilisant des techniques de traitement du langage naturel (NLP), et la validation par un tiers. La troisième ligne de défense est la validation au niveau de la base de données principale, que tous nos modules utilisent, de sorte que tout ce qui va être injecté dans la plateforme passe par des contrôles de qualité supplémentaires. La quatrième est effectuée au niveau du module, où des équipes spécifiques pour chacun de nos produits valident que les données sont de la meilleure qualité possible et prêtes à être livrées au client.

Chris Ciompi : Merci, et je pense que Ron, il y a probablement de la matière pour vous. Comment l'intelligence artificielle influence-t-elle la précision des données sur Clarity AI ?

Ron Potok : Pour faire suite à ce qu'a dit Patricia, il y a des divergences entre les fournisseurs de données sur le marché pour les mêmes données d'émissions de CO2, ce qui signifie que deux fournisseurs différents peuvent donner des émissions de CO2 différentes pour la même entreprise. Sur Clarity AI, nous adoptons une approche statistique. Nous nous procurons des données auprès de plusieurs fournisseurs afin de les étudier et de les utiliser pour tenter d'obtenir les données les plus précises en matière de développement durable. En tant que statisticien, vous pourriez vouloir faire la moyenne des différentes opinions sur la durabilité. Mais ce n'est pas l'approche adoptée ici. Nous ne pensons pas que les émissions de CO2 d'une entreprise au cours d'une année donnée soient une opinion. Nous pensons qu'il s'agit d'un fait et qu'il y a une bonne et une mauvaise réponse. C'est pourquoi nous avons mis au point une technologie d'intelligence artificielle qui nous aide à déterminer si chaque point de données est exact ou non. Le type d'information que nous utilisons pour déterminer cette exactitude est le contexte, que nous ajoutons à chaque point de données. Ce contexte peut être constitué de données précédemment communiquées par l'entreprise ou de valeurs normales dans le secteur. Nous nous assurons ainsi que chaque point de données que nous fournissons au client est raisonnable et s'inscrit dans son contexte. Il existe de nombreux autres moyens de garantir la qualité tout au long du processus, mais la particularité de Clarity AI réside dans le fait que nous avons accès à de nombreux fournisseurs différents et que nous avons élaboré des modèles qui nous permettent d'attribuer un niveau de confiance à chaque point de données afin de déterminer dans quelle mesure nous sommes sûrs que ce point de données est correct, quelle que soit sa provenance.

Chris Ciompi : En ce qui concerne les modèles, pouvez-vous nous expliquer un peu comment l'IA fonctionne, en alimentant ces modèles pour influencer la précision de manière positive ?

Ron Potok : Nous avons plusieurs modèles différents. Le modèle sur lequel je vais me concentrer est notre modèle de fiabilité. Comme je l'ai déjà mentionné, nous avons construit un modèle qui applique un contexte à chaque point de données, et ce contexte provient des fournisseurs de données. Potentiellement, il y a deux ou trois fournisseurs différents avec des valeurs différentes pour ce point de données, alors nous nous demandons : Quel est l'historique de ces données ? C'est-à-dire, par exemple, vos émissions de Scope 1 l'année dernière, il y a deux ans, il y a trois ans en tant qu'entreprise, et le contexte de l'industrie : étant donné l'industrie dans laquelle vous vous trouvez, quelles sont les valeurs normales pour vous ? Nous utilisons toutes ces informations en tant que caractéristiques dans un modèle d'apprentissage automatique qui nous permet de déterminer, pour chaque point de données, la probabilité que ce point de données soit correct pour une entreprise donnée.

Chris Ciompi : Et à quel point serait-il compliqué de faire ce que vous venez de décrire sans l'IA ?

Ron Potok : L'intérêt de l'IA ou des techniques d'apprentissage automatique, en général, est de conditionner simultanément de nombreux aspects différents. Ainsi, si vous définissez des règles comme dans un système basé sur des règles, vous aurez un grand nombre de "déclarations si" qui sont indépendantes les unes des autres. Au lieu de cela, un modèle permet de comprendre le contexte de toutes ces décisions et de déterminer la probabilité de réussite sur la base de toutes ces informations en même temps. Il est certainement possible de le faire avec des règles heuristiques, mais cela devient très vite inintéressant, et c'est la raison pour laquelle nous construisons des modèles. La complexité devient insurmontable et les effets d'interaction entre les caractéristiques ne permettent pas à l'homme de rédiger des règles.

Chris Ciompi : Parfait. Merci, Ron. Patricia, comment la précision des données contribue-t-elle à l'innovation des produits à l'adresse Clarity AI?

Patricia Pina : Quand je pense à la façon dont la précision nous aide à innover, je pense à différents éléments. Tout d'abord, nous voulons nous assurer que nous avons un retour d'information rapide avec nos clients en ce qui concerne l'exactitude. Pour ce faire, nous avons mis en place des canaux et des outils permettant aux clients de contester n'importe quel point de données. Nous leur fournissons ensuite une explication complète des données. L'autre élément est la façon dont nous pouvons devenir plus sophistiqués et plus intelligents avec les algorithmes et les vérifications. L'une des façons d'y parvenir est d'intégrer ces algorithmes au tout début du flux de données afin de détecter tout problème potentiel de précision très tôt dans le processus et en temps réel, de fournir un retour d'information à la personne qui collecte ces données et de les ajuster afin de fournir des données de la plus haute qualité à nos clients, sans délai.

Chris Ciompi : Lorsque vous dites "en temps réel", comment cela influence-t-il l'innovation ?

Patricia Pina : Dans notre système de collecte de données, tant pour l'extraction que pour la validation des données, nous intégrons des algorithmes. La personne qui collecte les données recevra des alertes en temps réel si l'une des données semble incorrecte sur la base de ce que nous savons de l'entreprise, ainsi que d'autres données que nous avons collectées dans le passé. Nous effectuons toutes ces vérifications en temps réel et fournissons un retour d'information à l'entreprise qui collecte les données. S'il y a des erreurs, elles seront corrigées à ce moment-là afin de garantir l'exactitude des données dès le départ.

Chris Ciompi : C'est donc un moyen d'atteindre la précision de plus de 99 % dont Juan Diego a parlé tout à l'heure ?

Patricia Pina : Oui, exactement.

Chris Ciompi : J'ai compris. Cela nous ramène à ce que Juan Diego a dit à propos de l'objectif d'une précision de plus de 99 %. C'est l'un des moyens. Ángel, comment le niveau de précision des données sur Clarity AI influence-t-il les capacités de la plateforme technologique ?

Ángel Agudo : Il est essentiel de fournir les bonnes données et d'instaurer un climat de confiance avec nos clients. Les clients comparent souvent différentes sources de données pour le même objectif et peuvent trouver des différences. Nous devons leur montrer comment faire la différence entre les données correctes et les données erronées. L'explicabilité est essentielle pour instaurer la confiance, c'est pourquoi nous devons communiquer notre travail sur les données et nos corrections de manière à instaurer cette confiance. Notre collecte de données en temps réel et nos contrôles de qualité nous rendent très efficaces, et la plateforme doit transmettre cette information pour instaurer la confiance.

Chris Ciompi : Merci à tous ! Merci pour cette excellente discussion sur cette dimension de la qualité des données - l'exactitude.

Saisissez votre adresse électronique pour en savoir plus