Pleins feux sur la qualité des données : Qualité des données - Dimension 2, fraîcheur

Qualité des données 8 mai 2023 Ángel Agudo, Patricia Pina, Juan Diego Martin, Ron Potok, Chris Ciompi

Une série d'entretiens avec l'équipe de direction de Clarity AI sur les 8 dimensions de la qualité des données

Comment Clarity AI s'assure-t-il que ses données sont de la plus haute qualité ?

Clarity AI utilise un cadre en huit dimensions pour garantir la qualité optimale des données. Ces dimensions sont la couverture, la fraîcheur / l'actualité, l'exactitude, la mise à jour des données, l'explicabilité, la cohérence, le point dans le temps et le retour d'information. Dans cette série d'entretiens avec des dirigeants de Clarity AI , chacune de ces dimensions est explorée et expliquée. Clarity AIL'équipe d'experts de l'entreprise crée des méthodologies scientifiques et factuelles qui s'appuient ensuite sur une intelligence artificielle puissante et évolutive (par exemple, l'apprentissage automatique) pour collecter, nettoyer, analyser et étendre les ensembles de données existants afin d'alimenter sa plateforme technologique de durabilité ou de l'intégrer directement dans les flux de travail existants des utilisateurs.

Dimension 2 - Fraîcheur

Clarity AIÁngel Agudo, vice-président chargé des produits, Patricia Pina, responsable de la recherche et de l'innovation en matière de produits, Juan Diego Martin, responsable de la stratégie des données, et Ron Potok, responsable de la science des données, discutent avec Chris Ciompi, directeur général du marketing de Clarity AI, de l'importance de la fraîcheur des données, ou de l'actualité et de la pertinence des données, pour favoriser la prise de décisions précises et efficaces. Le groupe a mis en évidence l'impact de la fraîcheur des données sur divers secteurs et cas d'utilisation. Ils ont également discuté des défis liés au maintien de la fraîcheur des données, tels que les silos de données, les limites de l'infrastructure de données et la dette technique.

Les panélistes ont souligné la nécessité d'une stratégie de gestion des données qui donne la priorité à la fraîcheur des données, notamment en investissant dans l'infrastructure des données, en établissant des politiques claires de gouvernance des données et en intégrant les technologies d'apprentissage automatique et d'IA pour automatiser le traitement des données et en garantir l'exactitude. Les participants ont également partagé leurs idées sur les différentes dimensions de la fraîcheur des données, notamment la couverture des données, la fréquence et la latence, et ont discuté des stratégies visant à optimiser chaque dimension. Dans l'ensemble, le panel a souligné le rôle essentiel de la fraîcheur des données pour permettre aux organisations de prendre des décisions éclairées et d'avoir un impact positif, et a souligné la nécessité d'un investissement continu dans la gestion des données et la technologie pour garantir la fraîcheur des données au fil du temps en tant qu'élément essentiel de la qualité des données.

Chris Ciompi : Bonjour à tous. Cette fois-ci, nous allons nous concentrer sur la fraîcheur et son lien avec la qualité des données. Ángel, pouvez-vous commencer par définir la fraîcheur dans le cadre de la qualité des données ?

Ángel Agudo : Bien sûr. Pour moi, la fraîcheur signifie que les données les plus récentes et les plus claires sont disponibles sur Clarity AI. L'accord de niveau de service (ANS) spécifique pour la fraîcheur doit être défini par le marché, mais il doit être le plus rapide possible, afin que nous puissions offrir des informations pertinentes et opportunes aux utilisateurs.

Patricia Pina : Je suis d'accord avec Ángel. Dans la prise de décision, il est essentiel d'avoir accès aux informations les plus récentes, en particulier dans un monde où les choses changent constamment. En ce qui concerne les données sur le développement durable, par exemple, le changement climatique se produit rapidement et nous manquons de temps. La fraîcheur est donc essentielle. En outre, les entreprises s'engagent à réduire leurs émissions, et il est essentiel de suivre leurs progrès et de les tenir responsables de leurs promesses. Il est donc essentiel d'obtenir rapidement des données fraîches sur leurs performances pour s'assurer qu'elles respectent leurs engagements.

Chris Ciompi : Juan Diego, pouvez-vous nous en dire plus sur la façon dont Clarity AI garantit la fraîcheur des données qu'il fournit ?

Juan Diego Martín : Certainement. Nous avons mis en place des processus rationalisés pour garantir la fraîcheur des données. Tout d'abord, nous surveillons en permanence le moment où les entreprises mettent à jour leurs informations publiques et les communiquent. Ensuite, nous extrayons et traitons les informations en combinant technologie et experts. Nous appliquons également des contrôles de qualité dans la même boucle afin d'empêcher le traitement de toute donnée suspecte. Troisièmement, nous disposons d'un pipeline de données à ingestion automatique qui nous permet de mettre les informations à la disposition de nos clients par les moyens qu'ils préfèrent, tels que les flux de données API. En outre, nous proposons à nos clients un terminal de service avec des mises à jour très fréquentes, les mises à jour les plus fréquentes étant celles qui sont effectuées lorsqu'une nouvelle controverse est détectée. Nous traitons quotidiennement des informations structurées et non structurées sur les controverses provenant de plus de 1,4 million d'articles de presse issus de plus de 33 000 sources d'information fiables.

Chris Ciompi : Merci pour ces explications, Juan Diego. J'aimerais me concentrer sur le deuxième point que vous avez mentionné plus tôt, à savoir la bonne combinaison de technologie et d'experts. Pourriez-vous nous donner plus de détails à ce sujet ?

Juan Diego Martín: Bien sûr. Bien que nous utilisions l'IA pour automatiser la majeure partie du travail, comme repérer les bonnes informations et les extraire, il y a des cas où les informations sont disséminées dans le rapport. Par exemple, les données relatives aux employés peuvent être incluses dans différentes filiales, et les émissions peuvent être divulguées par secteur d'activité dans différentes sections. Dans de tels cas, nous avons besoin d'experts pour donner un sens aux informations extraites automatiquement et garantir que les données agrégées sont exactes et reflètent ce que nos clients attendent qu'elles signifient.

Chris Ciompi : Merci. Ron, comment l'intelligence artificielle influence-t-elle la fraîcheur des données sur Clarity AI?

Ron Potok : Comme Juan Diego l'a mentionné plus tôt, les ordinateurs peuvent lire et voir assez bien de nos jours. Nous pouvons tirer parti de ces technologies pour nous aider à collecter des données rapidement et efficacement. Cependant, nous fournissons des données financières pour prendre des décisions financières, ce qui signifie que les données doivent être très précises. Les modèles statistiques ne peuvent jamais atteindre une précision de 100 %, c'est pourquoi une combinaison d'ordinateurs et de personnes est nécessaire pour garantir à la fois l'efficacité et la précision. Nous avons besoin des deux pour nous assurer que des données rapides et de haute qualité parviennent à nos clients.

Chris Ciompi : C'est logique. Avez-vous des cas intéressants à partager sur la façon dont Clarity AI utilise les techniques d'apprentissage automatique dans l'extraction de données ?

Ron Potok : Oui, nous avons un autre cas lié à nos modèles d'estimation. Pour les entreprises qui ne communiquent pas leurs informations sur le développement durable, nous ne pouvons pas utiliser l'IA pour extraire leurs données. Cependant, nous pouvons obtenir assez rapidement des informations financières pour chaque année fiscale, car les entreprises sont généralement promptes à divulguer ces informations. Nous pourrions estimer rapidement les émissions de ces entreprises, mais nous choisissons de ne pas le faire. Nous attendons que les entreprises commencent à divulguer leurs données sur le développement durable, afin de nous assurer que nos modèles sont correctement calibrés à chaque nouvelle année de données. Nous attendons que les nouvelles données soient communiquées avant de publier nos nouvelles estimations, afin de nous assurer que le monde n'a pas changé et que le modèle d'estimation doit être révisé. Nous effectuons un contrôle de qualité supplémentaire chaque année.

Chris Ciompi : C'est intéressant. La raison de cette attente est donc que les modèles apprennent de l'histoire, et si le passé n'est plus représentatif d'aujourd'hui, nous devons en tenir compte ?

Ron Potok : Exactement. Les modèles tirent des enseignements de l'histoire, et si le passé n'est plus un prédicteur parfait de l'avenir, nous devons modifier nos modèles en permanence pour prédire aujourd'hui avec précision. Nous attendons des innovations autour des composantes environnementales, nous nous attendons donc à ce que le monde change avec le temps, et le passé ne sera pas toujours un prédicteur parfait de l'avenir. Nous devons modifier nos modèles en permanence, au fur et à mesure que nous avançons, afin de nous assurer qu'ils prédisent avec précision la situation d'aujourd'hui.

Chris Ciompi : C'est très bien. Les modèles peuvent-ils apprendre et s'adapter au fil du temps ?

Ron Potok : Oui, les modèles peuvent apprendre quelles sont les caractéristiques à l'origine des changements. Nous pouvons faire en sorte que le modèle soit suffisamment intelligent pour comprendre les changements que nous savons imminents. Nous pouvons laisser de la place aux nouvelles technologies et appliquer l'IA pour rendre les choses plus efficaces. Nous pouvons prévoir des caractéristiques qui sont de nature prospective. Par exemple, si un pays déclare qu'il va éliminer progressivement les centrales au charbon dans trois ans, nous pouvons ajouter cette information dans nos modèles pour savoir ce qui se passera dans trois ans.

Chris Ciompi : C'est logique. Merci, Ron. Patricia, comment la fraîcheur des données contribue-t-elle à l'innovation des produits sur Clarity AI?

Patricia Pina : À l'adresse Clarity AI, nous nous efforçons de trouver d'autres sources de données pertinentes qui sont disponibles plus tôt que les données publiées par les entreprises une fois par an, généralement quelques mois après la fin de la période de déclaration correspondante. Par exemple, nous utilisons des données satellitaires en temps réel pour déterminer la quantité d'émissions des entreprises, plutôt que d'attendre un an et demi pour savoir ce qui s'est passé aujourd'hui. Cela nous permet de fournir des données plus fraîches à nos utilisateurs.

Chris Ciompi : Comment la fraîcheur des données sur Clarity AI influence-t-elle les capacités de la plateforme technologique ?

Ángel Agudo : La fraîcheur des données est essentielle pour que nos utilisateurs puissent prendre des décisions éclairées. Elle nous permet de montrer que les informations les plus récentes ont été incluses, ce qui est important pour l'explication. Notre objectif est d'être aussi efficace que possible dans la publication des données et leur mise à disposition des utilisateurs. En saisissant les données et en les mettant à jour plus rapidement, nous pouvons montrer aux utilisateurs la rapidité avec laquelle les nouvelles informations sont disponibles et les aider à être plus proactifs dans leur processus de prise de décision.

Juan Diego Martín: Notre capacité à détecter la publication de nouvelles informations chaque année nous permet de prévoir la date à laquelle les informations seront disponibles et de rationaliser nos processus de mise à jour. Cette capacité est précieuse pour nos clients, car ils peuvent planifier le moment où les informations dont ils ont besoin seront disponibles dans notre produit.

Ángel Agudo : Toutes les dimensions que nous avons mentionnées, telles que l'exactitude, l'exhaustivité et l'actualité des données, sont essentielles pour que nos utilisateurs puissent prendre des décisions éclairées. Bien que cela puisse être complexe à réaliser, nous innovons et apportons de la valeur parce que ces dimensions sont importantes pour la prise de décision. Sans les bonnes données ou avec des erreurs dans les données, les utilisateurs ne peuvent pas prendre les bonnes décisions.

Chris Ciompi : C'est logique, bien sûr, mais revenons pour l'instant à la dimension de la fraîcheur en ce qui concerne la qualité des données. Quelque chose d'autre pour conclure ?

Patricia Pina : Le dernier point que je voulais aborder est que certains clients ont dû investir beaucoup de ressources, d'efforts et de temps avec des fournisseurs de données durables pour nettoyer les données et garantir leur fraîcheur, afin de s'assurer qu'ils achetaient les bonnes données pour répondre à leurs besoins. Alors que nous, nous nous assurons de manière proactive que nos clients n'ont pas besoin de passer par des processus coûteux et inutiles.

Chris Ciompi : Merci à tous !

Saisissez votre adresse électronique pour en savoir plus