Pleins feux sur la qualité des données : Qualité des données - Dimension 1, Couverture

Qualité des données 27 avril 2023 Ángel Agudo, Patricia Pina, Juan Diego Martin, Ron Potok, Chris Ciompi

Une série d'entretiens avec l'équipe de direction de Clarity AI sur les 8 dimensions de la qualité des données

Comment Clarity AI s'assure-t-il que ses données sont de la plus haute qualité ?

Clarity AI utilise un cadre en huit dimensions pour garantir la qualité optimale des données. Ces dimensions sont la couverture, l'exactitude, la fraîcheur / l'actualité, la mise à jour des données, l'explicabilité, la cohérence, le point dans le temps et le retour d'information. Dans cette série d'entretiens avec des dirigeants de Clarity AI , chacune de ces dimensions est explorée et expliquée. Clarity AIL'équipe d'experts de l'entreprise crée des méthodologies scientifiques et factuelles qui s'appuient ensuite sur une intelligence artificielle puissante et évolutive (par exemple, l'apprentissage automatique) pour collecter, nettoyer, analyser et développer des ensembles de données existants afin d'alimenter sa plateforme technologique de durabilité ou de l'intégrer directement dans les flux de travail existants des utilisateurs.

Dimension 1 - Couverture

Clarity AIÁngel Agudo, vice-président chargé des produits, Patricia Pina, responsable de la recherche et de l'innovation en matière de produits, Juan Diego Martín, responsable de la stratégie des données, et Ron Potok, responsable de la science des données, discutent avec Chris Ciompi, directeur général du marketing de Clarity AI, de la dimension critique de la couverture et de sa relation avec la qualité des données, ainsi que de l'importance de disposer des bonnes capacités en matière d'intelligence artificielle pour gérer des ensembles de données vastes et complexes. L'une des principales conclusions de la conversation est la nécessité de disposer de méthodologies et d'outils permettant de passer des données à l'information, afin de pouvoir tirer des enseignements de vastes quantités de données.

Un autre point important souligné par les panélistes est l'impact de l'IA sur l'amélioration de la qualité des données en ce qui concerne la couverture des données, soulignant le besoin de capacités d'IA pour naviguer et gérer efficacement de grands volumes d'informations.

Chris Ciompi: Parlons plus précisément de la couverture. Ángel, pouvez-vous définir la couverture dans le cadre de la qualité des données ?

Ángel Agudo: En ce qui concerne la couverture, il est indispensable de s'assurer que nous offrons la bonne combinaison d'indicateurs pertinents pour nos clients.

Chris Ciompi: Pourquoi la couverture est-elle importante pour les consommateurs de données sur le développement durable ?

Patricia Pina: Il est important d'offrir une large couverture afin de s'assurer que différents utilisateurs (ayant des besoins différents) aient accès aux données des entreprises qui les intéressent. En outre, l'univers des entreprises concernées est dynamique et peut changer. La couverture permet donc d'identifier les lacunes potentielles et de s'assurer que les clients ne passent pas à côté de quelque chose d'important.

Chris Ciompi: Juan Diego, quelle est l'étendue de la couverture que Clarity AI peut fournir ?

Juan Diego Martín: Clarity AI offre actuellement une couverture qui s'étend sur différents modules. Ces modules couvrent de 40 000 à 70 000 entreprises. Nous avons également la possibilité d'agréger des portefeuilles, ce qui nous permet de couvrir 80 000 fonds primaires et plus de 360 000 classes d'actions. La combinaison de ces éléments est très puissante pour permettre à nos clients d'évaluer leurs portefeuilles sous différentes perspectives.

Chris Ciompi : Pouvez-vous nous expliquer un peu plus en quoi cela est si puissant ?

Juan Diego Martín: Les clients ont des problèmes avec les données qui couvrent partiellement les informations sur les fonds ou les informations sur les entreprises. Clarity AI est capable de combiner et d'agréger ces informations, en examinant la composition finale d'un portefeuille, et de fournir des informations au niveau de l'entreprise, au niveau du fonds, au niveau du portefeuille, ou même au niveau de l'entité, grâce à l'agrégation de tous les portefeuilles au sein d'un gestionnaire d'actifs spécifique.

Chris Ciompi: Ron, dans quelle mesure l'intelligence artificielle influence-t-elle la couverture de Clarity AI ?

Ron Potok: Lorsque nous parlons de couverture, nous pensons d'abord aux données publiées. Les entreprises publient des rapports sur le développement durable, qui sont généralement des documents PDF contenant des données non structurées, notamment du texte, des images et des tableaux. Nous pouvons tirer parti de l'IA pour extraire rapidement des informations normalisées de ces documents. La deuxième façon dont nous pouvons influencer la couverture grâce à l'apprentissage automatique et à l'IA consiste à modéliser certaines mesures que toutes les entreprises ne communiquent pas. Nous pouvons améliorer considérablement la couverture de certaines mesures en construisant des modèles d'apprentissage automatique qui établissent une corrélation entre les activités d'une entreprise et ses émissions. Par exemple, nous pouvons fournir des estimations de CO2 pour une grande partie des entreprises qui ne déclarent pas leurs émissions de CO2.

Chris Ciompi: En ce qui concerne l'apprentissage automatique, pouvez-vous nous en dire un peu plus sur la façon dont cela se passe exactement et si cela s'améliore avec le temps ?

Ron Potok: Lorsque nous avons commencé en 2018, environ 5 000 entreprises ont déclaré leurs émissions, mais nous en avons maintenant 8 000. Plus il y a d'entreprises qui déclarent, plus cela nous permet d'en apprendre davantage sur ces entreprises et d'améliorer la précision de notre modèle. Deuxièmement, nous améliorons constamment les modèles en leur donnant des caractéristiques plus intéressantes. Par exemple, nous travaillons maintenant avec des techniques d'imagerie satellitaire pour améliorer nos modèles d'estimation, ce qui élargit notre couverture. Le fait de savoir quelles sont les centrales électriques et les cimenteries qui produisent des émissions nous permet d'introduire dans les modèles des données plus granulaires et plus opportunes afin d'effectuer des prévisions plus précises.

Chris Ciompi: Merci, Ron. Patricia, comment la couverture aide-t-elle à stimuler l'innovation des produits à Clarity AI?

Patricia Pina: Nous nous efforçons d'être efficaces, évolutifs et de tirer parti de la technologie pour innover au niveau des produits. Pour les données rapportées, nous offrons une traçabilité complète des points de données jusqu'à leur source et des liens vers les rapports. Nous utilisons également des modèles d'estimation et des techniques d'apprentissage automatique pour combler les lacunes, et nous fournissons des intervalles de confiance pour chaque modèle, ainsi que des détails supplémentaires sur le type de modèle et d'estimation que nous proposons. Cela permet aux clients de comprendre si l'estimation est adaptée à leur cas d'utilisation. Nous innovons également en termes de collecte de données et de services connexes pour la couverture, en fonction de l'évolution des besoins du marché.

Chris Ciompi: Pouvez-vous me donner un exemple précis ?

Patricia Pina: Bien sûr. Par exemple, nous avons construit un produit d'investissement durable de bout en bout avec une large couverture parce que nous avions les éléments de base nécessaires en place. Le premier élément de notre taxonomie européenne ou solution SDGs mesure et quantifie la contribution d'un client aux objectifs environnementaux et sociaux. Nous disposons également d'une solution qui fournit des valeurs pour les principaux indicateurs d'impact négatif requis pour le rapportSFDR . Enfin, nous disposons d'un module de controverse ou d'un module d'exposition qui donne aux clients une bonne idée des pratiques de gouvernance.

Chris Ciompi: Merci, Patricia. Ángel, pouvez-vous préciser comment la couverture de Clarity AI influe sur les capacités de sa plateforme technologique ?

Ángel Agudo: À mon avis, ce qui est crucial ici, c'est de passer des données aux informations exploitables. En particulier, lorsque vous gérez d'importants volumes de données provenant de différentes organisations, mesures et industries. C'est là qu'interviennent les méthodologies et les outils technologiques. Il y a deux éléments à prendre en compte. Tout d'abord, nous avons besoin de méthodologies qui permettent d'extraire des informations des données, et ensuite d'outils qui permettent de naviguer et de passer au crible ces informations. Les outils doivent pouvoir décomposer l'information en points forts et en détails, ou vice versa, selon les besoins de l'utilisateur.

Saisissez votre adresse électronique pour en savoir plus