Pleins feux sur la qualité des données : Qualité des données - Dimension 5, Explicabilité
Une série d'entretiens avec l'équipe de direction de Clarity AI sur les 8 dimensions de la qualité des données
Comment Clarity AI s'assure-t-il que ses données sont de la plus haute qualité ?
Clarity AI utilise un cadre en huit dimensions pour garantir la qualité optimale des données. Ces dimensions sont la couverture, la fraîcheur / l'actualité, l' exactitude, la mise à jour des données, l'explicabilité, la cohérence, le point dans le temps et le retour d'information. Dans cette série d'entretiens avec des dirigeants de Clarity AI , chacune de ces dimensions est explorée et expliquée. Clarity AIL'équipe d'experts de l'entreprise crée des méthodologies scientifiques et factuelles qui s'appuient ensuite sur une intelligence artificielle puissante et évolutive (par exemple, l'apprentissage automatique) pour collecter, nettoyer, analyser et développer des ensembles de données existants afin d'alimenter sa plateforme technologique de durabilité ou de l'intégrer directement dans les flux de travail existants des utilisateurs.
Dimension 5 - Explicabilité
Clarity AIÁngel Agudo, vice-président chargé des produits, Patricia Pina, responsable de la recherche et de l'innovation en matière de produits, Juan Diego Martin, responsable de la stratégie des données, et Ron Potok, responsable de la science des données, discutent, avec Chris Ciompi, directeur général du marketing de Clarity AI, de la dimension critique de l'explicabilité et de sa relation avec la qualité des données.
Chris Ciompi : Bonjour à tous. Ángel, pourriez-vous définir l'explicabilité par rapport à la qualité des données, telle que vous la concevez ?
Ángel Agudo : Bien sûr. L'explicabilité est une dimension essentielle car elle permet de comprendre les données et de s'y fier. Elle est intrinsèquement liée à la qualité des données. Cela signifie que nous devons parfois fournir des explications sur la raison d'être d'un point de données. Nous pouvons fournir des informations qualitatives et pas nécessairement quantitatives, qui peuvent être plus faciles à comprendre. Par exemple, il peut s'agir de la raison pour laquelle une entreprise est exposée à une activité spécifique, ou pourquoi elle génère une certaine politique. Il est essentiel de trouver une explication à la raison pour laquelle une entreprise est liée à quelque chose qui peut ne pas être apparent à première vue. Un autre aspect de l'explicabilité est la capacité à trouver la source de vérité ou, en d'autres termes, la source de chaque point de données. De cette manière, nous pouvons continuellement faire confiance et vérifier l'information. Nous nous assurons que ce que nous présentons est exactement ce que l'entreprise rapporte ou fournit, ou que le point de données que nous montrons a été utilisé. Par exemple, dans un article de presse particulier. La combinaison de tous ces aspects contribue à renforcer la confiance dans les données, ce qui est particulièrement important dans un contexte où nos clients manquent souvent de clarté sur les données ESG.
Chris Ciompi : Je comprends. C'est intéressant. Avant de vous interroger sur la confiance, Ángel, pouvez-vous me dire comment la plateforme Clarity AI révèle la source unique de vérité ?
Ángel Agudo : Nous incluons des liens vers les rapports où les informations sont divulguées. Les utilisateurs peuvent cliquer sur ces liens et accéder aux informations fournies par l'entreprise. Dans les cas où l'information n'est pas directement fournie par l'entreprise, mais provient d'une source externe telle qu'un journal ou un rapport d'ONG, nous fournissons également des informations contextuelles, afin que les utilisateurs puissent vérifier que la source de vérité est correcte et que ce que nous présentons correspond exactement à ce que dit la source d'origine.
Chris Ciompi : D'accord, je vois. Patricia, pourquoi l'explicabilité est-elle importante pour les consommateurs de données sur le développement durable ?
Patricia Pina : Les analystes sont aujourd'hui submergés d'informations. Dans de nombreux cas, les données ESG leur ont été imposées et ils ne savent pas vraiment quoi en faire. La première question qu'ils se posent lorsqu'ils examinent les données est la suivante : d'où viennent ces données ? Pourquoi cette entreprise a-t-elle ce score ou cette valeur pour cet indicateur ? S'ils ne comprennent pas l'information et ne lui font pas confiance, il est peu probable qu'ils l'utilisent dans leur processus d'investissement. La transparence et l'explicabilité sont donc essentielles pour soutenir la croissance de l'investissement durable et des produits durables. En outre, le secteur de l'ESG n'a pas atteint le niveau de transparence requis. En conséquence, de nombreux acteurs des marchés financiers ne comprennent pas ce que les données ESG mesurent et comment les scores ESG sont calculés, ce qui conduit à une mauvaise utilisation de ces données et à une confusion généralisée. Toutes les données et analyses ne sont pas adaptées à l'objectif visé, chaque cas d'utilisation et chaque stratégie d'investissement nécessitant des informations différentes. Par exemple, la gestion des risques dérivés des facteurs ESG pour maximiser les rendements ajustés au risque d'un portefeuille est très différente de la création de produits à impact qui contribuent à l'avancement d'objectifs environnementaux ou sociaux spécifiques.
Chris Ciompi : Merci. Ron, passons aux données estimées. Comment Clarity AI explique-t-il les données estimées ?
Ron Potok : Il est essentiel pour nous de faire preuve de transparence lorsque nous estimons ou imputons des données. Nous faisons une distinction claire entre l'estimation, l'imputation et les données déclarées. Nous commençons par révéler notre méthodologie, la façon dont nous construisons les modèles d'apprentissage automatique, les caractéristiques que nous exploitons et la confiance que nous avons dans l'estimation. Nous essayons d'expliquer toutes ces caractéristiques, ce qui est le plus important pour vous. Nous sommes transparents sur le fait de savoir si l'estimation a été faite ou non. Nous expliquons les caractéristiques que nous utilisons et si elles sont raisonnables. Enfin, nous expliquons dans quelle mesure ces estimations sont adaptées aux entreprises non déclarantes, en moyenne. Tout cela est spécifique à l'industrie, car ce que vous fabriquez et où vous le fabriquez tend à déterminer une grande partie de vos paramètres environnementaux. Nous exploitons ces types de caractéristiques et expliquons clairement comment nous les utilisons pour construire des modèles d'apprentissage automatique. Un autre sujet important concernant les estimations est la fréquence à laquelle nous changeons de modèle d'estimation. Certains de nos concurrents entraînent à nouveau leurs modèles tous les trimestres, mais nous nous efforçons de conserver le même modèle au fil du temps. Nous le testons chaque année pour nous assurer qu'il prédit toujours avec précision pour l'année en question et que ses performances n'ont pas diminué. Nous essayons de conserver le même modèle d'une année sur l'autre afin de maintenir la cohérence. De nouvelles caractéristiques, comme l'acquisition d'une autre société par l'entreprise ou la modification de son chiffre d'affaires ou de son site de production, donneront des réponses différentes pour l'année en question, mais nous nous efforçons toujours de conserver le même modèle.
Chris Ciompi : Juan Diego, comment Clarity AI s'assure-t-il que ses données sont explicables ?
Juan Diego Martín : L'élément clé de l'explicabilité est la capacité de nos utilisateurs ou clients à interroger les données. Nous disposons d'un outil très puissant qui est notre interface utilisateur, une application web ou un terminal, et nous sommes très bien reconnus pour offrir une expérience utilisateur supérieure. Les utilisateurs peuvent interroger les données pour comprendre comment elles sont construites à partir de différentes perspectives méthodologiques. Nous expliquons comment la méthodologie a été développée et utilisée pour fournir un élément d'information spécifique. Nous fournissons également autant de données brutes que possible, telles que les principaux éléments qui nous ont permis de créer ce score et ces informations. La troisième chose est le contexte des données, comme l'endroit où les données ont été collectées, le contenu réel, le rapport, les informations spécifiques que nous utilisons pour cela, et la date de la recherche. Nous travaillons sur d'autres fonctions liées à l'explicabilité qui aideront les utilisateurs à anticiper les changements et à en comprendre les raisons. En fait, il s'agit de permettre aux utilisateurs de poser des questions et de faire en sorte que le système soit prêt à y répondre.
Chris Ciompi : D'accord, j'entends donc beaucoup de commentaires de la part des utilisateurs. Est-ce exact ?
Juan Diego Martín : Il s'agit de données provenant des utilisateurs et, pour des raisons de conformité, nous ne pouvons pas toujours utiliser ces informations. Mais bien sûr, l'agrégation des aspects de convivialité est prise en compte pour s'améliorer au fil du temps.
Chris Ciompi : D'accord, je comprends. Ron, nous avons déjà parlé un peu des estimations. Mais y a-t-il d'autres moyens ?
Ron Potok : Oui, nous tirons actuellement parti de la puissance des nouveaux modèles d'IA générative pour fournir des explications plus efficaces à partir des données que nous avons trouvées sur les entreprises dans leurs rapports financiers et/ou de développement durable, etc. Nous utilisons nos données en combinaison avec les technologies d'IA générative pour donner des explications plus colorées et plus efficaces des informations que nous essayons de fournir. Nous utilisons nos données en combinaison avec les technologies d'IA générative pour donner plus de couleurs et des explications plus efficaces aux informations que nous essayons de fournir.
Chris Ciompi : Merci à tous !