Em destaque: Qualidade dos dados - Dimensão 3, Exactidão

Qualidade dos dados 22 de Maio de 2023 Ángel Agudo, Patricia Pina, Juan Diego Martin, Ron Potok, Chris Ciompi

Uma série de entrevistas com a equipa executiva do Clarity AI sobre as 8 dimensões da qualidade dos dados

Como é que Clarity AI garante que os seus dados são da mais elevada qualidade?

Clarity AI utiliza um quadro de 8 dimensões para garantir que os dados são da mais elevada qualidade. Essas dimensões são a cobertura, a atualidade , a exatidão, as actualizações de dados, a explicabilidade, a consistência, o ponto no tempo e o feedback. Nesta série de entrevistas com executivos da Clarity AI , cada uma destas dimensões é explorada e explicada. Clarity AIA equipa de especialistas da cria metodologias científicas e baseadas em evidências que, em seguida, utilizam inteligência artificial poderosa e escalável (por exemplo, aprendizagem automática) para recolher, limpar, analisar e expandir conjuntos de dados existentes para alimentar a sua plataforma tecnológica de sustentabilidade ou para integrar diretamente nos fluxos de trabalho existentes dos utilizadores.

Dimensão 3 - Precisão

Clarity AIÁngel Agudo, Director de Investigação e Inovação de Produtos, Patricia Pina, Director de Estratégia de Dados, Juan Diego Martin, e Ron Potok, Director de Ciência de Dados, debatem - com Chris Ciompi, Director de Marketing de Clarity AI- a dimensão crítica da exactidão e a sua relação com a qualidade dos dados. O grupo discutiu a forma como um sistema de recolha de dados pode tirar partido dos algoritmos para melhorar a exactidão dos dados. O sistema utilizaria algoritmos para extrair e verificar dados e, em seguida, forneceria alertas em tempo real aos colectores de dados se algo parecesse errado. Isto ajudaria a garantir a exactidão dos dados desde o início e a criar confiança junto dos clientes. Além disso, o grupo abordou a importância da explicabilidade na criação de confiança e na diferenciação entre dados correctos e dados incorrectos. De um modo geral, o grupo salientou a necessidade de um sistema de recolha de dados que seja eficiente, exacto e transparente, a fim de criar confiança junto dos clientes e garantir dados de elevada qualidade e, consequentemente, resultados.

Chris Ciompi: Olá a todos e obrigado por terem vindo novamente à mesa para falarmos sobre outra dimensão da qualidade dos dados. Vamos falar de exactidão. Então, vamos novamente ao Ángel. Por favor, defina precisão no que se refere à qualidade dos dados.

Ángel Agudo: Utilizamos várias tecnologias, como o Processamento de Linguagem Natural (PNL), para recolher eficazmente dados dos relatórios. Estes dados são submetidos a uma compilação de algoritmos em tempo real, que os compara com outras dimensões da empresa, ao longo do tempo, e com outras empresas do sector para identificar potenciais erros. Para o efeito, os algoritmos são treinados com a visão de especialistas em sustentabilidade, que desafiam cada ponto de dados com um forte suporte teórico. Dependendo do resultado, o ponto de dados pode ser considerado correto, ou pode ser necessária a recolha por um humano para avaliar a questão. Nalguns casos, o ponto de dados relatado pode ser fornecido, mas complementado com um valor ajustado, para fornecer uma melhor imagem da realidade da empresa. Tudo isto garante que o Clarity AI fornece os dados de maior qualidade no mercado, do ponto de vista da exatidão.

Chris Ciompi: Obrigado. Patricia, porque é que a exatidão é importante para os consumidores de dados sobre sustentabilidade?

Patricia Pina: Os dados de sustentabilidade são utilizados para tomar decisões. Se os dados estiverem errados, as decisões serão erradas. Por isso, a exactidão é fundamental. É a base, o elemento constitutivo de tudo o resto. E só para ilustrar este ponto: se olharmos para os dados sobre emissões de CO2, que é a métrica mais comunicada e mais utilizada na indústria, e nos concentrarmos nos dados comunicados, que são os dados mais estáveis e maduros do mercado, vemos números muito diferentes a circular no mercado. A nossa investigação revelou que, em 40% dos casos, havia discrepâncias nos números apresentados pelos fornecedores de dados sobre essas empresas. A resolução destas discrepâncias é importante porque faz uma enorme diferença nos cálculos e relatórios que os participantes no mercado utilizam para informar sobre as emissões dos seus produtos financeiros. Pode aumentar a pegada de carbono em até 20%, ou mesmo mais. E só para colocar os 20% em perspectiva: 7% é a redução anual que precisamos de atingir para cumprir o Alinhamento de Paris. Portanto, 20-30% são números muito significativos.

Chris Ciompi: Obrigado. Vou insistir um pouco no exemplo e no Alinhamento de Paris. Quando diz Alinhamento de Paris, está a referir-se aos objectivos para 2030 e 2050, certo?

Patricia Pina: Sim, estou a referir-me à taxa de descarbonização de que necessitaríamos para atingir os objectivos de 2030 e 2050.

Chris Ciompi: Muito bem, óptimo. Muito obrigado. Juan Diego, qual é a exactidão dos dados ao longo de toda a cobertura do Clarity AI?

Juan Diego Martín: Trabalhamos para ter mais de 99% de precisão nos nossos dados. E, para isso, empregamos uma estratégia que chamamos de "quatro níveis de defesa". O primeiro são acordos de nível de serviço muito rigorosos, com todos os envolvidos no processo. O segundo é a tecnologia, que nos permite detetar anomalias o mais rapidamente possível, e temos quatro recursos principais para essa responsabilidade: heurística, abordagens concorrentes, verificações de precisão utilizando técnicas de Processamento de Linguagem Natural (PNL) e validação por terceiros. A terceira linha de defesa é a validação ao nível da base de dados principal, que todos os nossos módulos utilizam, pelo que tudo o que vai ser introduzido na plataforma passa por controlos de qualidade adicionais. A quarta é feita ao nível do módulo, onde equipas específicas para cada um dos nossos produtos validam que os dados são da mais alta qualidade possível e estão prontos para serem entregues ao cliente.

Chris Ciompi: Obrigado, e penso que o Ron deve ter aí algum material para ti. Como é que a precisão dos dados em Clarity AI é influenciada pela inteligência artificial?

Ron Potok: No seguimento do que a Patricia disse, existem discrepâncias entre os fornecedores de dados no mercado para os mesmos dados de emissões de CO2, o que significa que dois fornecedores diferentes podem estar a fornecer emissões de CO2 diferentes para a mesma empresa. Em Clarity AI, adoptamos uma abordagem estatística. Obtemos dados de vários fornecedores para podermos estudá-los e utilizá-los para tentarmos obter os dados de sustentabilidade mais exactos. Como estatístico, pode querer calcular a média das diferentes opiniões sobre sustentabilidade. Mas não é essa a abordagem aqui. Não acreditamos que as emissões de CO2 de uma empresa num determinado ano sejam uma opinião. Acreditamos que é um facto e que há uma resposta certa e uma resposta errada. Por isso, em vez disso, criámos uma tecnologia de IA que nos ajuda a determinar se cada ponto de dados é exacto ou não. O tipo de informação que utilizamos para determinar essa exactidão é o contexto, que adicionamos a cada ponto de dados. Esse contexto pode ser constituído por dados previamente comunicados pela empresa ou por valores normais no sector. O objectivo é garantir que cada ponto de dados que fornecemos ao cliente é razoável e é apresentado no seu contexto. Existem várias outras formas de garantir a qualidade ao longo do processo, mas o que é especial em Clarity AI é o facto de termos acesso a muitos fornecedores diferentes e de termos criado modelos que nos permitem atribuir um nível de confiança a cada ponto de dados para determinar o grau de confiança que temos de que esse ponto de dados está correcto, independentemente da sua origem.

Chris Ciompi: Relativamente aos modelos, pode explicar um pouco como é que a IA está a funcionar, alimentando esses modelos para influenciar a precisão de uma forma positiva?

Ron Potok: Temos vários modelos diferentes. O modelo em que me vou concentrar é o nosso modelo de fiabilidade. Tal como referi anteriormente, criámos um modelo que aplica contexto a cada ponto de dados, e esse contexto provém dos fornecedores de dados. Potencialmente, existem dois ou três fornecedores diferentes com valores diferentes para esse ponto de dados, pelo que nos perguntamos: Qual é o historial desses dados? Ou seja, por exemplo, as suas emissões de âmbito 1 no ano passado, há dois anos, há três anos, enquanto empresa, e o contexto da indústria: tendo em conta a indústria em que se encontra, quais são os valores normais para si? Aplicamos todas essas informações como características num modelo de aprendizagem automática que nos permite determinar, para cada ponto de dados, a probabilidade de esse ponto de dados estar correto para uma determinada empresa.

Chris Ciompi: E quão complicado seria fazer o que acabaste de descrever sem IA?

Ron Potok: O valor da IA ou das técnicas de aprendizagem automática, em geral, é condicionar muitos aspectos diferentes em simultâneo. Por isso, se definíssemos regras como num sistema baseado em regras, teríamos muitas declarações "se" que são independentes umas das outras. Em vez disso, o que um modelo faz é compreender o contexto de todas essas decisões e qual é a probabilidade de sucesso com base em todas essas informações ao mesmo tempo. É certamente possível fazê-lo com regras heurísticas, mas torna-se pouco atrativo muito rapidamente, e é por isso que construímos modelos. A complexidade torna-se intratável e os efeitos de interação entre características tornam-se intratáveis para os humanos escreverem regras.

Chris Ciompi: Perfeito. Obrigado, Ron. Patricia, como é que a precisão dos dados ajuda a impulsionar a inovação de produtos em Clarity AI?

Patricia Pina: Quando penso na forma como a exactidão nos ajuda a inovar, penso em diferentes aspectos. Em primeiro lugar, queremos ter a certeza de que temos um ciclo de feedback rápido com os nossos clientes no que diz respeito à exactidão. Para o efeito, criámos canais e ferramentas para que os clientes possam contestar qualquer ponto de dados. Depois, voltamos a contactá-los com uma explicação completa dos dados. A outra parte é a forma como podemos tornar-nos mais sofisticados e inteligentes com algoritmos e verificações. Uma forma de o fazer é integrando estes algoritmos logo no início do fluxo de dados para detectar quaisquer potenciais problemas de exactidão numa fase muito precoce do processo e em tempo real, fornecer feedback a quem está a recolher esses dados e ajustá-los para fornecer dados da mais elevada qualidade aos nossos clientes sem atrasos.

Chris Ciompi: Quando diz "em tempo real", como é que isso influencia a inovação?

Patricia Pina: No nosso sistema de recolha de dados, tanto para a extracção como para a validação dos dados, integramos algoritmos. A pessoa que recolhe os dados receberá alertas em tempo real se algum dos dados parecer incorrecto com base no que sabemos sobre a empresa, bem como noutros dados que recolhemos no passado. Fazemos todas estas verificações em tempo real e damos feedback à empresa que recolhe os dados. Se houver erros, estes serão corrigidos nesse momento para garantir a exactidão desde o início.

Chris Ciompi: Então, esta é uma forma de atingir os 99% de precisão que o Juan Diego mencionou anteriormente?

Patricia Pina: Sim, exactamente.

Chris Ciompi: Entendi. Portanto, isto vai ao encontro do que o Juan Diego disse sobre o objectivo de 99% de precisão. É uma das formas. Ángel, de que forma é que o nível de exactidão dos dados em Clarity AI influencia as capacidades da plataforma tecnológica?

Ángel Agudo: Fornecer os dados correctos e criar confiança junto dos nossos clientes é fundamental. Os clientes comparam frequentemente diferentes fontes de dados para o mesmo objectivo e podem encontrar diferenças. Temos de lhes mostrar como podem distinguir entre os dados correctos e os incorrectos. A capacidade de explicação é fundamental para criar confiança, pelo que temos de comunicar o nosso trabalho com os dados e as correcções de uma forma que crie essa confiança. A nossa recolha de dados em tempo real e as verificações de qualidade tornam-nos muito eficientes, e a plataforma deve transmitir essa informação para criar confiança.

Chris Ciompi: Obrigado a todos! Obrigado pelo excelente debate sobre esta dimensão da qualidade dos dados - a exactidão.

Introduza o seu endereço de correio eletrónico para ler mais