Em destaque: Qualidade dos dados - Dimensão 2, Actualidade
Uma série de entrevistas com a equipa executiva do Clarity AI sobre as 8 dimensões da qualidade dos dados
Como é que Clarity AI garante que os seus dados são da mais elevada qualidade?
Clarity AI utiliza um quadro de 8 dimensões para garantir que os dados são da mais elevada qualidade. Essas dimensões são a cobertura, a atualidade, a exatidão, as actualizações de dados, a explicabilidade, a consistência, o ponto no tempo e o feedback. Nesta série de entrevistas com executivos da Clarity AI , cada uma destas dimensões é explorada e explicada. Clarity AIA equipa de especialistas da cria metodologias científicas e baseadas em evidências que, em seguida, utilizam inteligência artificial poderosa e escalável (por exemplo, aprendizagem automática) para recolher, limpar, analisar e expandir conjuntos de dados existentes para alimentar a sua plataforma tecnológica de sustentabilidade ou para integrar diretamente nos fluxos de trabalho existentes dos utilizadores.
Dimensão 2 - Frescura
Clarity AIÁngel Agudo, Vice-Presidente de Produto, Patricia Pina, Directora de Investigação e Inovação de Produto, Juan Diego Martin, Director de Estratégia de Dados, e Ron Potok, Director de Ciência de Dados, discutem - com Chris Ciompi, Director de Marketing de Clarity AI- a importância da actualidade dos dados, ou seja, a actualidade e a relevância dos dados, para a tomada de decisões precisas e com impacto. O grupo destacou o impacto da actualidade dos dados em vários sectores e casos de utilização. Discutiram também os desafios da manutenção da actualidade dos dados, como os silos de dados, as limitações da infra-estrutura de dados e a dívida técnica.
Os membros do painel sublinharam a necessidade de uma estratégia de gestão de dados que dê prioridade à actualidade dos dados, incluindo o investimento em infra-estruturas de dados, o estabelecimento de políticas claras de governação de dados e a incorporação de tecnologias de aprendizagem automática e de IA para automatizar o processamento de dados e garantir a sua precisão. Os participantes também compartilharam insights sobre as diferentes dimensões da atualização de dados, incluindo cobertura de dados, frequência e latência, e discutiram estratégias para otimizar cada dimensão. No geral, o painel enfatizou o papel crítico da atualização de dados para permitir que as organizações tomem decisões informadas e gerem um impacto positivo e ressaltou a necessidade de investimento contínuo em gerenciamento de dados e tecnologia para garantir que a atualização de dados seja mantida ao longo do tempo como um componente crítico da qualidade dos dados.
Chris Ciompi: Olá novamente a todos. Desta vez, vamos centrar-nos na frescura e na sua relação com a qualidade dos dados. Ángel, podes começar por definir frescura no que diz respeito à qualidade dos dados?
Ángel Agudo: Claro. Para mim, frescura significa ter os dados mais actualizados e claros disponíveis em Clarity AI. O acordo de nível de serviço (SLA) específico para a actualidade deve ser definido pelo mercado, mas deve ser o mais rápido possível, para que possamos oferecer informação relevante e atempada aos utilizadores.
Patricia Pina: Concordo com o Ángel. Na tomada de decisões, ter acesso às informações mais recentes é fundamental, especialmente num mundo em que as coisas estão em constante mudança. Com os dados de sustentabilidade, por exemplo, as alterações climáticas estão a acontecer rapidamente e estamos a ficar sem tempo. Por isso, a actualidade é essencial. Além disso, as empresas estão a assumir compromissos para reduzir as emissões, e é crucial acompanhar o seu progresso e responsabilizá-las pelas suas promessas. Assim, obter dados rápidos e actualizados sobre o seu desempenho é crucial para garantir que estão a cumprir os seus compromissos.
Chris Ciompi: Juan Diego, pode explicar melhor como é que o Clarity AI garante a actualidade dos dados que fornece?
Juan Diego Martín: Com certeza. Temos processos simplificados para garantir a actualidade dos dados. Em primeiro lugar, monitorizamos continuamente quando as empresas actualizam a sua informação pública e a comunicam. Em segundo lugar, extraímos e processamos a informação utilizando uma combinação de tecnologia e especialistas. Também aplicamos controlos de qualidade no mesmo ciclo para evitar que quaisquer dados suspeitos sejam processados. Em terceiro lugar, dispomos de um pipeline de dados de ingestão automática que nos permite disponibilizar as informações aos nossos clientes através dos seus meios preferidos, tais como feeds de dados API. Além disso, oferecemos um terminal de serviços aos nossos clientes com actualizações muito frequentes, sendo as actualizações mais frequentes quando é detectada uma nova controvérsia. Processamos diariamente informações sobre controvérsias estruturadas e não estruturadas de mais de 1,4 milhões de artigos noticiosos de mais de 33 000 fontes de notícias fiáveis.
Chris Ciompi: Obrigado pela explicação, Juan Diego. Gostaria de me concentrar no segundo ponto que mencionou anteriormente, sobre a combinação correcta de tecnologia e especialistas. Pode dar mais pormenores sobre este ponto?
Juan Diego Martín: Claro. Embora utilizemos a IA para automatizar a maior parte do trabalho, como detectar a informação certa e extraí-la, há casos em que a informação está espalhada pelo relatório. Por exemplo, os dados dos empregados podem ser incluídos em diferentes subsidiárias e as emissões podem ser divulgadas por linha de negócio em várias secções. Nestes casos, precisamos de especialistas para dar sentido à informação extraída automaticamente e garantir que os dados agregados são exactos e reflectem o que os nossos clientes esperam que signifiquem.
Chris Ciompi: Obrigado. Ron, como é que a inteligência artificial influencia a actualidade dos dados em Clarity AI?
Ron Potok: Bem, como o Juan Diego referiu anteriormente, os computadores conseguem ler e ver bastante bem hoje em dia. Podemos tirar partido destas tecnologias para nos ajudar a recolher dados de forma rápida e eficiente. No entanto, fornecemos dados financeiros para tomar decisões financeiras, o que significa que os dados têm de ser altamente exactos. Os modelos estatísticos nunca podem atingir 100% de exactidão, pelo que é necessária uma combinação de computadores e pessoas para garantir tanto a eficiência como a exactidão. Precisamos de ambos para garantir que os dados chegam aos nossos clientes de forma rápida e com elevada qualidade.
Chris Ciompi: Isso faz sentido. Tem algum caso interessante para partilhar sobre a forma como o Clarity AI utiliza técnicas de aprendizagem automática na extracção de dados?
Ron Potok: Sim, temos outro caso relacionado com os nossos modelos de estimativa. Para as empresas que não comunicam as suas informações de sustentabilidade, não podemos utilizar a IA para extrair os seus dados. No entanto, podemos obter informações financeiras muito rapidamente para cada ano fiscal, porque as empresas são geralmente rápidas na divulgação dessas informações. Poderíamos estimar rapidamente as emissões destas empresas, mas optámos por não o fazer. Esperamos que as empresas comecem a divulgar os seus dados de sustentabilidade primeiro, para podermos garantir que os nossos modelos são correctamente calibrados a cada novo ano de dados que chegam. Esperamos que os novos dados sejam comunicados antes de lançarmos as nossas novas estimativas para garantir que o mundo não mudou e que o modelo de estimativa precisa de ser revisto. Todos os anos, temos um controlo de qualidade adicional.
Chris Ciompi: Isso é interessante. Então, a razão para esperar é que os modelos aprendem com a história e, se o passado já não é representativo do presente, temos de ter isso em conta?
Ron Potok: Exactamente. Os modelos aprendem com a história e, se o passado já não é um indicador perfeito do futuro, temos de modificar continuamente os nossos modelos para prever o dia de hoje com precisão. Estamos à espera de inovações em torno de componentes ambientais, por isso esperamos que o mundo mude ao longo do tempo, e o passado nem sempre será um perfeito preditor do futuro. Precisamos de modificar continuamente os nossos modelos à medida que avançamos para garantir que prevêem com exactidão o dia de hoje.
Chris Ciompi: Isso é óptimo. Os modelos podem aprender e adaptar-se ao longo do tempo?
Ron Potok: Sim, os modelos podem aprender sobre as características que estão a provocar as alterações. Podemos fazer com que o modelo seja suficientemente inteligente para compreender as mudanças que sabemos que estão a chegar. Podemos deixar espaço para novas tecnologias e aplicar a IA para tornar as coisas mais eficientes. Podemos prever características que são de natureza prospetiva. Por exemplo, se um país disser que vai eliminar gradualmente as centrais a carvão dentro de três anos, podemos acrescentar essa informação aos nossos modelos para saber o que vai acontecer dentro de três anos.
Chris Ciompi: Faz sentido. Obrigado, Ron. Patricia, como é que a atualidade dos dados ajuda a impulsionar a inovação de produtos em Clarity AI?
Patricia Pina: Em Clarity AI, esforçamo-nos por encontrar fontes alternativas de dados relevantes que estejam disponíveis mais cedo do que os dados publicados pelas empresas uma vez por ano, normalmente alguns meses depois de terminado o período de reporte correspondente. Por exemplo, utilizamos dados de satélite em tempo real para inferir a quantidade de emissões das empresas, em vez de esperar um ano e meio para saber o que aconteceu hoje. Isto permite-nos fornecer dados mais recentes aos nossos utilizadores.
Chris Ciompi: De que forma é que a actualidade dos dados em Clarity AI influencia as capacidades da plataforma tecnológica?
Ángel Agudo: A actualidade dos dados é fundamental para que os nossos utilizadores tomem decisões informadas. Permite-nos mostrar que foram incluídas as informações mais actualizadas, o que é importante para a explicabilidade. O nosso objectivo é ser o mais eficiente possível na publicação de dados e na sua disponibilização aos utilizadores. À medida que capturamos dados e os actualizamos mais rapidamente, podemos mostrar aos utilizadores a rapidez com que as novas informações estão disponíveis e ajudá-los a serem mais proactivos no seu processo de tomada de decisões.
Juan Diego Martín: A nossa capacidade de detectar quando são publicadas novas informações todos os anos permite-nos prever quando as informações estarão disponíveis e simplificar os nossos processos de actualização. Isto é valioso para os nossos clientes porque podem planear quando a informação de que necessitam estará disponível no nosso produto.
Ángel Agudo: Todas as dimensões que mencionámos, como a precisão, a exaustividade e a actualidade dos dados, são essenciais para que os nossos utilizadores tomem decisões informadas. Embora possa ser complexo de alcançar, estamos a inovar e a fornecer valor porque estas dimensões são importantes para a tomada de decisões. Sem os dados certos ou com erros nos dados, os utilizadores podem não tomar as decisões certas.
Chris Ciompi: Isso faz sentido, claro, mas vamos voltar à dimensão da actualidade no que diz respeito à qualidade dos dados, por enquanto. Mais alguma coisa para terminar?
Patricia Pina: O último ponto que queria referir é que alguns clientes tiveram de investir recursos, esforços e tempo significativos com fornecedores de dados de sustentabilidade para limpar os dados e garantir a sua atualidade, para se certificarem de que estavam a comprar os dados certos para satisfazer as suas necessidades. Enquanto nós, asseguramos proactivamente que os nossos clientes não precisam de passar por processos dispendiosos e desnecessários.
Chris Ciompi: Obrigado a todos!