Riflettori puntati: Qualità dei dati - Dimensione 2, freschezza

Qualità dei dati 8 maggio 2023 Ángel Agudo, Patricia Pina, Juan Diego Martin, Ron Potok, Chris Ciompi

Una serie di interviste con il team esecutivo di Clarity AI sulle 8 dimensioni della qualità dei dati

Come fa Clarity AI a garantire che i suoi dati siano della massima qualità?

Clarity AI utilizza una struttura a 8 dimensioni per garantire la massima qualità dei dati. Tali dimensioni sono: copertura, freschezza / tempestività, accuratezza, aggiornamento dei dati, spiegabilità, coerenza, puntualità e feedback. In questa serie di interviste ai dirigenti di Clarity AI , ciascuna di queste dimensioni viene esplorata e spiegata. Clarity AIIl team di esperti di crea metodologie scientifiche e basate su prove che poi sfruttano un'intelligenza artificiale potente e scalabile (ad esempio, l'apprendimento automatico) per raccogliere, pulire, analizzare ed espandere i set di dati esistenti per alimentare la sua piattaforma tecnologica per la sostenibilità o per integrarla direttamente nei flussi di lavoro esistenti degli utenti.

Dimensione 2 - Freschezza

Clarity AIÁngel Agudo, VP Product, Patricia Pina, Head of Product Research & Innovation, Juan Diego Martin, Head of Data Strategy, e Ron Potok, Head of Data Science, hanno discusso con Chris Ciompi, Chief Marketing Officer di Clarity AI, l'importanza della freschezza dei dati, ovvero la loro tempestività e rilevanza, per favorire un processo decisionale accurato e di impatto. Il gruppo ha evidenziato l'impatto della freschezza dei dati su vari settori e casi d'uso. Hanno anche discusso le sfide da affrontare per mantenere la freschezza dei dati, come i silos di dati, i limiti dell'infrastruttura dei dati e il debito tecnico.

I relatori hanno sottolineato la necessità di una strategia di gestione dei dati che dia priorità alla freschezza dei dati, investendo nell'infrastruttura dei dati, stabilendo chiare politiche di governance dei dati e incorporando tecnologie di machine learning e AI per automatizzare l'elaborazione dei dati e garantirne l'accuratezza. I partecipanti hanno inoltre condiviso le diverse dimensioni della freschezza dei dati, tra cui la copertura dei dati, la frequenza e la latenza, e hanno discusso le strategie per ottimizzare ciascuna dimensione. Nel complesso, il panel ha sottolineato il ruolo critico della freschezza dei dati nel consentire alle organizzazioni di prendere decisioni informate e di ottenere un impatto positivo e ha evidenziato la necessità di investire costantemente nella gestione dei dati e nella tecnologia per garantire che la freschezza dei dati sia mantenuta nel tempo come componente critica della qualità dei dati.

Chris Ciompi: Salve di nuovo a tutti. Questa volta ci concentreremo sulla freschezza e sul suo rapporto con la qualità dei dati. Ángel, puoi iniziare definendo la freschezza in relazione alla qualità dei dati?

Ángel Agudo: Certo. Per me, freschezza significa avere a disposizione i dati più aggiornati e chiari in Clarity AI. L'accordo specifico sul livello di servizio (SLA) per la freschezza dovrebbe essere definito dal mercato, ma dovrebbe essere il più presto possibile, in modo da poter offrire informazioni pertinenti e tempestive agli utenti.

Patricia Pina: Sono d'accordo con Ángel. Nel processo decisionale, avere accesso alle informazioni più recenti è fondamentale, soprattutto in un mondo in cui le cose cambiano continuamente. Per quanto riguarda i dati sulla sostenibilità, ad esempio, il cambiamento climatico sta avvenendo rapidamente e il tempo a nostra disposizione sta per scadere. Pertanto, la freschezza è essenziale. Inoltre, le aziende si impegnano a ridurre le emissioni, ed è fondamentale monitorare i loro progressi e far sì che rispondano delle loro promesse. Per questo motivo, ottenere dati rapidi e freschi sulle loro prestazioni è fondamentale per garantire che stiano rispettando i loro impegni.

Chris Ciompi: Juan Diego, puoi spiegarci meglio come Clarity AI assicura la freschezza dei dati che fornisce?

Juan Diego Martín: Certamente. Abbiamo messo in atto processi semplificati per garantire la freschezza dei dati. In primo luogo, monitoriamo costantemente quando le aziende aggiornano le loro informazioni pubbliche e le riportano. In secondo luogo, estraiamo ed elaboriamo le informazioni utilizzando una combinazione di tecnologia ed esperti. Applichiamo anche controlli di qualità nello stesso ciclo per evitare che vengano elaborati dati sospetti. In terzo luogo, disponiamo di una pipeline di ingestione automatica dei dati che ci consente di mettere le informazioni a disposizione dei nostri clienti attraverso i mezzi che preferiscono, come ad esempio i feed di dati API. Inoltre, offriamo ai nostri clienti un terminale di servizio con aggiornamenti molto frequenti, il più delle volte quando viene rilevata una nuova controversia. Elaboriamo quotidianamente informazioni strutturate e non strutturate sulle controversie da oltre 1,4 milioni di articoli di notizie provenienti da più di 33.000 fonti attendibili.

Chris Ciompi: Grazie per la spiegazione, Juan Diego. Vorrei concentrarmi sul secondo punto che hai menzionato prima, sulla giusta combinazione di tecnologia ed esperti. Potrebbe fornire maggiori dettagli in merito?

Juan Diego Martín: Certo. Sebbene utilizziamo l'intelligenza artificiale per automatizzare la maggior parte del lavoro, come individuare le informazioni giuste ed estrarle, ci sono casi in cui le informazioni sono sparse in tutto il report. Ad esempio, i dati dei dipendenti possono essere inclusi in diverse filiali e le emissioni possono essere divulgate per linea di business in varie sezioni. In questi casi, abbiamo bisogno di esperti per dare un senso alle informazioni estratte automaticamente e garantire che i dati aggregati siano accurati e riflettano ciò che i nostri clienti si aspettano.

Chris Ciompi: Grazie. Ron, in che modo l'intelligenza artificiale influenza la freschezza dei dati su Clarity AI?

Ron Potok: Come ha detto Juan Diego, oggi i computer sono in grado di leggere e vedere abbastanza bene. Possiamo sfruttare queste tecnologie per aiutarci a raccogliere i dati in modo rapido ed efficiente. Tuttavia, forniamo dati finanziari per prendere decisioni finanziarie, il che significa che i dati devono essere molto accurati. I modelli statistici non possono mai raggiungere un'accuratezza del 100%, quindi è necessaria una combinazione di computer e persone per garantire sia l'efficienza che l'accuratezza. Abbiamo bisogno di entrambi per garantire che i dati raggiungano i nostri clienti in modo rapido e di alta qualità.

Chris Ciompi: Questo ha senso. Avete qualche caso interessante da condividere su come Clarity AI utilizza le tecniche di apprendimento automatico nell'estrazione dei dati?

Ron Potok: Sì, abbiamo un altro caso legato ai nostri modelli di stima. Per le aziende che non comunicano le informazioni sulla sostenibilità, non possiamo usare l'intelligenza artificiale per estrarre i loro dati. Tuttavia, possiamo ottenere abbastanza rapidamente le informazioni finanziarie per ogni anno fiscale, perché le aziende sono generalmente veloci nel divulgare queste informazioni. Potremmo stimare rapidamente le emissioni di queste aziende, ma abbiamo scelto di non farlo. Aspettiamo che le aziende inizino a divulgare i loro dati sulla sostenibilità, in modo da poter garantire che i nostri modelli siano calibrati correttamente ogni nuovo anno di dati che arrivano. Aspettiamo che vengano comunicati i nuovi dati prima di diffondere le nostre nuove stime per assicurarci che il mondo non sia cambiato e che il modello di stima debba essere rivisto. Ogni anno abbiamo un ulteriore controllo di qualità.

Chris Ciompi: È interessante. Quindi, la ragione dell'attesa è che i modelli imparano dalla storia e se il passato non è più rappresentativo di oggi, dobbiamo tenerne conto?

Ron Potok: Esattamente. I modelli imparano dalla storia e se il passato non è più un perfetto predittore del futuro, dobbiamo modificare continuamente i nostri modelli per prevedere con precisione il presente. Ci aspettiamo innovazioni per quanto riguarda le componenti ambientali, quindi ci aspettiamo che il mondo cambi nel tempo, e il passato non sarà sempre un perfetto predittore del futuro. Dobbiamo modificare continuamente i nostri modelli man mano che andiamo avanti per assicurarci che prevedano con precisione il presente.

Chris Ciompi: È fantastico. I modelli possono imparare e adattarsi nel tempo?

Ron Potok: Sì, i modelli possono imparare quali sono le caratteristiche che determinano i cambiamenti. Possiamo fare in modo che il modello sia abbastanza intelligente da comprendere i cambiamenti che sappiamo essere in arrivo. Possiamo lasciare spazio alle nuove tecnologie e applicare l'intelligenza artificiale per rendere le cose più efficienti. Possiamo prevedere caratteristiche di natura previsionale. Ad esempio, se un Paese dichiara di voler eliminare gradualmente le centrali a carbone entro tre anni, possiamo aggiungere questa informazione ai nostri modelli per sapere cosa accadrà tra tre anni.

Chris Ciompi: Ha senso. Grazie, Ron. Patricia, in che modo la freschezza dei dati aiuta a promuovere l'innovazione dei prodotti in Clarity AI?

Patricia Pina: In Clarity AI ci sforziamo di trovare fonti alternative di dati rilevanti che siano disponibili prima dei dati pubblicati dalle aziende una volta all'anno, in genere pochi mesi dopo la fine del periodo di rendicontazione corrispondente. Ad esempio, utilizziamo i dati satellitari in tempo reale per dedurre la quantità di emissioni delle aziende, invece di aspettare un anno e mezzo per sapere cosa è successo oggi. Questo ci permette di fornire dati più freschi ai nostri utenti.

Chris Ciompi: In che modo la freschezza dei dati su Clarity AI influenza le capacità della piattaforma tecnologica?

Ángel Agudo: La freschezza dei dati è fondamentale per consentire ai nostri utenti di prendere decisioni informate. Ci permette di mostrare che sono state incluse le informazioni più aggiornate, il che è importante per la spiegabilità. Il nostro obiettivo è quello di essere il più efficienti possibile nel pubblicare i dati e renderli disponibili agli utenti. Acquisendo dati e aggiornandoli più rapidamente, possiamo mostrare agli utenti la rapidità con cui sono disponibili nuove informazioni e aiutarli a essere più proattivi nel loro processo decisionale.

Juan Diego Martín: La nostra capacità di rilevare quando vengono pubblicate nuove informazioni ogni anno ci permette di prevedere quando le informazioni saranno disponibili e di ottimizzare i nostri processi di aggiornamento. Questo è prezioso per i nostri clienti, che possono pianificare quando le informazioni di cui hanno bisogno saranno disponibili nel nostro prodotto.

Ángel Agudo: Tutte le dimensioni che abbiamo citato, come l'accuratezza, la completezza e la tempestività dei dati, sono essenziali per i nostri utenti per prendere decisioni informate. Anche se può essere complesso da raggiungere, stiamo innovando e fornendo valore perché queste dimensioni sono importanti per il processo decisionale. Senza i dati giusti o con errori nei dati, gli utenti potrebbero non prendere le decisioni giuste.

Chris Ciompi: Naturalmente ha senso, ma per il momento torniamo alla dimensione della freschezza in relazione alla qualità dei dati. C'è altro per concludere?

Patricia Pina: L'ultimo punto che volevo sottolineare è che alcuni clienti hanno dovuto investire risorse, sforzi e tempo significativi con i fornitori di dati sulla sostenibilità per pulire i dati e garantirne la freschezza, per assicurarsi di acquistare i dati giusti per le loro esigenze. Noi, invece, facciamo in modo che i nostri clienti non debbano affrontare processi costosi e inutili.

Chris Ciompi: Grazie a tutti!

Inserisci il tuo indirizzo e-mail per saperne di più