Riflettori puntati: Qualità dei dati - Dimensione 3, precisione
Una serie di interviste con il team esecutivo di Clarity AI sulle 8 dimensioni della qualità dei dati
Come fa Clarity AI a garantire che i suoi dati siano della massima qualità?
Clarity AI utilizza una struttura a 8 dimensioni per garantire la massima qualità dei dati. Tali dimensioni sono: copertura, freschezza / tempestività, accuratezza, aggiornamento dei dati, spiegabilità, coerenza, puntualità e feedback. In questa serie di interviste ai dirigenti di Clarity AI , ciascuna di queste dimensioni viene esplorata e spiegata. Clarity AIIl team di esperti di crea metodologie scientifiche e basate su prove che poi sfruttano un'intelligenza artificiale potente e scalabile (ad esempio, l'apprendimento automatico) per raccogliere, pulire, analizzare ed espandere i set di dati esistenti per alimentare la sua piattaforma tecnologica per la sostenibilità o per integrarla direttamente nei flussi di lavoro esistenti degli utenti.
Dimensione 3 - Precisione
Clarity AIÁngel Agudo, vicepresidente del prodotto, Patricia Pina, responsabile della ricerca e dell'innovazione del prodotto, Juan Diego Martin, responsabile della strategia dei dati e Ron Potok, responsabile della scienza dei dati, hanno discusso con Chris Ciompi, direttore marketing di Clarity AI, la dimensione critica dell'accuratezza e la sua relazione con la qualità dei dati. Il gruppo ha discusso di come un sistema di raccolta dati possa sfruttare gli algoritmi per migliorare l'accuratezza dei dati. Il sistema utilizzerebbe gli algoritmi per estrarre e controllare i dati, per poi fornire avvisi in tempo reale agli addetti alla raccolta dei dati se qualcosa non quadra. Questo aiuterebbe a garantire l'accuratezza dei dati fin dall'inizio e a creare fiducia nei clienti. Inoltre, il gruppo ha sottolineato l'importanza della spiegabilità per creare fiducia e distinguere i dati corretti da quelli errati. In generale, il gruppo ha sottolineato la necessità di un sistema di raccolta dei dati efficiente, accurato e trasparente per creare fiducia nei clienti e garantire dati e quindi risultati di alta qualità.
Chris Ciompi: Salve a tutti e grazie per essere venuti di nuovo a tavola per parlare di un'altra dimensione della qualità dei dati. Parliamo di accuratezza. Quindi, di nuovo ad Ángel. Per favore, definisci l'accuratezza in relazione alla qualità dei dati.
Ángel Agudo: Utilizziamo varie tecnologie come l'elaborazione del linguaggio naturale (NLP) per raccogliere in modo efficiente i dati dai report. Questi dati vengono sottoposti in tempo reale a una compilazione di algoritmi che li confrontano con altre dimensioni dell'azienda, nel tempo e con altre aziende del settore per identificare potenziali errori. A tal fine, gli algoritmi vengono addestrati con il parere di esperti di sostenibilità, che mettono alla prova ogni dato con un forte supporto teorico. A seconda del risultato, il dato può essere considerato corretto, oppure può essere necessario un ricordo da parte di un umano per valutare la questione. In alcuni casi, il dato riportato può essere fornito, ma integrato con un valore corretto, per fornire un quadro migliore della realtà dell'azienda. Tutto ciò garantisce che Clarity AI fornisca i dati della massima qualità sul mercato, dal punto di vista dell'accuratezza.
Chris Ciompi: Grazie. Patricia, perché l'accuratezza è importante per i consumatori di dati sulla sostenibilità?
Patricia Pina: I dati sulla sostenibilità vengono utilizzati per prendere decisioni. Se si hanno dati sbagliati, si prenderanno decisioni sbagliate. L'accuratezza è quindi fondamentale. È la base, l'elemento costitutivo di tutto il resto. Per illustrare questo punto: se analizziamo i dati sulle emissioni di CO2, che si dà il caso siano la metrica più riportata e la più utilizzata nel settore, e ci concentriamo sui dati riportati, che sono i più stabili e maturi del mercato, vediamo numeri molto diversi in giro per il mercato. La nostra ricerca ha rilevato che nel 40% dei casi ci sono discrepanze nei numeri offerti dai fornitori di dati su queste aziende. Affrontare queste discrepanze è importante perché fa un'enorme differenza nei calcoli e nei report che gli operatori di mercato utilizzano per informare sulle emissioni dei loro prodotti finanziari. Può aumentare l'impronta di carbonio fino al 20%, o anche di più. E per mettere il 20% in prospettiva: il 7% è la diminuzione annuale che dobbiamo raggiungere per rispettare l'allineamento di Parigi. Quindi, il 20-30% sono numeri molto significativi.
Chris Ciompi: Grazie. Vorrei insistere un po' sull'esempio e sull'allineamento di Parigi. Quando parla di allineamento di Parigi, intende gli obiettivi 2030 e 2050, giusto?
Patricia Pina: Sì, mi riferisco al tasso di decarbonizzazione necessario per raggiungere gli obiettivi del 2030 e del 2050.
Chris Ciompi: Ok, eccellente. Grazie. Juan Diego, quanto sono accurati i dati nell'intero arco di copertura di Clarity AI?
Juan Diego Martín: Lavoriamo per avere un'accuratezza superiore al 99% dei nostri dati. Per farlo, adottiamo una strategia che chiamiamo "quattro livelli di difesa". Il primo è costituito da accordi molto rigidi sui livelli di servizio, con tutti coloro che sono coinvolti nel processo. Il secondo è la tecnologia, che ci permette di individuare le anomalie il prima possibile, e abbiamo quattro risorse principali per questa responsabilità: euristica, approcci concorrenti, controlli di accuratezza con tecniche di elaborazione del linguaggio naturale (NLP) e convalida da parte di terzi. La terza linea di difesa è la convalida a livello di database principale, che tutti i nostri moduli utilizzano, quindi tutto ciò che verrà inserito nella piattaforma passa attraverso controlli di qualità aggiuntivi. La quarta viene effettuata a livello di modulo, dove team specifici per ciascuno dei nostri prodotti convalidano che i dati siano della massima qualità possibile e pronti per essere consegnati al cliente.
Chris Ciompi: Grazie, e penso che Ron, probabilmente c'è un po' di carne al fuoco per te. In che modo l'accuratezza dei dati di Clarity AI è influenzata dall'intelligenza artificiale?
Ron Potok: In seguito a quanto detto da Patricia, ci sono discrepanze tra i fornitori di dati all'interno del mercato per gli stessi dati sulle emissioni di CO2, il che significa che due diversi fornitori potrebbero fornire emissioni di CO2 diverse per la stessa azienda. Noi di Clarity AI adottiamo un approccio statistico. Ci procuriamo i dati da più fornitori in modo da poterli studiare e utilizzare per cercare di ottenere i dati più accurati sulla sostenibilità. Come statistico, si potrebbe voler fare una media delle diverse opinioni sulla sostenibilità. Ma non è questo l'approccio. Non crediamo che le emissioni di CO2 di un'azienda in un determinato anno siano un'opinione. Crediamo che sia un dato di fatto e che ci sia una risposta giusta e una sbagliata. Abbiamo quindi creato una tecnologia AI che ci aiuta a determinare se ogni dato è accurato o meno. Il tipo di informazione che utilizziamo per determinare l'accuratezza è il contesto, che aggiungiamo a ogni punto di dati. Il contesto potrebbe essere costituito dai dati precedentemente comunicati dall'azienda o dai valori normali del settore. Questo per garantire che ogni dato fornito al cliente sia ragionevole e inserito nel suo contesto. Ci sono molti altri modi per garantire la qualità durante il processo, ma la particolarità di Clarity AI è che abbiamo accesso a molti fornitori diversi e abbiamo costruito modelli che ci permettono di assegnare un livello di confidenza a ogni punto di dati per determinare quanto siamo sicuri che questo punto di dati sia corretto, indipendentemente dalla sua provenienza.
Chris Ciompi: Per quanto riguarda i modelli, può spiegare un po' come l'IA sta lavorando, alimentando questi modelli per influenzare l'accuratezza in modo positivo?
Ron Potok: Abbiamo diversi modelli. Il modello su cui mi concentrerò è quello dell'affidabilità. Come ho detto prima, abbiamo costruito un modello che applica un contesto a ogni punto di dati, e tale contesto proviene dai fornitori di dati. Potenzialmente, ci sono due o tre fornitori diversi con valori diversi per quel punto di dati, quindi ci chiediamo: Qual è la storia di quei dati? Cioè, ad esempio, le vostre emissioni Scope 1 dell'anno scorso, di due anni fa, di tre anni fa come azienda, e il contesto del settore: dato il settore in cui operate, quali sono i valori normali per voi? Applichiamo tutte queste informazioni come caratteristiche in un modello di apprendimento automatico che ci permette di produrre per ogni punto di dati la probabilità che questo punto di dati sia corretto per una determinata azienda.
Chris Ciompi: E quanto sarebbe complicato fare quello che hai appena descritto senza l'IA?
Ron Potok: Il valore dell'IA o delle tecniche di apprendimento automatico, in generale, è quello di condizionare molti aspetti diversi contemporaneamente. Quindi, se si impostano delle regole come in un sistema basato su regole, si avrebbero molti "if" indipendenti l'uno dall'altro. Un modello, invece, si occupa di comprendere il contesto di tutte le decisioni e la probabilità di successo sulla base di tutte queste informazioni allo stesso tempo. È certamente possibile farlo con regole euristiche, ma diventa poco attraente molto rapidamente, ed è per questo che costruiamo modelli. La complessità diventa intrattabile e gli effetti di interazione tra le caratteristiche diventano intrattabili per gli esseri umani che devono scrivere le regole.
Chris Ciompi: Perfetto. Grazie, Ron. Patricia, in che modo l'accuratezza dei dati contribuisce all'innovazione dei prodotti di Clarity AI?
Patricia Pina: Quando penso a come la precisione ci aiuta a innovare, penso a diversi aspetti. Prima di tutto, vogliamo assicurarci di avere un ciclo di feedback rapido con i nostri clienti quando si tratta di accuratezza. A tal fine, abbiamo predisposto canali e strumenti che consentono ai clienti di contestare qualsiasi dato. Poi rispondiamo loro con una spiegazione completa dei dati. L'altro aspetto è il modo in cui possiamo diventare più sofisticati e intelligenti con gli algoritmi e i controlli. Un modo per farlo è integrare questi algoritmi all'inizio del flusso di dati per rilevare qualsiasi potenziale problema di accuratezza molto presto nel processo e in tempo reale, fornire un feedback a chi sta raccogliendo i dati e modificarli per fornire ai nostri clienti dati della massima qualità senza ritardi.
Chris Ciompi: Quando dice "in tempo reale", come influenza l'innovazione?
Patricia Pina: Nel nostro sistema di raccolta dati, sia per l'estrazione che per la convalida, integriamo degli algoritmi. La persona che raccoglie i dati riceverà avvisi in tempo reale se uno qualsiasi dei dati sembra non corretto in base a ciò che sappiamo dell'azienda e ad altri dati che abbiamo raccolto in passato. Effettueremo tutti questi controlli in tempo reale e forniremo un feedback all'azienda che raccoglie i dati. Se ci sono errori, verranno corretti in quel momento per garantire l'accuratezza fin dall'inizio.
Chris Ciompi: Quindi, questo è un modo per ottenere il 99% di precisione in più di cui Juan Diego ha parlato prima?
Patricia Pina: Sì, esattamente.
Chris Ciompi: Capito. Quindi, questo si ricollega a ciò che Juan Diego ha detto a proposito dell'obiettivo di un'accuratezza superiore al 99%. È uno dei modi. Ángel, in che modo il livello di accuratezza dei dati di Clarity AI influenza le capacità della piattaforma tecnologica?
Ángel Agudo: Fornire i dati giusti e creare fiducia con i nostri clienti è fondamentale. I clienti spesso confrontano diverse fonti di dati per lo stesso scopo e potrebbero trovare delle differenze. Dobbiamo mostrare loro come possono distinguere tra i dati giusti e quelli sbagliati. La spiegabilità è fondamentale per creare fiducia, quindi dobbiamo comunicare il nostro lavoro sui dati e le correzioni in modo tale da creare questa fiducia. La nostra raccolta di dati in tempo reale e i controlli di qualità ci rendono molto efficienti e la piattaforma deve trasmettere queste informazioni per creare fiducia.
Chris Ciompi: Grazie a tutti! Grazie per la grande discussione su questa dimensione della qualità dei dati - l'accuratezza.