Spotlight: Διάσταση 3, Ακρίβεια
Σειρά συνεντεύξεων με την εκτελεστική ομάδα του Clarity AI σχετικά με τις 8 διαστάσεις της ποιότητας δεδομένων
Πώς διασφαλίζει το Clarity AI ότι τα δεδομένα του είναι υψηλής ποιότητας;
Clarity AI χρησιμοποιεί ένα πλαίσιο 8 διαστάσεων για να διασφαλίσει ότι τα δεδομένα είναι υψηλής ποιότητας. Οι διαστάσεις αυτές είναι η κάλυψη, η φρεσκάδα/επικαιρότητα, η ακρίβεια, οι ενημερώσεις δεδομένων, η επεξηγηματικότητα, η συνέπεια, το χρονικό σημείο και η ανατροφοδότηση. Σε αυτή τη σειρά συνεντεύξεων με στελέχη του Clarity AI , διερευνάται και εξηγείται κάθε μία από αυτές τις διαστάσεις. Clarity AIΗ ομάδα εμπειρογνωμόνων της εταιρείας δημιουργεί μεθοδολογίες βασισμένες σε επιστημονικά και αποδεικτικά στοιχεία, οι οποίες στη συνέχεια αξιοποιούν την ισχυρή, κλιμακούμενη τεχνητή νοημοσύνη (π.χ. μηχανική μάθηση) για τη συλλογή, τον καθαρισμό, την ανάλυση και την επέκταση των υφιστάμενων συνόλων δεδομένων για την τροφοδοσία της τεχνολογικής πλατφόρμας βιωσιμότητας ή για την ενσωμάτωση απευθείας στις υφιστάμενες ροές εργασίας των χρηστών.
Διάσταση 3 - Ακρίβεια
Clarity AIο Αντιπρόεδρος Προϊόντος, Ángel Agudo, η Επικεφαλής Έρευνας και Καινοτομίας Προϊόντος, Patricia Pina, ο Επικεφαλής Στρατηγικής Δεδομένων, Juan Diego Martin, και ο Επικεφαλής Επιστήμης Δεδομένων, Ron Potok, συζητούν - με τον Chris Ciompi, Διευθυντή Μάρκετινγκ του Clarity AI- την κρίσιμη διάσταση της ακρίβειας και τη σχέση της με την ποιότητα των δεδομένων. Η ομάδα συζήτησε πώς ένα σύστημα συλλογής δεδομένων μπορεί να αξιοποιήσει αλγορίθμους για τη βελτίωση της ακρίβειας των δεδομένων. Το σύστημα θα χρησιμοποιεί αλγόριθμους για την εξαγωγή και τον έλεγχο των δεδομένων και στη συνέχεια θα παρέχει ειδοποιήσεις σε πραγματικό χρόνο στους συλλέκτες δεδομένων εάν κάτι φαίνεται να μην είναι σωστό. Αυτό θα βοηθούσε στη διασφάλιση της ακρίβειας των δεδομένων από την αρχή και στην οικοδόμηση εμπιστοσύνης με τους πελάτες. Επιπλέον, η ομάδα αναφέρθηκε στη σημασία της επεξηγηματικότητας για την οικοδόμηση εμπιστοσύνης και τη διαφοροποίηση των σωστών δεδομένων από τα λανθασμένα δεδομένα. Συνολικά, η ομάδα υπογράμμισε την ανάγκη για ένα σύστημα συλλογής δεδομένων που είναι αποτελεσματικό, ακριβές και διαφανές, προκειμένου να οικοδομηθεί εμπιστοσύνη με τους πελάτες και να διασφαλιστούν υψηλής ποιότητας δεδομένα και, ως εκ τούτου, αποτελέσματα.
Chris Ciompi: Ciompi: Γεια σε όλους και σας ευχαριστώ που ήρθατε και πάλι στο τραπέζι για να συζητήσουμε μια άλλη διάσταση της ποιότητας των δεδομένων. Ας μιλήσουμε για την ακρίβεια. Οπότε, πάμε ξανά στον Ángel. Παρακαλώ ορίστε την ακρίβεια σε σχέση με την ποιότητα των δεδομένων.
Ángel Agudo: Χρησιμοποιούμε διάφορες τεχνολογίες όπως η επεξεργασία φυσικής γλώσσας (NLP) για την αποτελεσματική συλλογή δεδομένων από αναφορές. Τα δεδομένα αυτά υποβάλλονται σε μια συλλογή αλγορίθμων σε πραγματικό χρόνο, η οποία τα συγκρίνει με άλλες διαστάσεις της εταιρείας, διαχρονικά και με άλλες εταιρείες του κλάδου για τον εντοπισμό πιθανών σφαλμάτων. Για να επιτευχθεί αυτό, οι αλγόριθμοι εκπαιδεύονται με την άποψη των εμπειρογνωμόνων βιωσιμότητας, οι οποίοι αμφισβητούν κάθε σημείο δεδομένων με ισχυρή θεωρητική υποστήριξη. Ανάλογα με το αποτέλεσμα, το σημείο δεδομένων μπορεί να θεωρηθεί σωστό ή μπορεί να απαιτηθεί η επανεξέταση από άνθρωπο για την αξιολόγηση του ζητήματος. Σε ορισμένες περιπτώσεις, το αναφερόμενο σημείο δεδομένων μπορεί να παρέχεται, αλλά να συμπληρώνεται με μια προσαρμοσμένη τιμή, ώστε να παρέχεται μια καλύτερη εικόνα της πραγματικότητας της εταιρείας. Όλα αυτά διασφαλίζουν ότι το Clarity AI παρέχει τα υψηλότερης ποιότητας δεδομένα στην αγορά, από άποψη ακρίβειας.
Chris Ciompi: Ciompi: Ευχαριστώ. Patricia, γιατί είναι σημαντική η ακρίβεια για τους καταναλωτές των δεδομένων βιωσιμότητας;
Patricia Pina: Παinaina: Τα δεδομένα βιωσιμότητας χρησιμοποιούνται για τη λήψη αποφάσεων. Αν έχετε λάθος δεδομένα, θα πάρετε λάθος αποφάσεις. Επομένως, η ακρίβεια είναι ζωτικής σημασίας. Είναι η βάση, το δομικό στοιχείο για όλα τα υπόλοιπα. Και για να καταδείξω αυτό το σημείο: αν εξετάσουμε τα δεδομένα για τις εκπομπές CO2, τα οποία τυχαίνει να είναι και η πιο συχνά αναφερόμενη και η πιο συχνά χρησιμοποιούμενη μέτρηση στον κλάδο, και επικεντρωθούμε στα αναφερόμενα δεδομένα, τα οποία είναι τα πιο σταθερά και ώριμα δεδομένα στην αγορά, βλέπουμε πολύ διαφορετικούς αριθμούς να κυκλοφορούν στην αγορά. Η έρευνά μας διαπίστωσε ότι στο 40% των περιπτώσεων, υπήρχαν αποκλίσεις στους αριθμούς που προσέφεραν οι πάροχοι δεδομένων για τις εν λόγω εταιρείες. Η αντιμετώπιση αυτών των αποκλίσεων είναι σημαντική, διότι κάνει τεράστια διαφορά στους υπολογισμούς και τις εκθέσεις που χρησιμοποιούν οι συμμετέχοντες στην αγορά για να ενημερώνονται σχετικά με τις εκπομπές των χρηματοοικονομικών τους προϊόντων. Μπορεί να αυξήσει το αποτύπωμα άνθρακα έως και 20%, και ακόμη περισσότερο. Και για να βάλουμε το 20% σε προοπτική: το 7% είναι η ετήσια μείωση προς την οποία πρέπει να κατευθυνθούμε προκειμένου να επιτύχουμε την ευθυγράμμιση του Παρισιού. Έτσι, το 20-30% είναι πολύ σημαντικοί αριθμοί.
Chris Ciompi: Ciompi: Ευχαριστώ. Θα πιέσω λίγο το παράδειγμα και την ευθυγράμμιση του Παρισιού. Όταν λέτε ευθυγράμμιση του Παρισιού, εννοείτε τους στόχους του 2030 και του 2050, σωστά;
Patricia Pina: Ναι, αναφέρομαι στο ποσοστό απαλλαγής από τον άνθρακα που θα χρειαζόμασταν για να πετύχουμε τους στόχους του 2030 και του 2050.
Chris Ciompi: Ciompi: Εντάξει, εξαιρετικά. Σας ευχαριστώ. Juan Diego, πόσο ακριβή είναι τα δεδομένα σε όλο το εύρος της κάλυψης του Clarity AI;
Χουάν Ντιέγκο Μαρτίν: Μαρτίν Χαρτίν: Εργαζόμαστε για να έχουμε ακρίβεια μεγαλύτερη από 99% στα δεδομένα μας. Και για να το πετύχουμε αυτό, εφαρμόζουμε μια στρατηγική που ονομάζουμε "τέσσερα επίπεδα άμυνας". Το πρώτο είναι οι πολύ αυστηρές συμφωνίες επιπέδου υπηρεσιών, με όλους τους εμπλεκόμενους στη διαδικασία. Το δεύτερο είναι η τεχνολογία, η οποία μας επιτρέπει να εντοπίζουμε τις ανωμαλίες το συντομότερο δυνατό, και έχουμε τέσσερα βασικά περιουσιακά στοιχεία για αυτή την ευθύνη: ευρετικές μέθοδοι, ανταγωνιστικές προσεγγίσεις, έλεγχοι ακρίβειας με τη χρήση τεχνικών επεξεργασίας φυσικής γλώσσας (NLP) και επικύρωση από τρίτους. Η τρίτη γραμμή άμυνας είναι η επικύρωση στο επίπεδο της κύριας βάσης δεδομένων, την οποία χρησιμοποιούν όλες οι ενότητές μας, οπότε όλα όσα πρόκειται να προωθηθούν στην πλατφόρμα περνούν από πρόσθετους ελέγχους ποιότητας. Η τέταρτη γίνεται σε επίπεδο μονάδας, όπου ειδικές ομάδες για κάθε ένα από τα προϊόντα μας επικυρώνουν ότι τα δεδομένα είναι της υψηλότερης δυνατής ποιότητας και έτοιμα να παραδοθούν στον πελάτη.
Chris Ciompi: Ron, υπάρχει πιθανώς κάποια τροφή εκεί μέσα για σένα. Πώς επηρεάζεται η ακρίβεια των δεδομένων στο Clarity AI από την τεχνητή νοημοσύνη;
Ron Potok: Αυτό σημαίνει ότι δύο διαφορετικοί πάροχοι μπορεί να δίνουν διαφορετικές εκπομπές CO2 για την ίδια εταιρεία. Στο Clarity AI, ακολουθούμε μια στατιστική προσέγγιση. Προμηθεύουμε δεδομένα από πολλούς παρόχους, ώστε να μπορούμε να τα μελετήσουμε και να τα αξιοποιήσουμε για να προσπαθήσουμε να λάβουμε τα πιο ακριβή δεδομένα βιωσιμότητας. Ως στατιστικολόγος, μπορεί να θέλετε να υπολογίσετε τον μέσο όρο των διαφορετικών απόψεων για τη βιωσιμότητα μαζί. Αλλά αυτή δεν είναι η προσέγγιση εδώ. Δεν πιστεύουμε ότι οι εκπομπές CO2 για μια εταιρεία σε ένα δεδομένο έτος αποτελούν άποψη. Πιστεύουμε ότι είναι γεγονός και ότι υπάρχει μια σωστή και μια λάθος απάντηση. Αντ' αυτού, λοιπόν, έχουμε δημιουργήσει τεχνολογία τεχνητής νοημοσύνης που μας βοηθά να προσδιορίσουμε αν κάθε σημείο δεδομένων είναι ακριβές ή όχι. Το είδος των πληροφοριών που χρησιμοποιούμε για να προσδιορίσουμε αυτή την ακρίβεια είναι το πλαίσιο, το οποίο προσθέτουμε σε κάθε σημείο δεδομένων. Αυτό το πλαίσιο μπορεί να είναι δεδομένα που έχουν αναφερθεί προηγουμένως από την εταιρεία ή κανονικές τιμές στον κλάδο. Αυτό γίνεται για να διασφαλιστεί ότι κάθε σημείο δεδομένων που παραδίδουμε στον πελάτη είναι λογικό και δίνεται μέσα στο πλαίσιο του. Υπάρχουν πολλαπλοί άλλοι τρόποι με τους οποίους διασφαλίζουμε την ποιότητα σε όλη τη διαδικασία, αλλά το ιδιαίτερο χαρακτηριστικό του Clarity AI είναι το γεγονός ότι έχουμε πρόσβαση σε πολλούς διαφορετικούς παρόχους και ότι έχουμε δημιουργήσει μοντέλα που μας επιτρέπουν να αντιστοιχίσουμε ένα επίπεδο εμπιστοσύνης σε κάθε σημείο δεδομένων για να καθορίσουμε πόσο σίγουροι είμαστε ότι αυτό το σημείο δεδομένων είναι σωστό, ανεξάρτητα από το από πού προέρχεται.
Chris Ciompi: Μπορείτε να εξηγήσετε λίγο πώς λειτουργεί η τεχνητή νοημοσύνη, τροφοδοτώντας αυτά τα μοντέλα για να επηρεάσουν την ακρίβεια με θετικό τρόπο;
Ron Potok: Potok: Έχουμε πολλά διαφορετικά μοντέλα. Το μοντέλο στο οποίο θα επικεντρωθώ είναι το μοντέλο αξιοπιστίας μας. Όπως ανέφερα προηγουμένως, έχουμε δημιουργήσει ένα μοντέλο που εφαρμόζει το πλαίσιο σε κάθε σημείο δεδομένων, και αυτό το πλαίσιο προέρχεται από τους παρόχους δεδομένων. Ενδεχομένως, υπάρχουν δύο ή τρεις διαφορετικοί πάροχοι με διαφορετικές τιμές για αυτό το σημείο δεδομένων, οπότε αναρωτιόμαστε: Ποιο είναι το ιστορικό αυτών των δεδομένων; Εννοώντας, για παράδειγμα, τις εκπομπές Scope 1 πέρυσι, πριν από δύο χρόνια, πριν από τρία χρόνια ως εταιρεία, και το πλαίσιο του κλάδου: δεδομένης της βιομηχανίας στην οποία δραστηριοποιείστε, ποιες είναι οι φυσιολογικές τιμές για εσάς; Εφαρμόζουμε όλες αυτές τις πληροφορίες ως χαρακτηριστικά σε ένα μοντέλο μηχανικής μάθησης που μας επιτρέπει να εξάγουμε για κάθε σημείο δεδομένων πόσο πιθανό είναι να είναι σωστό αυτό το σημείο δεδομένων για μια δεδομένη εταιρεία.
Chris Ciompi: Και πόσο περίπλοκο θα ήταν να κάνετε αυτό που μόλις περιγράψατε χωρίς τεχνητή νοημοσύνη;
Ron Potok: Η αξία της τεχνητής νοημοσύνης ή των τεχνικών μηχανικής μάθησης, γενικά, είναι να εξαρτώνται από πολλές διαφορετικές πτυχές ταυτόχρονα. Έτσι, αν δημιουργήσετε κανόνες όπως σε ένα σύστημα βασισμένο σε κανόνες, θα έχετε πολλές "δηλώσεις if" που είναι ανεξάρτητες η μία από την άλλη. Αντίθετα, αυτό που κάνει ένα μοντέλο είναι να κατανοεί το πλαίσιο όλων αυτών των αποφάσεων και ποια είναι η πιθανότητα επιτυχίας με βάση όλες αυτές τις πληροφορίες ταυτόχρονα. Είναι σίγουρα εφικτό να γίνει με ευρετικούς κανόνες, αλλά γίνεται πολύ γρήγορα μη ελκυστικό, και γι' αυτό κατασκευάζουμε μοντέλα. Η πολυπλοκότητα γίνεται δυσκολοκατάλυτη, και τα αποτελέσματα αλληλεπίδρασης μεταξύ των χαρακτηριστικών γίνονται δυσκολοκατάλυτα για τους ανθρώπους να γράψουν κανόνες.
Chris Ciompi: Ciompi: Τέλεια. Σε ευχαριστώ, Ron. Patricia, πώς η ακρίβεια των δεδομένων συμβάλλει στην προώθηση της καινοτομίας των προϊόντων στο Clarity AI;
Patricia Pina: Όταν σκέφτομαι πώς η ακρίβεια μας βοηθάει να καινοτομήσουμε, σκέφτομαι διάφορα κομμάτια. Πρώτα απ' όλα, θέλουμε να διασφαλίσουμε ότι έχουμε έναν γρήγορο βρόχο ανατροφοδότησης με τους πελάτες μας όσον αφορά την ακρίβεια. Για να το πετύχουμε αυτό, έχουμε θέσει σε λειτουργία κανάλια και εργαλεία για να μπορούν οι πελάτες να αμφισβητούν οποιοδήποτε σημείο δεδομένων. Στη συνέχεια, τους επιστρέφουμε με πλήρη εξήγηση των δεδομένων. Το άλλο κομμάτι είναι το πώς μπορούμε να γίνουμε πιο εξελιγμένοι και πιο έξυπνοι με τους αλγορίθμους και τους ελέγχους. Ένας τρόπος για να γίνει αυτό είναι η ενσωμάτωση αυτών των αλγορίθμων στην αρχή της ροής των δεδομένων, ώστε να εντοπίζονται τυχόν προβλήματα στην ακρίβεια πολύ νωρίς στη διαδικασία και σε πραγματικό χρόνο, να παρέχεται ανατροφοδότηση σε όποιον συλλέγει τα δεδομένα και να προσαρμόζεται ώστε να παραδίδονται στους πελάτες μας τα υψηλότερης ποιότητας δεδομένα χωρίς καθυστέρηση.
Chris Ciompi: Πώς επηρεάζει αυτό την καινοτομία;
Patricia Pina: Στο σύστημα συλλογής δεδομένων, τόσο για την εξαγωγή όσο και για την επικύρωση των δεδομένων, ενσωματώνουμε αλγόριθμους. Το άτομο που συλλέγει τα δεδομένα θα λαμβάνει ειδοποιήσεις σε πραγματικό χρόνο εάν κάποιο από τα δεδομένα φαίνεται λανθασμένο με βάση όσα γνωρίζουμε για την εταιρεία, καθώς και άλλα δεδομένα που έχουμε συλλέξει στο παρελθόν. Θα κάνουμε όλους αυτούς τους ελέγχους σε πραγματικό χρόνο και θα παρέχουμε ανατροφοδότηση στην εταιρεία που συλλέγει τα δεδομένα. Εάν υπάρχουν λάθη, θα διορθώνονται εκείνη τη στιγμή, ώστε να διασφαλίζεται η ακρίβεια από την αρχή.
Chris Ciompi: Ντιέγκο που ανέφερε ο Χουάν Ντιέγκο νωρίτερα;
Patricia Pina: Ναι, ακριβώς.
Chris Ciompi: Ciompi: Το έπιασα. Έτσι, αυτό επαναφέρει αυτό που είπε ο Juan Diego σχετικά με το στόχο για ακρίβεια 99% και άνω. Είναι ένας από τους τρόπους. Ángel, πώς επηρεάζει το επίπεδο ακρίβειας των δεδομένων στο Clarity AI τις δυνατότητες της τεχνολογικής πλατφόρμας;
Ángel Agudo: Η παροχή των σωστών δεδομένων και η οικοδόμηση εμπιστοσύνης με τους πελάτες μας είναι ζωτικής σημασίας. Οι πελάτες συχνά συγκρίνουν διαφορετικές πηγές δεδομένων για τον ίδιο σκοπό και ενδέχεται να διαπιστώσουν διαφορές. Πρέπει να τους δείξουμε πώς μπορούν να διακρίνουν ποια δεδομένα είναι σωστά και ποια λάθος. Η επεξηγηματικότητα είναι το κλειδί για την οικοδόμηση εμπιστοσύνης, οπότε πρέπει να επικοινωνούμε την εργασία μας με τα δεδομένα και τις διορθώσεις μας με τρόπο που να δημιουργεί αυτή την εμπιστοσύνη. Η συλλογή δεδομένων σε πραγματικό χρόνο και οι έλεγχοι ποιότητας μας καθιστούν πολύ αποτελεσματικούς, και η πλατφόρμα πρέπει να μεταφέρει αυτές τις πληροφορίες για την οικοδόμηση εμπιστοσύνης.
Chris Ciompi: Ciompi: Σας ευχαριστώ όλους! Ευχαριστούμε για τη σπουδαία συζήτηση σχετικά με αυτή τη διάσταση της ποιότητας των δεδομένων - την ακρίβεια.