Spotlight: Datenqualität - Dimension 3, Genauigkeit

Datenqualität 22. Mai 2023 Ángel Agudo, Patricia Pina, Juan Diego Martin, Ron Potok, Chris Ciompi

Eine Interviewreihe mit dem Clarity AI Executive Team über die 8 Dimensionen der Datenqualität

Wie wird sichergestellt, dass die Daten von Clarity AI von höchster Qualität sind?

Clarity AI verwendet einen achtdimensionalen Rahmen, um sicherzustellen, dass die Daten von höchster Qualität sind. Diese Dimensionen sind Erfassungsgrad, Frische / Aktualität, Genauigkeit, Datenaktualisierung, Erklärbarkeit, Konsistenz, Zeitpunkt und Feedback. In dieser Reihe von Interviews mit Führungskräften von Clarity AI wird jede dieser Dimensionen erforscht und erläutert. Clarity AIDas Expertenteam des Unternehmens entwickelt wissenschaftliche und evidenzbasierte Methoden, die dann leistungsstarke, skalierbare künstliche Intelligenz (z. B. maschinelles Lernen) nutzen, um bestehende Datensätze zu sammeln, zu bereinigen, zu analysieren und zu erweitern, um die Sustainability-Tech-Plattform zu betreiben oder direkt in die bestehenden Arbeitsabläufe der Nutzer zu integrieren.

Dimension 3 - Genauigkeit

Clarity AIÁngel Agudo, VP of Product, Patricia Pina, Head of Product Research & Innovation, Juan Diego Martin, Head of Data Strategy, und Ron Potok, Head of Data Science, diskutieren mit Chris Ciompi, Chief Marketing Officer von Clarity AI, über die kritische Dimension der Genauigkeit und deren Beziehung zur Datenqualität. Die Gruppe diskutierte, wie ein Datenerfassungssystem Algorithmen nutzen kann, um die Datengenauigkeit zu verbessern. Das System würde Algorithmen verwenden, um Daten zu extrahieren und zu überprüfen, und dann Echtzeitwarnungen an die Datensammler geben, wenn etwas nicht stimmt. Dies würde dazu beitragen, die Genauigkeit der Daten von Anfang an sicherzustellen und das Vertrauen der Kunden zu stärken. Außerdem sprach die Gruppe die Bedeutung der Erklärbarkeit für die Vertrauensbildung und die Unterscheidung zwischen korrekten und falschen Daten an. Insgesamt betonte die Gruppe die Notwendigkeit eines effizienten, genauen und transparenten Datenerhebungssystems, um Vertrauen bei den Kunden aufzubauen und qualitativ hochwertige Daten und damit Ergebnisse zu gewährleisten.

Chris Ciompi: Hallo und vielen Dank, dass Sie wieder an den Tisch gekommen sind, um über eine weitere Dimension der Datenqualität zu sprechen. Lassen Sie uns über Genauigkeit sprechen. Also, noch einmal zu Ángel. Bitte definieren Sie die Genauigkeit im Zusammenhang mit der Datenqualität.

Ángel Agudo: Wir nutzen verschiedene Technologien wie die Verarbeitung natürlicher Sprache (NLP), um Daten aus Berichten effizient zu erfassen. Diese Daten werden in Echtzeit einer Zusammenstellung von Algorithmen unterzogen, die sie mit anderen Dimensionen des Unternehmens, im Zeitverlauf und mit anderen Unternehmen der Branche vergleichen, um mögliche Fehler zu erkennen. Um dies zu erreichen, werden die Algorithmen mit den Ansichten von Nachhaltigkeitsexperten trainiert, die jeden Datenpunkt mit einer starken theoretischen Unterstützung hinterfragen. Je nach Ergebnis kann der Datenpunkt als richtig angesehen werden, oder es ist eine erneute Prüfung durch einen Menschen erforderlich, um den Sachverhalt zu bewerten. In manchen Fällen wird der gemeldete Datenpunkt geliefert, aber durch einen angepassten Wert ergänzt, um ein besseres Bild von der Realität des Unternehmens zu erhalten. All dies stellt sicher, dass Clarity AI die höchste Datenqualität auf dem Markt bietet, was die Genauigkeit angeht.

Chris Ciompi: Ich danke Ihnen. Patricia, warum ist Genauigkeit für die Verbraucher von Nachhaltigkeitsdaten wichtig?

Patricia Pina: Nachhaltigkeitsdaten werden verwendet, um Entscheidungen zu treffen. Wenn man die falschen Daten hat, trifft man auch die falschen Entscheidungen. Die Genauigkeit ist also entscheidend. Sie ist die Grundlage, der Baustein für alles andere. Um diesen Punkt zu verdeutlichen: Wenn wir uns die Daten zu CO2-Emissionen ansehen, die zufällig sowohl die am häufigsten gemeldete als auch die am häufigsten verwendete Kennzahl in der Branche sind, und uns auf die gemeldeten Daten konzentrieren, die die stabilsten und ausgereiftesten Daten auf dem Markt sind, sehen wir sehr unterschiedliche Zahlen auf dem Markt. Unsere Untersuchung ergab, dass in 40 % der Fälle die von den Datenanbietern für diese Unternehmen angegebenen Zahlen nicht übereinstimmten. Die Beseitigung dieser Diskrepanzen ist wichtig, da sie einen großen Unterschied in den Berechnungen und Berichten machen, die die Marktteilnehmer zur Information über die Emissionen ihrer Finanzprodukte verwenden. Sie können den Kohlenstoff-Fußabdruck um bis zu 20 % und sogar noch mehr vergrößern. Und um die 20 % in die richtige Perspektive zu rücken: 7 % ist der jährliche Rückgang, den wir anstreben müssen, um das Pariser Ziel zu erreichen. 20-30 % sind also sehr bedeutende Zahlen.

Chris Ciompi: Ich danke Ihnen. Ich möchte ein wenig auf das Beispiel und auf die Pariser Ausrichtung eingehen. Wenn Sie "Paris Alignment" sagen, meinen Sie die Ziele für 2030 und 2050, richtig?

Patricia Pina: Ja, ich beziehe mich auf die Dekarbonisierungsrate, die wir brauchen, um die Ziele für 2030 und 2050 zu erreichen.

Chris Ciompi: Okay, ausgezeichnet. Ich danke Ihnen. Juan Diego, wie genau sind die Daten über die gesamte Bandbreite der Berichterstattung von Clarity AI?

Juan Diego Martín: Wir arbeiten daran, eine Genauigkeit von über 99 % bei unseren Daten zu erreichen. Und um das zu erreichen, wenden wir eine Strategie an, die wir "vier Verteidigungsebenen" nennen. Die erste sind sehr strenge Service-Level-Vereinbarungen mit allen am Prozess Beteiligten. Die zweite ist die Technologie, die es uns ermöglicht, Anomalien so schnell wie möglich zu erkennen, und wir verfügen über vier Hauptressourcen für diese Verantwortung: Heuristiken, konkurrierende Ansätze, Genauigkeitsprüfungen unter Verwendung von NLP-Techniken (Natural Language Processing) und die Validierung durch Dritte. Die dritte Verteidigungslinie ist die Validierung auf der Ebene der Master-Datenbank, die von allen unseren Modulen genutzt wird, so dass alle Daten, die in die Plattform eingespeist werden, zusätzliche Qualitätskontrollen durchlaufen. Die vierte erfolgt auf Modulebene, wo spezielle Teams für jedes unserer Produkte überprüfen, ob die Daten die höchstmögliche Qualität aufweisen und bereit sind, an den Kunden geliefert zu werden.

Chris Ciompi: Vielen Dank, und ich denke, Ron, da ist wahrscheinlich einiges an Futter für Sie dabei. Wie wird die Genauigkeit der Daten auf Clarity AI durch künstliche Intelligenz beeinflusst?

Ron Potok: Wie Patricia schon sagte, gibt es auf dem Markt Diskrepanzen zwischen den Datenanbietern für dieselben CO2-Emissionsdaten, was bedeutet, dass zwei verschiedene Anbieter unterschiedliche CO2-Emissionen für dasselbe Unternehmen angeben können. Bei Clarity AI verfolgen wir einen statistischen Ansatz. Wir beziehen Daten von mehreren Anbietern, damit wir sie untersuchen und nutzen können, um möglichst genaue Nachhaltigkeitsdaten zu erhalten. Als Statistiker würden Sie vielleicht verschiedene Meinungen über Nachhaltigkeit zusammenfassen wollen. Aber das ist hier nicht der Ansatz. Wir glauben nicht, dass die CO2-Emissionen eines Unternehmens in einem bestimmten Jahr eine Meinung sind. Wir glauben, dass es eine Tatsache ist und dass es eine richtige und eine falsche Antwort gibt. Stattdessen haben wir eine KI-Technologie entwickelt, mit deren Hilfe wir feststellen können, ob jeder Datenpunkt korrekt ist oder nicht. Die Art der Informationen, die wir zur Bestimmung der Genauigkeit verwenden, ist der Kontext, den wir zu jedem Datenpunkt hinzufügen. Dieser Kontext können Daten sein, die das Unternehmen zuvor gemeldet hat, oder normale Werte innerhalb der Branche. Auf diese Weise stellen wir sicher, dass jeder Datenpunkt, den wir an den Kunden weitergeben, angemessen ist und in seinem Kontext steht. Es gibt zahlreiche andere Möglichkeiten, wie wir die Qualität während des gesamten Prozesses sicherstellen, aber das Besondere an Clarity AI ist die Tatsache, dass wir Zugang zu vielen verschiedenen Anbietern haben und dass wir Modelle entwickelt haben, die es uns ermöglichen, jedem Datenpunkt ein Konfidenzniveau zuzuweisen, um zu bestimmen, wie sicher wir sind, dass dieser Datenpunkt korrekt ist, unabhängig davon, woher er stammt.

Chris Ciompi: Können Sie zu den Modellen ein wenig erklären, wie die KI funktioniert, die diese Modelle antreibt, um die Genauigkeit positiv zu beeinflussen?

Ron Potok: Wir haben mehrere verschiedene Modelle. Das Modell, auf das ich mich konzentrieren werde, ist unser Zuverlässigkeitsmodell. Wie ich bereits erwähnt habe, haben wir ein Modell entwickelt, das jedem Datenpunkt einen Kontext zuordnet, und dieser Kontext stammt von den Datenanbietern. Möglicherweise gibt es zwei oder drei verschiedene Anbieter mit unterschiedlichen Werten für diesen Datenpunkt, so dass wir uns fragen: Was ist die Geschichte dieser Daten? Das heißt, zum Beispiel Ihre Scope-1-Emissionen im letzten Jahr, vor zwei Jahren, vor drei Jahren als Unternehmen, und der Kontext der Branche: Was sind normale Werte für Sie, wenn man die Branche betrachtet, in der Sie tätig sind? Wir verwenden all diese Informationen als Merkmale in einem maschinellen Lernmodell, mit dem wir für jeden Datenpunkt ausgeben können, wie wahrscheinlich es ist, dass dieser Datenpunkt für ein bestimmtes Unternehmen korrekt ist.

Chris Ciompi: Und wie kompliziert wäre es, das, was Sie gerade beschrieben haben, ohne KI zu machen?

Ron Potok: Der Wert von KI oder maschinellen Lerntechniken besteht im Allgemeinen darin, viele verschiedene Aspekte gleichzeitig zu berücksichtigen. Wenn man also Regeln wie in einem regelbasierten System aufstellt, hätte man eine Menge "Wenn-Anweisungen", die voneinander unabhängig sind. Bei einem Modell hingegen geht es darum, den Kontext all dieser Entscheidungen zu verstehen und die Erfolgswahrscheinlichkeit auf der Grundlage all dieser Informationen gleichzeitig zu ermitteln. Mit heuristischen Regeln ist das sicherlich machbar, aber es wird sehr schnell unattraktiv, und deshalb entwickeln wir Modelle. Die Komplexität wird unüberschaubar, und die Wechselwirkungen zwischen den Merkmalen sind für den Menschen nicht mehr zu bewältigen, um Regeln aufzuschreiben.

Chris Ciompi: Perfekt. Vielen Dank, Ron. Patricia, wie trägt die Datengenauigkeit zur Produktinnovation bei Clarity AI bei?

Patricia Pina: Wenn ich darüber nachdenke, wie Genauigkeit uns hilft, innovativ zu sein, denke ich an verschiedene Aspekte. Zunächst einmal wollen wir sicherstellen, dass wir eine schnelle Feedbackschleife mit unseren Kunden haben, wenn es um die Genauigkeit geht. Zu diesem Zweck haben wir Kanäle und Tools eingerichtet, mit denen unsere Kunden jeden Datenpunkt anfechten können. Dann melden wir uns bei ihnen mit einer ausführlichen Erläuterung der Daten zurück. Ein weiterer Aspekt ist die Frage, wie wir unsere Algorithmen und Überprüfungen noch ausgefeilter und intelligenter gestalten können. Eine Möglichkeit besteht darin, diese Algorithmen gleich zu Beginn des Datenflusses zu integrieren, um potenzielle Probleme bei der Genauigkeit sehr früh im Prozess und in Echtzeit zu erkennen, denjenigen, die die Daten sammeln, Feedback zu geben und sie anzupassen, um unseren Kunden ohne Verzögerung Daten von höchster Qualität zu liefern.

Chris Ciompi: Wenn Sie "in Echtzeit" sagen, wie wirkt sich das auf die Innovation aus?

Patricia Pina: In unser Datenerfassungssystem integrieren wir sowohl für die Datenextraktion als auch für die Validierung Algorithmen. Die Person, die die Daten sammelt, wird in Echtzeit gewarnt, wenn die Daten auf der Grundlage dessen, was wir über das Unternehmen wissen, sowie auf der Grundlage anderer Daten, die wir in der Vergangenheit gesammelt haben, falsch erscheinen. Wir führen all diese Prüfungen in Echtzeit durch und geben dem Unternehmen, das die Daten erfasst, ein Feedback. Wenn es Fehler gibt, werden sie in diesem Moment korrigiert, um die Genauigkeit von Anfang an zu gewährleisten.

Chris Ciompi: Das ist also eine Möglichkeit, die von Juan Diego erwähnte Genauigkeit von über 99 % zu erreichen?

Patricia Pina: Ja, genau.

Chris Ciompi: Verstehe. Damit komme ich auf das zurück, was Juan Diego über die angestrebte Genauigkeit von 99 % plus gesagt hat. Das ist eine der Möglichkeiten. Ángel, wie beeinflusst der Grad der Datengenauigkeit auf Clarity AI die Möglichkeiten der technischen Plattform?

Ángel Agudo: Die Bereitstellung der richtigen Daten und der Aufbau von Vertrauen bei unseren Kunden sind entscheidend. Die Kunden vergleichen oft verschiedene Datenquellen für denselben Zweck und stellen möglicherweise Unterschiede fest. Wir müssen ihnen zeigen, wie sie unterscheiden können, welche Daten richtig und welche falsch sind. Erklärbarkeit ist der Schlüssel zum Aufbau von Vertrauen, daher müssen wir unsere Datenarbeit und -korrekturen auf eine Weise kommunizieren, die dieses Vertrauen stärkt. Unsere Datenerfassung und Qualitätsprüfungen in Echtzeit machen uns sehr effizient, und die Plattform sollte diese Informationen vermitteln, um Vertrauen zu schaffen.

Chris Ciompi: Vielen Dank an alle! Danke für die tolle Diskussion über diese Dimension der Datenqualität - die Genauigkeit.

Geben Sie Ihre E-Mail-Adresse ein, um mehr zu erfahren