Spotlight: Datenqualität - Dimension 2, Frische

Datenqualität 8. Mai 2023 Ángel Agudo, Patricia Pina, Juan Diego Martin, Ron Potok, Chris Ciompi

Eine Interviewreihe mit dem Clarity AI Executive Team über die 8 Dimensionen der Datenqualität

Wie wird sichergestellt, dass die Daten von Clarity AI von höchster Qualität sind?

Clarity AI verwendet einen achtdimensionalen Rahmen, um sicherzustellen, dass die Daten von höchster Qualität sind. Diese Dimensionen sind Erfassungsgrad, Frische / Aktualität, Genauigkeit, Datenaktualisierung, Erklärbarkeit, Konsistenz, Zeitpunkt und Feedback. In dieser Reihe von Interviews mit Führungskräften von Clarity AI wird jede dieser Dimensionen erforscht und erläutert. Clarity AIDas Expertenteam des Unternehmens entwickelt wissenschaftliche und evidenzbasierte Methoden, die dann leistungsstarke, skalierbare künstliche Intelligenz (z. B. maschinelles Lernen) nutzen, um bestehende Datensätze zu sammeln, zu bereinigen, zu analysieren und zu erweitern, um die Sustainability-Tech-Plattform zu betreiben oder direkt in die bestehenden Arbeitsabläufe der Nutzer zu integrieren.

Dimension 2 - Frische

Clarity AIÁngel Agudo, VP of Product, Patricia Pina, Head of Product Research & Innovation, Juan Diego Martin, Head of Data Strategy, und Ron Potok, Head of Data Science, erörtern gemeinsam mit Chris Ciompi, Chief Marketing Officer von Clarity AI, die Bedeutung von Datenfrische, d. h. der Aktualität und Relevanz von Daten, für eine präzise und wirksame Entscheidungsfindung. Die Gruppe beleuchtete die impact der Datenfrische auf verschiedene Branchen und Anwendungsfälle. Sie diskutierten auch die Herausforderungen, die mit der Aufrechterhaltung der Datenfrische verbunden sind, wie z. B. Datensilos, Einschränkungen der Dateninfrastruktur und technische Schulden.

Die Podiumsteilnehmer betonten die Notwendigkeit einer Datenverwaltungsstrategie, die der Datenfrische Priorität einräumt. Dazu gehören Investitionen in die Dateninfrastruktur, die Festlegung klarer Data-Governance-Richtlinien und die Einbeziehung von maschinellem Lernen und KI-Technologien zur Automatisierung der Datenverarbeitung und zur Gewährleistung der Datengenauigkeit. Die Teilnehmer tauschten sich auch über die verschiedenen Dimensionen der Datenfrische aus, einschließlich Datenabdeckung, Häufigkeit und Latenzzeit, und diskutierten Strategien zur Optimierung jeder Dimension. Insgesamt betonte das Gremium die entscheidende Rolle der Datenfrische, die es Unternehmen ermöglicht, fundierte Entscheidungen zu treffen und positive impact zu erzielen. Außerdem wurde die Notwendigkeit fortlaufender Investitionen in Datenmanagement und -technologie unterstrichen, um sicherzustellen, dass die Datenfrische im Laufe der Zeit als entscheidende Komponente der Datenqualität erhalten bleibt.

Chris Ciompi: Hallo noch einmal an alle. Dieses Mal konzentrieren wir uns auf die Frische und ihre Beziehung zur Datenqualität. Ángel, können Sie zunächst definieren, was Frische im Zusammenhang mit Datenqualität bedeutet?

Ángel Agudo: Sicher. Für mich bedeutet Frische, dass die aktuellsten und klarsten Daten auf Clarity AI zur Verfügung stehen. Die spezifische Dienstleistungsvereinbarung (SLA) für die Aktualität sollte vom Markt festgelegt werden, aber sie sollte so schnell wie möglich erfolgen, damit wir den Nutzern relevante und zeitnahe Informationen anbieten können.

Patricia Pina: Ich stimme mit Ángel überein. Bei der Entscheidungsfindung ist der Zugang zu den neuesten Informationen entscheidend, insbesondere in einer Welt, in der sich die Dinge ständig ändern. Bei den Nachhaltigkeitsdaten zum Beispiel schreitet der Klimawandel schnell voran, und uns läuft die Zeit davon. Daher ist die Aktualität von entscheidender Bedeutung. Außerdem verpflichten sich die Unternehmen, ihre Emissionen zu reduzieren, und es ist wichtig, ihre Fortschritte zu verfolgen und sie für ihre Versprechen zur Rechenschaft zu ziehen. Um sicherzustellen, dass sie ihre Verpflichtungen einhalten, sind schnelle und aktuelle Daten über ihre Leistungen unerlässlich.

Chris Ciompi: Juan Diego, können Sie näher erläutern, wie Clarity AI die Aktualität der bereitgestellten Daten sicherstellt?

Juan Diego Martín: Sicherlich. Wir haben optimierte Prozesse eingerichtet, um die Aktualität der Daten zu gewährleisten. Erstens überwachen wir kontinuierlich, wann Unternehmen ihre öffentlichen Informationen aktualisieren und melden. Zweitens extrahieren und verarbeiten wir die Informationen mithilfe einer Kombination aus Technologie und Experten. In diesem Kreislauf führen wir auch Qualitätskontrollen durch, um zu verhindern, dass verdächtige Daten verarbeitet werden. Drittens verfügen wir über eine automatische Datenpipeline, die es uns ermöglicht, unseren Kunden die Informationen auf dem von ihnen bevorzugten Weg zur Verfügung zu stellen, z. B. über eine API für Datenfeeds. Außerdem bieten wir unseren Kunden ein Service-Terminal mit sehr häufigen Aktualisierungen an, wobei die häufigsten Aktualisierungen erfolgen, wenn eine neue Kontroverse entdeckt wird. Wir verarbeiten täglich strukturierte und unstrukturierte Informationen zu Kontroversen aus mehr als 1,4 Millionen Nachrichtenartikeln aus über 33.000 vertrauenswürdigen Nachrichtenquellen.

Chris Ciompi: Danke für die Erklärung, Juan Diego. Ich möchte mich auf den zweiten Punkt konzentrieren, den Sie vorhin erwähnt haben, nämlich die richtige Kombination aus Technologie und Experten. Könnten Sie dies näher erläutern?

Juan Diego Martín: Sicher. Wir nutzen zwar KI, um einen Großteil der Arbeit zu automatisieren, etwa um die richtigen Informationen ausfindig zu machen und zu extrahieren, aber es gibt Fälle, in denen die Informationen über den gesamten Bericht verteilt sind. So können beispielsweise Mitarbeiterdaten in verschiedenen Tochtergesellschaften enthalten sein, und Emissionen können in verschiedenen Abschnitten pro Geschäftsbereich offengelegt werden. In solchen Fällen brauchen wir Experten, um die automatisch extrahierten Informationen zu verstehen und sicherzustellen, dass die aggregierten Daten korrekt sind und die Erwartungen unserer Kunden erfüllen.

Chris Ciompi: Ich danke Ihnen. Ron, wie beeinflusst die künstliche Intelligenz die Aktualität der Daten auf Clarity AI?

Ron Potok: Nun, wie Juan Diego bereits erwähnte, können Computer heutzutage ziemlich gut lesen und sehen. Wir können uns diese Technologien zunutze machen, um schnell und effizient Daten zu sammeln. Wir stellen jedoch Finanzdaten zur Verfügung, um finanzielle Entscheidungen zu treffen, was bedeutet, dass die Daten sehr genau sein müssen. Statistische Modelle können niemals eine 100%ige Genauigkeit erreichen, daher ist eine Kombination aus Computern und Menschen notwendig, um sowohl Effizienz als auch Genauigkeit zu gewährleisten. Wir brauchen beides, um sicherzustellen, dass unsere Kunden schnell und in hoher Qualität mit Daten versorgt werden.

Chris Ciompi: Das macht Sinn. Haben Sie interessante Beispiele dafür, wie Clarity AI Techniken des maschinellen Lernens bei der Datenextraktion einsetzt?

Ron Potok: Ja, wir haben einen weiteren Fall, der mit unseren Schätzungsmodellen zusammenhängt. Bei Unternehmen, die ihre Nachhaltigkeitsinformationen nicht veröffentlichen, können wir keine KI einsetzen, um ihre Daten zu extrahieren. Wir können jedoch recht schnell Finanzinformationen für jedes Geschäftsjahr erhalten, da die Unternehmen diese Informationen im Allgemeinen schnell offenlegen. Wir könnten die Emissionen dieser Unternehmen schnell schätzen, aber wir entscheiden uns dagegen. Wir warten, bis die Unternehmen mit der Veröffentlichung ihrer Nachhaltigkeitsdaten beginnen, damit wir sicherstellen können, dass unsere Modelle für jedes neue Jahr, in dem Daten eingehen, richtig kalibriert sind. Wir warten darauf, dass neue Daten gemeldet werden, bevor wir unsere neuen Schätzungen herausgeben, um sicherzustellen, dass sich die Welt nicht verändert hat und das Schätzmodell überarbeitet werden muss. Wir führen jedes Jahr eine zusätzliche Qualitätskontrolle durch.

Chris Ciompi: Das ist interessant. Der Grund für das Warten ist also, dass die Modelle aus der Geschichte lernen, und wenn die Vergangenheit nicht mehr repräsentativ für die Gegenwart ist, müssen wir das berücksichtigen?

Ron Potok: Ganz genau. Die Modelle lernen aus der Geschichte, und wenn die Vergangenheit kein perfekter Prädiktor für die Zukunft mehr ist, müssen wir unsere Modelle kontinuierlich anpassen, um die Gegenwart genau vorherzusagen. Wir erwarten Innovationen im Bereich der Umweltkomponenten, also erwarten wir, dass sich die Welt im Laufe der Zeit verändert, und die Vergangenheit wird nicht immer ein perfekter Prädiktor für die Zukunft sein. Wir müssen unsere Modelle kontinuierlich anpassen, um sicherzustellen, dass sie die Gegenwart genau vorhersagen.

Chris Ciompi: Das ist großartig. Können die Modelle lernen und sich mit der Zeit anpassen?

Ron Potok: Ja, die Modelle können lernen, welche Merkmale die Veränderungen bewirken. Wir können das Modell so intelligent machen, dass es die Veränderungen versteht, von denen wir wissen, dass sie kommen werden. Wir können Raum für neue Technologien lassen und KI einsetzen, um die Dinge effizienter zu machen. Wir können Merkmale vorhersagen, die in die Zukunft gerichtet sind. Wenn ein Land zum Beispiel sagt, dass es in drei Jahren aus der Kohleverstromung aussteigen wird, können wir diese Information in unsere Modelle einfließen lassen, um zu wissen, was in drei Jahren passieren wird.

Chris Ciompi: Das macht Sinn. Danke, Ron. Patricia, wie trägt die Aktualität der Daten zur Produktinnovation bei Clarity AI bei?

Patricia Pina: Auf Clarity AIbemühen wir uns, alternative Quellen für relevante Daten zu finden, die früher verfügbar sind als die Daten, die von den Unternehmen einmal im Jahr veröffentlicht werden, in der Regel einige Monate nach Ablauf des entsprechenden Berichtszeitraums. Wir verwenden beispielsweise Echtzeit-Satellitendaten, um zu ermitteln, wie viel die Unternehmen emittieren, anstatt anderthalb Jahre zu warten, um zu wissen, was heute passiert ist. So können wir unseren Nutzern aktuellere Daten zur Verfügung stellen.

Chris Ciompi: Welchen Einfluss hat die Aktualität der Daten auf Clarity AI auf die Möglichkeiten der Technologieplattform?

Ángel Agudo: Die Aktualität der Daten ist für unsere Nutzer entscheidend, damit sie fundierte Entscheidungen treffen können. So können wir zeigen, dass die aktuellsten Informationen enthalten sind, was für die Erklärbarkeit wichtig ist. Unser Ziel ist es, die Daten so effizient wie möglich zu veröffentlichen und sie den Nutzern zur Verfügung zu stellen. Indem wir Daten erfassen und schneller aktualisieren, können wir den Nutzern zeigen, wie schnell neue Informationen verfügbar sind, und ihnen helfen, ihre Entscheidungen proaktiv zu treffen.

Juan Diego Martín: Dank unserer Fähigkeit zu erkennen, wann jedes Jahr neue Informationen veröffentlicht werden, können wir vorhersagen, wann die Informationen verfügbar sein werden, und unsere Aktualisierungsprozesse rationalisieren. Das ist wertvoll für unsere Kunden, denn sie können planen, wann die von ihnen benötigten Informationen in unserem Produkt verfügbar sein werden.

Ángel Agudo: Alle von uns erwähnten Aspekte wie Datengenauigkeit, -vollständigkeit und -aktualität sind für unsere Nutzer wichtig, um fundierte Entscheidungen treffen zu können. Es mag zwar komplex sein, dies zu erreichen, aber wir sind innovativ und bieten einen Mehrwert, weil diese Dimensionen für die Entscheidungsfindung wichtig sind. Ohne die richtigen Daten oder mit Fehlern in den Daten treffen die Nutzer möglicherweise nicht die richtigen Entscheidungen.

Chris Ciompi: Das macht natürlich Sinn, aber lassen Sie uns vorerst auf die Dimension der Frische in Bezug auf die Datenqualität zurückkommen. Haben Sie noch etwas zum Abschluss zu sagen?

Patricia Pina: Der letzte Punkt, den ich ansprechen wollte, ist, dass einige Kunden erhebliche Ressourcen, Anstrengungen und Zeit mit Anbietern von Nachhaltigkeitsdaten investieren mussten, um die Daten zu bereinigen und ihre Aktualität zu gewährleisten, um sicherzustellen, dass sie die richtigen Daten für ihre Bedürfnisse kaufen. Wir hingegen sorgen proaktiv dafür, dass unsere Kunden keine kostspieligen und unnötigen Prozesse durchlaufen müssen.

Chris Ciompi: Vielen Dank an alle!

Geben Sie Ihre E-Mail-Adresse ein, um mehr zu erfahren

Demo anfordern