Foco de atención: Calidad de los datos - Dimensión 3, Precisión

Calidad de datos 22 de mayo de 2023 Ángel Agudo, Patricia Pina, Juan Diego Martin, Ron Potok, Chris Ciompi

Serie de entrevistas con el equipo ejecutivo de Clarity AI sobre las 8 dimensiones de la calidad de datos

¿Cómo garantiza Clarity AI que sus datos son de la máxima calidad?

Clarity AI utiliza un marco de 8 dimensiones para garantizar la máxima calidad de los datos. Estas dimensiones son: cobertura, actualidad, exactitud, actualización de datos, explicabilidad, coherencia, puntualidad y retroalimentación. En esta serie de entrevistas con ejecutivos de Clarity AI , se explora y explica cada una de estas dimensiones. Clarity AIEl equipo de expertos de la empresa crea metodologías científicas y basadas en pruebas que luego aprovechan una inteligencia artificial potente y escalable (por ejemplo, el aprendizaje automático) para recopilar, limpiar, analizar y ampliar los conjuntos de datos existentes con el fin de impulsar su plataforma tecnológica de sostenibilidad o integrarla directamente en los flujos de trabajo existentes de los usuarios.

Dimensión 3 - Precisión

Clarity AIÁngel Agudo, Vicepresidente de Producto, Patricia Pina, Directora de Investigación e Innovación de Producto, Juan Diego Martín, Director de Estrategia de Datos, y Ron Potok, Director de Ciencia de Datos, discuten con Chris Ciompi, Director de Marketing de Clarity AI, la dimensión crítica de la precisión y su relación con la calidad de los datos. El grupo debatió cómo un sistema de recopilación de datos puede aprovechar los algoritmos para mejorar la precisión de los datos. El sistema utilizaría algoritmos para extraer y comprobar los datos, y luego alertaría en tiempo real a los encargados de recopilarlos si algo no cuadra. Esto ayudaría a garantizar la exactitud de los datos desde el principio y a generar confianza entre los clientes. Además, el grupo se refirió a la importancia de la explicabilidad para generar confianza y diferenciar los datos correctos de los incorrectos. En general, el grupo hizo hincapié en la necesidad de un sistema de recopilación de datos eficiente, preciso y transparente para generar confianza entre los clientes y garantizar la calidad de los datos y, por tanto, de los resultados.

Chris Ciompi: Hola a todos, y gracias por venir a la mesa de nuevo para charlar a través de otra dimensión de la calidad de los datos. Hablemos de la precisión. De nuevo Ángel. Por favor, define la precisión en relación con la calidad de los datos.

Ángel Agudo: Utilizamos diversas tecnologías, como el Procesamiento del Lenguaje Natural (PLN), para recopilar de forma eficiente los datos de los informes. Estos datos se someten a una compilación de algoritmos en tiempo real, que los compara con otras dimensiones de la empresa, a lo largo del tiempo y con otras empresas del sector para identificar posibles errores. Para ello, los algoritmos se entrenan con la visión de expertos en sostenibilidad, que cuestionan cada dato con un sólido soporte teórico. Dependiendo del resultado, el dato puede considerarse correcto, o puede ser necesario que un humano lo rectifique para evaluar la cuestión. En algunos casos, se puede proporcionar el dato comunicado, pero complementado con un valor ajustado, para ofrecer una mejor imagen de la realidad de la empresa. Todo ello garantiza que Clarity AI proporcione los datos de mayor calidad del mercado, desde el punto de vista de la precisión.

Chris Ciompi: Gracias. Patricia, ¿por qué es importante la precisión para los consumidores de datos de sostenibilidad?

Patricia Pina: Los datos sobre sostenibilidad se utilizan para tomar decisiones. Si se dispone de datos erróneos, se tomarán decisiones equivocadas. Por tanto, la precisión es fundamental. Es la base, la pieza fundamental de todo lo demás. Y sólo para ilustrar este punto: si nos fijamos en los datos de emisiones de CO2, que resulta ser tanto la métrica más reportada como la más utilizada en la industria, y nos centramos en los datos reportados, que son los datos más estables y maduros del mercado, vemos cifras muy diferentes flotando en el mercado. Nuestra investigación reveló que en el 40% de los casos había discrepancias en las cifras ofrecidas por los proveedores de datos sobre esas empresas. Abordar estas discrepancias es importante porque supone una gran diferencia en los cálculos e informes que los participantes en el mercado utilizan para informar sobre las emisiones de sus productos financieros. Puede aumentar la huella de carbono hasta un 20%, e incluso más. Y para poner el 20% en perspectiva: el 7% es la disminución anual a la que debemos dirigirnos para cumplir el Alineamiento de París. Por tanto, entre un 20% y un 30% son cifras muy significativas.

Chris Ciompi: Gracias. Voy a insistir un poco en el ejemplo y en la Alineación de París. Cuando dices Alineación de París, te refieres a los objetivos de 2030 y 2050, ¿verdad?

Patricia Pina: Sí, me refiero a la tasa de descarbonización que necesitaríamos para alcanzar los objetivos de 2030 y 2050.

Chris Ciompi: Bueno, excelente. Muchas gracias. Juan Diego, ¿hasta qué punto son precisos los datos en toda la cobertura de Clarity AI?

Juan Diego Martín: Trabajamos para tener una precisión superior al 99% en nuestros datos. Y para ello empleamos una estrategia que llamamos "cuatro niveles de defensa". El primero son unos acuerdos de nivel de servicio muy estrictos, con todos los implicados en el proceso. El segundo es la tecnología, que nos permite detectar anomalías lo antes posible, y para ello contamos con cuatro activos principales: heurística, enfoques competidores, comprobaciones de precisión mediante técnicas de Procesamiento del Lenguaje Natural (PLN) y validación por terceros. La tercera línea de defensa es la validación a nivel de base de datos maestra, que utilizan todos nuestros módulos, de modo que todo lo que se va a introducir en la plataforma pasa por controles de calidad adicionales. La cuarta se realiza a nivel de módulo, donde equipos específicos para cada uno de nuestros productos validan que los datos sean de la mayor calidad posible y estén listos para ser entregados al cliente.

Chris Ciompi: Gracias, y creo que Ron, probablemente hay algo de forraje en allí para usted. ¿Cómo influye la inteligencia artificial en la precisión de los datos de Clarity AI ?

Ron Potok: Siguiendo con lo que ha dicho Patricia, hay discrepancias de proveedores de datos dentro del mercado para los mismos datos de emisiones de CO2, lo que significa que dos proveedores diferentes podrían estar dando diferentes emisiones de CO2 para la misma empresa. En Clarity AI adoptamos un enfoque estadístico. Nos abastecemos de datos de múltiples proveedores para poder estudiarlos y utilizarlos con el fin de obtener los datos de sostenibilidad más precisos. Como estadístico, es posible que quieras hacer una media de las distintas opiniones sobre sostenibilidad. Pero ese no es el planteamiento aquí. No creemos que las emisiones de CO2 de una empresa en un año determinado sean una opinión. Creemos que es un hecho y que hay una respuesta correcta y otra incorrecta. Así que, en lugar de eso, hemos creado una tecnología de IA que nos ayuda a determinar si cada dato es exacto o no. El tipo de información que utilizamos para determinar esa exactitud es el contexto, que añadimos a cada punto de datos. Ese contexto puede ser datos comunicados anteriormente por la empresa, o valores normales dentro del sector. Así nos aseguramos de que cada dato que entregamos al cliente es razonable y se da dentro de su contexto. Hay muchas otras formas de garantizar la calidad en todo el proceso, pero lo que hace especial a Clarity AI es que tenemos acceso a muchos proveedores distintos y que hemos creado modelos que nos permiten asignar un nivel de confianza a cada dato para determinar hasta qué punto estamos seguros de que es correcto, independientemente de su procedencia.

Chris Ciompi: En cuanto a los modelos, ¿puede explicar un poco cómo funciona la IA, potenciando esos modelos para influir positivamente en la precisión?

Ron Potok: Tenemos varios modelos diferentes. El modelo en el que me centraré es nuestro modelo de fiabilidad. Como he mencionado antes, hemos construido un modelo que aplica el contexto a cada punto de datos, y ese contexto proviene de los proveedores de datos. Potencialmente, hay dos o tres proveedores diferentes con diferentes valores para ese punto de datos, así que nos preguntamos: ¿Cuál es la historia de esos datos? Es decir, por ejemplo, sus emisiones de Alcance 1 el año pasado, hace dos años, hace tres años como empresa, y el contexto de la industria: dado el sector en el que se encuentra, ¿cuáles son los valores normales para usted? Aplicamos toda esa información como características de un modelo de aprendizaje automático que nos permite calcular, para cada punto de datos, la probabilidad de que ese punto de datos sea correcto para una empresa determinada.

Chris Ciompi: ¿Y cómo de complicado sería hacer lo que acabas de describir sin IA?

Ron Potok: El valor de la IA o de las técnicas de aprendizaje automático, en general, es condicionar muchos aspectos diferentes simultáneamente. Así, si estableciéramos reglas como en un sistema basado en reglas, tendríamos un montón de "sentencias if" independientes entre sí. En cambio, lo que hace un modelo es comprender el contexto de todas esas decisiones y cuál es la probabilidad de éxito en función de toda esa información al mismo tiempo. Ciertamente es factible hacerlo con reglas heurísticas, pero se vuelve poco atractivo muy rápidamente, y por eso construimos modelos. La complejidad se vuelve inabordable, y los efectos de interacción entre las características se vuelven inabordables para que los humanos escriban reglas.

Chris Ciompi: Perfecto. Gracias, Ron. Patricia, ¿cómo ayuda la precisión de los datos a impulsar la innovación de productos en Clarity AI?

Patricia Pina: Cuando pienso en cómo la precisión nos ayuda a innovar, pienso en diferentes aspectos. En primer lugar, queremos asegurarnos de que nuestros clientes nos informan rápidamente sobre la exactitud de los datos. Para ello, hemos creado canales y herramientas que permiten a los clientes cuestionar cualquier dato. Luego les damos una explicación completa de los datos. El otro aspecto es cómo podemos ser más sofisticados e inteligentes con algoritmos y comprobaciones. Una forma de hacerlo es integrar estos algoritmos al principio del flujo de datos para detectar posibles problemas de precisión en una fase muy temprana del proceso y en tiempo real, informar a quien esté recopilando los datos y ajustarlos para ofrecer a nuestros clientes datos de la máxima calidad sin demora.

Chris Ciompi: Cuando dice "en tiempo real", ¿cómo influye eso en la innovación?

Patricia Pina: En nuestro sistema de recogida de datos, tanto para la extracción de datos como para su validación, integramos algoritmos. La persona que recoja los datos recibirá alertas en tiempo real si alguno de los datos parece incorrecto basándonos en lo que sabemos de la empresa, así como en otros datos que hayamos recogido en el pasado. Haremos todas estas comprobaciones en tiempo real y proporcionaremos información a la empresa que recoge los datos. Si hay errores, se corregirán en ese momento para garantizar la precisión desde el principio.

Chris Ciompi: Entonces, ¿esta es una forma de lograr el 99% de precisión que Juan Diego mencionó antes?

Patricia Pina: Sí, exactamente.

Chris Ciompi: Entendido. Así que, esto está empujando de nuevo a lo que Juan Diego dijo acerca de apuntar a 99% más de precisión. Es una de las maneras. Ángel, ¿cómo influye el nivel de precisión de los datos en Clarity AI en las capacidades de la plataforma tecnológica?

Ángel Agudo: Proporcionar los datos adecuados y generar confianza con nuestros clientes es fundamental. Los clientes suelen comparar distintas fuentes de datos para el mismo fin y pueden encontrar diferencias. Tenemos que mostrarles cómo pueden diferenciar los datos correctos de los incorrectos. La explicabilidad es clave para generar confianza, por lo que debemos comunicar nuestro trabajo con los datos y las correcciones de forma que se genere esa confianza. Nuestra recogida de datos en tiempo real y nuestros controles de calidad nos hacen muy eficientes, y la plataforma debe transmitir esa información para generar confianza.

Chris Ciompi: ¡Gracias a todos! Gracias por el gran debate sobre esta dimensión de la calidad de los datos: la precisión.

Introduzca su dirección de correo electrónico para leer más