En el punto de mira: Calidad de los datos - Dimensión 2, frescura

Calidad de datos 8 de mayo de 2023 Ángel Agudo, Patricia Pina, Juan Diego Martin, Ron Potok, Chris Ciompi

Serie de entrevistas con el equipo ejecutivo de Clarity AI sobre las 8 dimensiones de la calidad de datos

¿Cómo garantiza Clarity AI que sus datos son de la máxima calidad?

Clarity AI utiliza un marco de 8 dimensiones para garantizar la máxima calidad de los datos. Estas dimensiones son: cobertura, actualidad, exactitud, actualización de datos, explicabilidad, coherencia, puntualidad y retroalimentación. En esta serie de entrevistas con ejecutivos de Clarity AI , se explora y explica cada una de estas dimensiones. Clarity AIEl equipo de expertos de la empresa crea metodologías científicas y basadas en pruebas que luego aprovechan una inteligencia artificial potente y escalable (por ejemplo, el aprendizaje automático) para recopilar, limpiar, analizar y ampliar los conjuntos de datos existentes con el fin de impulsar su plataforma tecnológica de sostenibilidad o integrarla directamente en los flujos de trabajo existentes de los usuarios.

Dimensión 2 - Frescura

Clarity AIÁngel Agudo, Vicepresidente de Producto, Patricia Pina, Directora de Investigación e Innovación de Producto, Juan Diego Martín, Director de Estrategia de Datos, y Ron Potok, Director de Ciencia de Datos, debaten con Chris Ciompi, Director de Marketing de Clarity AI, sobre la importancia de la actualidad de los datos para tomar decisiones precisas e impactantes. El grupo destacó el impacto de la actualidad de los datos en diversos sectores y casos de uso. También debatieron los retos que plantea mantener la frescura de los datos, como los silos de datos, las limitaciones de la infraestructura de datos y la deuda técnica.

Los panelistas destacaron la necesidad de una estrategia de gestión de datos que priorice la frescura de los datos, incluida la inversión en infraestructura de datos, el establecimiento de políticas claras de gobernanza de datos y la incorporación de tecnologías de aprendizaje automático e IA para automatizar el procesamiento de datos y garantizar su exactitud. Los participantes también compartieron puntos de vista sobre las diferentes dimensiones de la frescura de los datos, incluida la cobertura, la frecuencia y la latencia de los datos, y debatieron estrategias para optimizar cada dimensión. En general, el panel hizo hincapié en el papel fundamental de la frescura de los datos para permitir a las organizaciones tomar decisiones informadas e impulsar un impacto positivo y subrayó la necesidad de una inversión continua en gestión de datos y tecnología para garantizar que la frescura de los datos se mantenga en el tiempo como un componente crítico de la calidad de los datos.

Chris Ciompi: Hola de nuevo a todos. Esta vez nos centraremos en la frescura y su relación con la calidad de los datos. Ángel, ¿puedes empezar definiendo la frescura en relación con la calidad de los datos?

Ángel Agudo: Claro. Para mí, frescura significa disponer de los datos más actualizados y claros en Clarity AI. El acuerdo de nivel de servicio (SLA) específico para la frescura debe definirlo el mercado, pero debe ser lo antes posible, para que podamos ofrecer información relevante y oportuna a los usuarios.

Patricia Pina: Estoy de acuerdo con Ángel. En la toma de decisiones, tener acceso a la información más reciente es fundamental, sobre todo en un mundo en el que las cosas cambian constantemente. Con los datos sobre sostenibilidad, por ejemplo, el cambio climático se está produciendo rápidamente, y nos estamos quedando sin tiempo. Por tanto, la frescura es esencial. Además, las empresas se comprometen a reducir las emisiones, y es crucial seguir sus progresos y hacerles responsables de sus promesas. Por tanto, obtener datos rápidos y actualizados sobre su rendimiento es crucial para garantizar que cumplen sus compromisos.

Chris Ciompi: Juan Diego, ¿puedes dar más detalles sobre cómo Clarity AI garantiza la frescura de los datos que proporciona?

Juan Diego Martín: Desde luego. Hemos racionalizado los procesos para garantizar la frescura de los datos. En primer lugar, controlamos continuamente cuándo las empresas actualizan su información pública y la comunican. En segundo lugar, extraemos y procesamos la información utilizando una combinación de tecnología y expertos. También aplicamos controles de calidad en el mismo bucle para evitar que se procese cualquier dato sospechoso. En tercer lugar, disponemos de un conducto de datos de ingestión automática que nos permite poner la información a disposición de nuestros clientes a través de los medios que prefieran, como la API de alimentación de datos. Además, ofrecemos un terminal de servicios a nuestros clientes con actualizaciones muy frecuentes, siendo las más frecuentes cuando se detecta una nueva controversia. Procesamos diariamente información estructurada y no estructurada sobre controversias procedente de más de 1,4 millones de artículos de noticias de más de 33.000 fuentes de noticias de confianza.

Chris Ciompi: Gracias por la explicación, Juan Diego. Me gustaría centrarme en el segundo punto que has mencionado antes, sobre la combinación adecuada de tecnología y expertos. ¿Podrías dar más detalles al respecto?

Juan Diego Martín: Claro. Aunque utilizamos la IA para automatizar la mayor parte del trabajo, como localizar la información adecuada y extraerla, hay casos en los que la información está repartida por todo el informe. Por ejemplo, los datos de los empleados pueden incluirse en diferentes filiales, y las emisiones pueden revelarse por línea de negocio en varias secciones. En estos casos, necesitamos expertos que den sentido a la información extraída automáticamente y garanticen que los datos agregados son exactos y reflejan lo que nuestros clientes esperan que signifiquen.

Chris Ciompi: Gracias. Ron, ¿cómo influye la inteligencia artificial en la actualidad de los datos en Clarity AI?

Ron Potok: Bueno, como Juan Diego mencionó anteriormente, las computadoras pueden leer y ver bastante bien hoy en día. Podemos aprovechar estas tecnologías para que nos ayuden a recopilar datos de forma rápida y eficaz. Sin embargo, proporcionamos datos financieros para tomar decisiones financieras, lo que significa que los datos tienen que ser muy precisos. Los modelos estadísticos nunca pueden alcanzar una precisión del 100%, por lo que es necesaria una combinación de ordenadores y personas para garantizar tanto la eficiencia como la precisión. Necesitamos ambas cosas para garantizar que nuestros clientes reciban datos rápidos y de alta calidad.

Chris Ciompi: Eso tiene sentido. Tiene algún caso interesante que compartir sobre cómo Clarity AI utiliza técnicas de aprendizaje automático en la extracción de datos?

Ron Potok: Sí, tenemos otro caso relacionado con nuestros modelos de estimación. En el caso de las empresas que no comunican su información de sostenibilidad, no podemos utilizar la IA para extraer sus datos. Sin embargo, podemos obtener información financiera con bastante rapidez para cada ejercicio fiscal porque las empresas suelen ser rápidas a la hora de divulgar esta información. Podríamos estimar rápidamente las emisiones de estas empresas, pero decidimos no hacerlo. Esperamos a que las empresas empiecen a divulgar sus datos de sostenibilidad para asegurarnos de que nuestros modelos se calibran correctamente con cada nuevo año de datos. Esperamos a que se comuniquen nuevos datos antes de lanzar nuestras nuevas estimaciones para asegurarnos de que el mundo no ha cambiado y es necesario revisar el modelo de estimación. Cada año realizamos un control de calidad adicional.

Chris Ciompi: Eso es interesante. Entonces, ¿la razón para esperar es que los modelos aprenden de la historia, y si el pasado ya no es representativo de la actualidad, tenemos que tenerlo en cuenta?

Ron Potok: Exacto. Los modelos aprenden de la historia, y si el pasado ya no es un predictor perfecto del futuro, tenemos que modificar nuestros modelos continuamente para predecir el presente con exactitud. Esperamos innovaciones en torno a los componentes medioambientales, por lo que esperamos que el mundo cambie con el tiempo, y el pasado no siempre será un predictor perfecto del futuro. Tenemos que modificar continuamente nuestros modelos a medida que avanzamos para asegurarnos de que predicen el presente con exactitud.

Chris Ciompi: Eso es genial. ¿Pueden los modelos aprender y adaptarse con el tiempo?

Ron Potok: Sí, los modelos pueden aprender qué características impulsan los cambios. Podemos hacer que el modelo sea lo bastante inteligente como para entender los cambios que sabemos que se avecinan. Podemos dejar espacio para las nuevas tecnologías y aplicar la IA para hacer las cosas más eficientes. Podemos predecir características que son de naturaleza prospectiva. Por ejemplo, si un país dice que va a eliminar gradualmente las centrales de carbón en tres años, podemos añadir esa información a nuestros modelos para saber qué va a pasar en tres años.

Chris Ciompi: Tiene sentido. Gracias, Ron. Patricia, ¿cómo ayuda la frescura de los datos a impulsar la innovación de productos en Clarity AI?

Patricia Pina: En Clarity AI, nos esforzamos por encontrar fuentes alternativas de datos relevantes que estén disponibles antes que los datos que publican las empresas una vez al año, normalmente unos meses después de que finalice el periodo de notificación correspondiente. Por ejemplo, utilizamos datos de satélite en tiempo real para deducir cuánto emiten las empresas, en lugar de esperar un año y medio para saber qué ha pasado hoy. Esto nos permite ofrecer datos más frescos a nuestros usuarios.

Chris Ciompi: ¿Cómo influye la frescura de los datos en Clarity AI en las capacidades de la plataforma tecnológica?

Ángel Agudo: La actualidad de los datos es fundamental para que nuestros usuarios tomen decisiones informadas. Nos permite mostrar que se ha incluido la información más actualizada, lo que es importante para la explicabilidad. Nuestro objetivo es ser lo más eficientes posible a la hora de publicar datos y ponerlos a disposición de los usuarios. A medida que capturemos datos y los actualicemos más rápidamente, podremos mostrar a los usuarios la rapidez con que se dispone de nueva información y ayudarles a ser más proactivos en su proceso de toma de decisiones.

Juan Diego Martín: Nuestra capacidad para detectar cuándo se publica nueva información cada año nos permite predecir cuándo estará disponible y agilizar nuestros procesos de actualización. Esto es muy valioso para nuestros clientes porque pueden planificar cuándo estará disponible en nuestro producto la información que necesitan.

Ángel Agudo: Todas las dimensiones que hemos mencionado, como la precisión, la exhaustividad y la puntualidad de los datos, son esenciales para que nuestros usuarios tomen decisiones informadas. Aunque pueda ser complejo de conseguir, estamos innovando y aportando valor porque estas dimensiones son importantes para la toma de decisiones. Sin los datos correctos o con errores en los datos, los usuarios pueden no tomar las decisiones correctas.

Chris Ciompi: Eso tiene sentido, por supuesto, pero vamos a traer de vuelta a la dimensión de la frescura en lo que respecta a la calidad de los datos por el momento. ¿Algo más para terminar?

Patricia Pina: El último punto que quería comentar es que algunos clientes han tenido que invertir importantes recursos, esfuerzo y tiempo con proveedores de datos de sostenibilidad para limpiar los datos y garantizar su frescura, para asegurarse de que estaban comprando los datos adecuados para satisfacer sus necesidades. Mientras que nosotros, nos aseguramos proactivamente de que nuestros clientes no tengan que pasar por procesos costosos e innecesarios.

Chris Ciompi: ¡Gracias a todos!

Introduzca su dirección de correo electrónico para leer más