أضواء كاشفة: جودة البيانات - البعد 3 ، الدقة

جودة البيانات 22 مايو 2023 أنخيل أجودو ، باتريشيا بينا ، خوان دييغو مارتن ، رون بوتوك ، كريس سيومبي

سلسلة مقابلات مع Clarity AI الفريق التنفيذي المعني بالأبعاد ال 8 لجودة البيانات

كيف Clarity AI تأكد من أن بياناتها من أعلى مستويات الجودة؟

Clarity AI يستخدم إطار عمل 8 أبعاد لضمان أن تكون البيانات من أعلى مستويات الجودة. هذه الأبعاد هي التغطية ، والنضارة / التوقيت ، والدقة ، وتحديثات البيانات ، وقابلية التفسير ، والاتساق ، والنقطة الزمنية ، والتعليقات. في هذه السلسلة من المقابلات مع Clarity AI المديرين التنفيذيين ، يتم استكشاف كل من هذه الأبعاد وشرحها. Clarity AIيقوم فريق الخبراء بإنشاء منهجيات علمية وقائمة على الأدلة تستفيد بعد ذلك من الذكاء الاصطناعي القوي والقابل للتطوير (مثل التعلم الآلي) لجمع مجموعات البيانات الحالية وتنظيفها وتحليلها وتوسيعها لتشغيل منصة تكنولوجيا الاستدامة الخاصة بها أو للاندماج مباشرة في سير العمل الحالي للمستخدمين.

البعد 3 - الدقة

Clarity AIنائب رئيس المنتج ، أنخيل أجودو ، رئيس أبحاث المنتجات والابتكار ، باتريشيا بينا ، رئيس استراتيجية البيانات ، خوان دييغو مارتن ، ورئيس علوم البيانات ، رون بوتوك ، يناقشون - مع كريس سيومبي ، Clarity AIالرئيس التنفيذي للتسويق - البعد الحاسم للدقة وعلاقتها بجودة البيانات. ناقشت المجموعة كيف يمكن لنظام جمع البيانات الاستفادة من الخوارزميات لتحسين دقة البيانات. سيستخدم النظام الخوارزميات لاستخراج البيانات والتحقق منها ، ثم توفير تنبيهات في الوقت الفعلي لجامعي البيانات إذا بدا أي شيء معطلا. سيساعد ذلك في ضمان دقة البيانات من البداية وبناء الثقة مع العملاء. بالإضافة إلى ذلك ، تطرقت المجموعة إلى أهمية التفسير في بناء الثقة والتمييز بين البيانات الصحيحة والبيانات غير الصحيحة. وبشكل عام، شددت المجموعة على الحاجة إلى نظام لجمع البيانات يتسم بالكفاءة والدقة والشفافية من أجل بناء الثقة مع العملاء وضمان بيانات عالية الجودة، وبالتالي النتائج.

كريس سيومبي: مرحبا بالجميع ، وشكرا لحضورك إلى الطاولة مرة أخرى للدردشة من خلال بعد آخر لجودة البيانات. دعونا نتحدث عن الدقة. لذا ، إلى أنخيل مرة أخرى. يرجى تحديد الدقة من حيث صلتها بجودة البيانات.

Ángel Agudo: نحن نستخدم تقنيات مختلفة مثل معالجة اللغة الطبيعية (NLP) لجمع البيانات بكفاءة من التقارير. تخضع هذه البيانات لتجميع الخوارزميات في الوقت الفعلي ، والتي تقارنها بالأبعاد الأخرى للشركة ، عبر الوقت ، ومع الشركات الأخرى في الصناعة لتحديد الأخطاء المحتملة. لتحقيق ذلك ، يتم تدريب الخوارزميات على رؤية خبراء الاستدامة ، الذين يتحدون كل نقطة بيانات بدعم نظري قوي. اعتمادا على النتيجة ، قد تعتبر نقطة البيانات صحيحة ، أو قد تكون هناك حاجة إلى تذكر من قبل الإنسان لتقييم المشكلة. في بعض الحالات ، قد يتم توفير نقطة البيانات المبلغ عنها ، ولكن يتم استكمالها بقيمة معدلة ، لتوفير صورة أفضل لواقع الشركة. كل هذا يضمن ذلك Clarity AI يوفر بيانات عالية الجودة في السوق ، من وجهة نظر الدقة.

كريس سيومبي: شكرا. باتريشيا ، لماذا الدقة مهمة لمستهلكي بيانات الاستدامة؟

باتريشيا بينا: تستخدم بيانات الاستدامة لاتخاذ القرارات. إذا كانت لديك بيانات خاطئة ، فستتخذ قرارات خاطئة. لذا ، فإن الدقة أمر بالغ الأهمية. إنه الأساس ، لبنة البناء لكل شيء آخر. وفقط لتوضيح هذه النقطة: إذا نظرنا إلى بيانات انبعاثات CO2 ، والتي تصادف أنها المقياس الأكثر الإبلاغ عنه والأكثر استخداما في الصناعة ، وركزنا على البيانات المبلغ عنها ، وهي البيانات الأكثر استقرارا ونضجا في السوق ، نرى أرقاما مختلفة جدا تطفو في السوق. وجد بحثنا أنه في 40٪ من الحالات ، كانت هناك تناقضات في الأرقام التي يقدمها مقدمو البيانات عن تلك الشركات. إن معالجة هذه التناقضات أمر مهم لأنه يحدث فرقا كبيرا في الحسابات والتقارير التي يستخدمها المشاركون في السوق للإبلاغ عن انبعاثات منتجاتهم المالية. يمكن أن يزيد من البصمة الكربونية بنسبة تصل إلى 20٪ ، وأكثر من ذلك. وفقط لوضع 20٪ في منظورها الصحيح: 7٪ هو الانخفاض السنوي الذي نحتاج إلى التوجه نحوه من أجل تلبية محاذاة باريس. لذلك ، 20-30 ٪ هي أرقام كبيرة جدا.

كريس سيومبي: شكرا. سأضغط قليلا على المثال ، وعلى محاذاة باريس. عندما تقول محاذاة باريس ، فأنت تقصد أهداف 2030 و 2050 ، أليس كذلك؟

باتريشيا بينا: نعم ، أنا أشير إلى معدل إزالة الكربون الذي سنحتاجه من أجل تحقيق أهداف 2030 و 2050.

كريس سيومبي: حسنا، ممتاز. شكرا. خوان دييغو ، ما مدى دقة البيانات عبر النطاق الكامل ل Clarity AIتغطية؟

خوان دييغو مارتين: نحن نعمل على تحقيق دقة أكبر من 99٪ في بياناتنا. ومن أجل القيام بذلك ، نستخدم استراتيجية نسميها "أربعة مستويات من الدفاع". الأول هو اتفاقيات صارمة للغاية على مستوى الخدمة ، مع مشاركة الجميع في العملية. والثاني هو التكنولوجيا ، التي تسمح لنا باكتشاف الحالات الشاذة في أقرب وقت ممكن ، ولدينا أربعة أصول رئيسية لهذه المسؤولية: الاستدلال ، والأساليب المتنافسة ، وفحوصات الدقة باستخدام تقنيات معالجة اللغة الطبيعية (NLP) ، والتحقق من صحة الطرف الثالث. خط الدفاع الثالث هو التحقق من الصحة على مستوى قاعدة البيانات الرئيسية ، التي تستخدمها جميع وحداتنا ، لذلك كل ما سيتم دفعه إلى النظام الأساسي يمر عبر ضوابط جودة إضافية. يتم إجراء الرابع على مستوى الوحدة ، حيث تتحقق فرق محددة لكل منتج من منتجاتنا من أن البيانات من أعلى مستويات الجودة الممكنة وجاهزة للتسليم إلى العميل.

كريس سيومبي: شكرا لك ، وأعتقد أن رون ، ربما يكون هناك بعض العلف من أجلك. كيف هي دقة البيانات في Clarity AI تتأثر بالذكاء الاصطناعي؟

رون بوتوك: متابعة لما قالته باتريشيا ، هناك تناقضات في مزودي البيانات داخل السوق لنفس بيانات انبعاثات CO2 ، مما يعني أن مزودين مختلفين قد يعطيان انبعاثات CO2 مختلفة لنفس الشركة. في Clarity AI، فإننا نتبع نهجا إحصائيا. نحن نحصل على البيانات من مزودين متعددين حتى نتمكن من دراستها واستخدامها لمحاولة الحصول على بيانات الاستدامة الأكثر دقة. بصفتك إحصائيا ، قد ترغب في متوسط الآراء المختلفة حول الاستدامة معا. لكن هذا ليس النهج هنا. لا نعتقد أن انبعاثات CO2 لشركة في سنة معينة هي رأي. نعتقد أنها حقيقة وهناك إجابة صحيحة وإجابة خاطئة. لذا بدلا من ذلك ، قمنا ببناء تقنية الذكاء الاصطناعي تساعدنا في تحديد ما إذا كانت كل نقطة بيانات دقيقة أم لا. نوع المعلومات التي نستخدمها لتحديد هذه الدقة هو السياق ، الذي نضيفه إلى كل نقطة بيانات. يمكن أن يكون هذا السياق عبارة عن بيانات تم الإبلاغ عنها مسبقا من قبل الشركة ، أو القيم العادية داخل الصناعة. هذا للتأكد من أن كل نقطة بيانات نقدمها للعميل معقولة ويتم تقديمها في سياقها. هناك العديد من الطرق الأخرى التي نضمن بها الجودة طوال العملية ، ولكن ما الذي يميز Clarity AI هو حقيقة أن لدينا إمكانية الوصول إلى العديد من مقدمي الخدمات المختلفين ، وأننا قمنا ببناء نماذج تسمح لنا بتعيين مستوى ثقة لكل نقطة بيانات لتحديد مدى ثقتنا في صحة نقطة البيانات هذه ، بغض النظر عن مصدرها.

كريس سيومبي: فيما يتعلق بالنماذج ، هل يمكنك أن تشرح قليلا كيف تعمل الذكاء الاصطناعي ، وتشغيل تلك النماذج للتأثير على الدقة بطريقة إيجابية؟

رون بوتوك: لدينا عدة نماذج مختلفة. النموذج الذي سأركز عليه هو نموذج الموثوقية الخاص بنا. كما ذكرت من قبل ، قمنا ببناء نموذج يطبق السياق على كل نقطة بيانات ، وهذا السياق يأتي من مزودي البيانات. من المحتمل أن يكون هناك مزودان أو ثلاثة مزودون مختلفون بقيم مختلفة لنقطة البيانات هذه ، لذلك نسأل أنفسنا: ما هو تاريخ تلك البيانات؟ بمعنى ، على سبيل المثال ، انبعاثات النطاق 1 الخاصة بك العام الماضي ، قبل عامين ، قبل ثلاث سنوات كشركة ، وسياق الصناعة: بالنظر إلى الصناعة التي تعمل فيها ، ما هي القيم الطبيعية بالنسبة لك؟ نحن نطبق كل هذه المعلومات كميزات في نموذج التعلم الآلي الذي يسمح لنا بإخراج لكل نقطة بيانات مدى احتمال صحة نقطة البيانات هذه لشركة معينة.

كريس سيومبي: وما مدى تعقيد القيام بما وصفته للتو دون الذكاء الاصطناعي؟

رون بوتوك: تتمثل قيمة تقنيات الذكاء الاصطناعي أو التعلم الآلي ، بشكل عام ، في الاشتراط بالعديد من الجوانب المختلفة في وقت واحد. لذلك ، إذا قمت بإعداد قواعد كما هو الحال في نظام قائم على القواعد ، فسيكون لديك الكثير من عبارات "if" المستقلة عن بعضها البعض. بدلا من ذلك ، ما يفعله النموذج هو فهم سياق كل هذه القرارات وما هو احتمال النجاح بناء على كل تلك المعلومات في نفس الوقت. من الممكن بالتأكيد القيام بالقواعد الإرشادية ، لكنها تصبح غير جذابة بسرعة كبيرة ، ولهذا السبب نبني النماذج. يصبح التعقيد مستعصيا ، وتصبح تأثيرات التفاعل بين الميزات مستعصية على البشر لكتابة القواعد.

كريس سيومبي: ممتاز. شكرا لك رون. باتريشيا ، كيف تساعد دقة البيانات في دفع ابتكار المنتجات في Clarity AI?

باتريشيا بينا: عندما أفكر في كيف تساعدنا الدقة على الابتكار ، أفكر في أجزاء مختلفة. بادئ ذي بدء ، نريد التأكد من أن لدينا حلقة ملاحظات سريعة مع عملائنا عندما يتعلق الأمر بالدقة. للقيام بذلك ، قمنا بوضع قنوات وأدوات للعملاء لتحدي أي نقطة بيانات. ثم نعود إليهم مع شرح كامل للبيانات. الجزء الآخر هو كيف يمكننا أن نصبح أكثر تطورا وذكاء مع الخوارزميات والشيكات. تتمثل إحدى طرق القيام بذلك في دمج هذه الخوارزميات في بداية تدفق البيانات لاكتشاف أي مشكلات محتملة في الدقة في وقت مبكر جدا من العملية وفي الوقت الفعلي ، وتقديم ملاحظات لمن يجمع تلك البيانات ، وتعديلها لتقديم بيانات عالية الجودة لعملائنا دون تأخير.

كريس سيومبي: عندما تقول "في الوقت الفعلي" ، كيف يؤثر ذلك على الابتكار؟

باتريشيا بينا: في نظام جمع البيانات لدينا ، سواء لاستخراج البيانات أو التحقق من صحتها ، نقوم بدمج الخوارزميات. سيتلقى الشخص الذي يجمع البيانات تنبيهات في الوقت الفعلي إذا بدت أي من البيانات غير صحيحة بناء على ما نعرفه عن الشركة ، بالإضافة إلى البيانات الأخرى التي جمعناها في الماضي. سنقوم بكل هذه الفحوصات في الوقت الفعلي ونقدم ملاحظات للشركة التي تجمع البيانات. إذا كانت هناك أخطاء ، تصحيحها في تلك اللحظة لضمان الدقة من البداية.

كريس سيومبي: إذن ، هذه طريقة واحدة لتحقيق دقة 99٪ زائد التي ذكرها خوان دييغو سابقا؟

باتريشيا بينا: نعم بالضبط.

كريس سيومبي: فهمت ذلك. لذا ، فإن هذا يعود إلى ما قاله خوان دييغو عن استهداف دقة بنسبة 99٪. إنها إحدى الطرق. Ángel, كيف مستوى دقة البيانات في Clarity AI التأثير على قدرات منصة التكنولوجيا؟

Ángel Agudo: يعد توفير البيانات الصحيحة وبناء الثقة مع عملائنا أمرا بالغ الأهمية. غالبا ما يقارن العملاء مصادر البيانات المختلفة لنفس الغرض وقد يجدون اختلافات. نحن بحاجة إلى أن نوضح لهم كيف يمكنهم التمييز بين البيانات الصحيحة وما هو الخطأ. قابلية الشرح هي مفتاح بناء الثقة ، لذلك نحن بحاجة إلى توصيل عمل البيانات والتصحيحات بطريقة تبني تلك الثقة. إن جمع البيانات في الوقت الفعلي وفحوصات الجودة يجعلنا فعالين للغاية ، ويجب أن تنقل المنصة هذه المعلومات لبناء الثقة.

كريس سيومبي: شكرا للجميع! شكرا للمناقشة الرائعة حول هذا البعد من جودة البيانات - الدقة.

أدخل عنوان بريدك الإلكتروني لقراءة المزيد

طلب عرض توضيحي