مشکل کیفیت داده در فرایند کاوی (بخش ۱: خطاهای قالب بندی)

مشکل کیفیت داده در فرایند کاوی (بخش ۱: خطاهای قالب بندی)

مشکل کیفیت داده در فرایند کاوی (بخش 1: خطاهای قالب بندی)

Formatting Errors

داده‌های فرایند کاوی از جاهای مختلفی ممکن است جمع آوری شود. یکی از مهمترین مزایای فرایندکاوی این است که به سیستم خاصی وابسته نیست. هر نوع گردش کار، سامانه بلیط دهی، ERP، انباره داده، داده‌های کلیک و یا حتی داده‌هایی که به صورت دستی در یک فایل اکسل جمع آوری شده باشند، منوط به اینکه سه ویژگی Case ID، برچسب فعالیت و برچسب زمانی را  داشته باشند، قابل پردازش و تحلیل توسط فرایند کاوی خواهند بود.

به هر حال، بیشتر داده‌ها از ابتدا به منظور تحلیل‌های فرایندکاوی ثبت نمی‌شوند. به ویژه داده‌هایی که به صورت دستی جمع آوری می شوند ممکن است حاوی خطا باشند. چطور اطمینان پیدا کنیم که این خطاها نتایج تحلیل‌های فرایندکاوی را به خطر نمی اندازد؟

کیفیت داده، یک بحث بسیار مهم برای هر تکنیک تحلیل داده است: اگر تحلیل‌های شما بر اساس داده‌هایتان است، باید اطمینان حاصل نمایید که داده های شما صحیح و درست هستند. در غیر اینصورت، نتایج شما اشتباه خواهد بود. اگر شما نتایج را به کاربر متخصص کسب و کار نشان دهید و او متوجه شود که نتایج به دلیل مشکلات داده‌ای اشتباه است، اعتماد خود را برای همیشه به فرایندکاوی از دست خواهد داد.

تعدادی چالش مربوط به کیفیت داده وجود دارد که مختص فرایندکاوی است. بسیاری ازاین چالشها در ارتباط با برچسب زمان هستند. در حقیقت می توان گفت که برچسب زمان، پاشنه آشیل فرایند کاوی است. اما، تنها مشکل هم این نیست و مشکلات دیگری نیز وجود دارد که باید به آنها نیز توجه نمود. در این سری از نوشتار ها به برخی از مهمترین چالشهای کیفیت داده در فرایند کاوی پرداخته خواهد شد:

نویسنده: خانم Anne Rozinat
مرجع خبر:

Data Quality Problems In Process Mining And What To Do About Them — Part 1: Formatting Errors

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

مقایسه
علاقه مندی ها 0