مشکل کیفیت داده در فرایند کاوی (بخش ۱: خطاهای قالب بندی)

مشکل کیفیت داده در فرایند کاوی (بخش 1: خطاهای قالب بندی)
Formatting Errors
دادههای فرایند کاوی از جاهای مختلفی ممکن است جمع آوری شود. یکی از مهمترین مزایای فرایندکاوی این است که به سیستم خاصی وابسته نیست. هر نوع گردش کار، سامانه بلیط دهی، ERP، انباره داده، دادههای کلیک و یا حتی دادههایی که به صورت دستی در یک فایل اکسل جمع آوری شده باشند، منوط به اینکه سه ویژگی Case ID، برچسب فعالیت و برچسب زمانی را داشته باشند، قابل پردازش و تحلیل توسط فرایند کاوی خواهند بود.
به هر حال، بیشتر دادهها از ابتدا به منظور تحلیلهای فرایندکاوی ثبت نمیشوند. به ویژه دادههایی که به صورت دستی جمع آوری می شوند ممکن است حاوی خطا باشند. چطور اطمینان پیدا کنیم که این خطاها نتایج تحلیلهای فرایندکاوی را به خطر نمی اندازد؟
کیفیت داده، یک بحث بسیار مهم برای هر تکنیک تحلیل داده است: اگر تحلیلهای شما بر اساس دادههایتان است، باید اطمینان حاصل نمایید که داده های شما صحیح و درست هستند. در غیر اینصورت، نتایج شما اشتباه خواهد بود. اگر شما نتایج را به کاربر متخصص کسب و کار نشان دهید و او متوجه شود که نتایج به دلیل مشکلات دادهای اشتباه است، اعتماد خود را برای همیشه به فرایندکاوی از دست خواهد داد.
تعدادی چالش مربوط به کیفیت داده وجود دارد که مختص فرایندکاوی است. بسیاری ازاین چالشها در ارتباط با برچسب زمان هستند. در حقیقت می توان گفت که برچسب زمان، پاشنه آشیل فرایند کاوی است. اما، تنها مشکل هم این نیست و مشکلات دیگری نیز وجود دارد که باید به آنها نیز توجه نمود. در این سری از نوشتار ها به برخی از مهمترین چالشهای کیفیت داده در فرایند کاوی پرداخته خواهد شد:
- بخش ۱: خطاهای قالب بندی
- بخش ۳: برچسب زمانی صفر
- بخش ۴: تنظیمات اشتباه برچسبهای زمانی
- بخش ۵: برچسب زمانی مشابه برای فعالیتهای متفاوت
- بخش ۶: متفاوت بودن درشت دانگی برچسب زمان
- بخش ۷: برچسبهای زمانی موجود، زمان واقعی فرآیندها را نشان نمیدهند
- بخش ۸: زمانبندیهای متفاوت
- بخش ۹: برچسبهای زمانی از دست رفته
نویسنده: خانم Anne Rozinat
مرجع خبر:
Data Quality Problems In Process Mining And What To Do About Them — Part 1: Formatting Errors