مشکلات کیفیت داده ها در فرآیند کاوی و آنچه باید در مورد آنها انجام شود – بخش ۱۰: فقدان برچسب زمان برای فعالیت تکراری

مشکلات کیفیت داده ها در فرآیند کاوی و آنچه باید در مورد آنها انجام شود –  بخش ۱۰: فقدان برچسب زمان برای فعالیت تکراری

این دهمین مقاله از سری مقاله های ما در مورد مشکلات کیفیت داده ها برای فرآیندکاوی است.

هفته گذشته، ما به فعالیتهای مفقود شده و برچسب های زمانی گمشده نگاه می کردیم. امروز، در مورد یک مشکل متداول دیگر درباره کیفیت داده ها صحبت خواهیم کرد که من اطمینان دارم بیشتر شما در آینده در بعضی مواقع با آن روبرو می شوید.

به قطعه داده زیر توجه کنید. در این مجموعه داده ، می توانید سه مورد را مشاهده کنید ( 3و Case ID 1, 2 ) اگر این مجموعه داده زیر را با یک مجموعه داده ی استخراج فرآیند معمولی مقایسه کنید ، می توانید تفاوت های زیر را مشاهده کنید:

برای هر نمونه فرایند فقط یک ردیف وجود دارد (نمونه فرایند برجسته شده 1 را ببینید) به طور معمول ، شما چندین ردیف خواهید داشت – یک ردیف برای هر رخداد در هر نمونه فرایند و فعالیت ها در ستون ها (فعالیت های A ، B ، C ، D و E ) قرار دارد که برچسب زمان در محتوای سلول ثبت شده هستند.

هنگامی که با چنین مجموعه داده ای روبرو شدید ، مجبور هستید آن را به شکل زیر با فرمت فرآیند کاوی قالب  بندی کنید (به تصویر زیر مراجعه کنید) برای هر فعالیت یک ردیف اضافه کنید (دوباره  نمونه فرایند 1  برجسته شده است).

برای هر فعالیت ، یک ستون “activity”برای نام و یک ستون “Timestamp” برای برچسب زمان ایجاد کنید.

به هر حال ، نکته مهمی که باید در اینجا دقت شود این است که این صرفاً یک مشکل قالب بندی نیست،بلکه  این قالب ستونی برای گرفتن اطلاعات رخداد درباره ی فرآیند  شما مناسب نیست ، زیرا اطلاعات مربوط به تکرار فعالیت را از دست می دهد.

به عنوان مثال ، تصور کنید که پس از انجام فرآیند “D” کاربر متوجه می شود که برخی اطلاعات وجود ندارد، آنها باید به مرحله” C” برگردند تا اطلاعات از دست رفته را برگردانند و در مرحله بعد با فرآیند “E” کار خود را  ادامه خواهند داد.

مشکلی که در قالب ستون وجود دارد این است که در اولین قطعه نشان داده شده جایی نیست که بتوان دو برچسب زمان مربوط به فعالیت را مشخص کرد. بنابراین ، آنچه در بیشتر مواقع اتفاق می افتد این است که نخستین برچسب زمان فعالیت” C” به سادگی نوشته می شود و فقط آخرین آن ذخیره می شود. شاید تعجب کنید که چرا مردم داده ها را در این قالب مبتنی بر ستون در مرحله اول پردازش می کنند. به طور معمول ، شما این نوع داده ها را در مکان هایی که داده های پردازش جمع شده اند ، می یابید.

به عنوان مثال ، در یک انبار داده ، سیستم BI یا گزارش اکسل را مشاهده میکنیم ، زیرا به نظر می رسد در این قالب پردازش شاخص های KPI  آن  آسان تر  باشد. به عنوان مثال ، آیا می خواهید بدانید که بین مرحله فرآیند “B” و “”E چقدر طول می کشد؟ به سادگی یک فرمول در اکسل اضافه کنید تا تفاوت بین دو زمان را محاسبه کنید.

افراد غالباً به طور ضمنی فرض می کنند که این فرآیند  از طریق فعالیت های “A-E” به روشی منظم انجام می شود. اما فرایندها در واقعیت کاملاً پیچیده هستند. تا زمانی که این فرآیند به طور کامل اتوماتیک نباشد ، دوباره کارانجام می شود،و با فشردن داده های خود در چنین قالب مبتنی بر ستونی ، اطلاعات مربوط به فرآیند واقعی را از دست می دهید.

بنابراین اگر با داده های خود در قالب ستونی روبرو شوید ، چه کاری می توانید انجام دهید؟

نحوه رفع :

قبل از هر چیز ، شما باید از داده های موجود استفاده کرده و مانند شکل فوق ، آن را به یک فرمت مبتنی بر ردیف تبدیل کنید. با این حال ، در تجزیه و تحلیل شما باید از محدودیت داده ها آگاه باشید و بدانید که

می توانید با برخی تحریفات در فرآیند روبرو شوید (به مثال زیر مراجعه کنید).

اگر این فرآیند به اندازه کافی مهم باشد ، ممکن است در تکرار بعدی بخواهید برگردید و ببینید که داده های اصلی که در ابزار BI یا گزارش اکسل جمع شده اند از کجا آمده اند. به عنوان مثال ، ممکن است از یک سیستم workflow  استفاده کنید ،سپس می توانید داده های قدیمی خود را به طو کامل از سیستم اصلی دریافت کنید تا این فرآیند را با تمام تکرارها به طور کامل تجزیه و تحلیل کنید.

برای درک اینکه با چه نوع تحریفاتی در داده ها  مواجه هستید ، به مجموعه داده های زیر نگاهی بیاندازید ، که نشان می دهد مراحل قبل از جمع آوری داده ها در ستون ها ، در فرآیند واقعی اتفاق افتاده است. شما می توانید آن را ببینید:

حال ، هنگامی که شما برای اولین بار مجموعه داده هایی را که از قالب مبتنی بر ستون به قالب مبتنی بر ردیف به Disco وارد شده است ،را می بینید. می توانید نگاشت فرآیند ساده شده زیر را بدست آورید.

(شکل زیر را ببینید)

مشکل این است که اگر یک کارشناس دامنه به این نگاشت فرآیند نگاه کند ، ممکن است به دلیل تحریفات در تکرار برچسب زمان فعالیت از دست رفته ، فرآیندهای عجیب و شاید حتی غیرممکن را مشاهده کند.

به عنوان مثال ، در نگاشت فرآیند فوق به نظر می رسد حداقل یک بار یک مسیر مستقیم از فعالیت “B” تا فعالیت “D” وجود داشته باشد.

با این حال ، در واقعیت این هرگز اتفاق نمی افتد،نگاشت فرآیند از مجموعه داده های واقعی را می توانید (که در آن همه تکرارهای فعالیت ضبط شده است) در زیر مشاهده کنید. هیچگاه جانشینی مستقیم ازمراحل “B” و “D” صورت نگرفته است ، چون  در واقعیت فعالیت “C” در بین آن دو فعالیت “B”و”D” اتفاق افتاده است.

بنابراین از داده هایی که در اختیار دارید استفاده کنید اما توجه داشته باشید که چنین تحریف هایی می توانند اتفاق بیفتد و همچنین چه عواملی در آنها ایجاد می شود. نگاشت فرآیند فوق نگاشت های فرآیند ساده شده بود

اگر کنجکاو برای دیدن جزئیات کامل هر نگاشت هستید تا مطمئن شوید که هیچ مسیری از فعالیت “B” تا فعالیت “D” وجود ندارد ، می توانید آنها را در زیر بیابید:

سمت چپ: نگاشت فرآیندی که از مجموعه داده های تبدیل شده به ستون کشف شده است.

سمت راست: نگاشت فرآیند برای فرآیند واقعی.

مرجع :

https://fluxicon.com/blog/2016/10/data-quality-problems-in-process-mining-and-what-to-do-about-them-part-10-missing-timestamps-for-activity-repetitions

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

مقایسه
علاقه مندی ها 0