مشکلات کیفیت داده ها در فرآیند کاوی و آنچه باید در مورد آنها انجام شود – بخش ۹: برچسب‌های زمانی از دست رفته)

مشکلات کیفیت داده ها در فرآیند کاوی و آنچه باید در مورد آنها انجام شود – بخش ۹: برچسب‌های زمانی از دست رفته)
این نهمین مقاله در مجموعه ما درباره مشکلات کیفیت داده برای پردازش فرآیند است.

 

 
قبلا در این سری، در مورد این که چگونه داده‌های ناپدید شده می‌تواند یک مشکل باشد صحبت کرده‌ایم. به رویداده‌ای از دست رفته نگاه کردیم، چه ویژگی ها و شناسه نمونه فرایند را از دست دادیم. اما اگر فعالیت‌های خود را از دست بدهید و یا برچسب زمان آن ها را ، چه کار باید انجام دهید؟
 
دو سناریو برای از دست دادن این برچسب زمان وجود دارد.

1- فعالیت های از دست رفته

بعضی از فعالیت ها در فرآیند شما ممکن است در داده ها ثبت نشده باشند. برای مثال، ممکن است فعالیتهای غیر سیستماتیک (مانند یک تماس تلفنی) که افراد در میز کار خود انجام می دهند داشته باشند. این فعالیت ها در طول فرایند رخ می دهد، اما در داده ها قابل مشاهده نیست.

به عنوان مثال، در نقشه فرآیند زیر نمونه sandbox را در Disco مشاهده می کنید. یک مسیر از فعالیت “Create Request for Quotation to Analyze Request for Quotation“وجود دارد . با این وجود، می تواند این باشد که در واقع فعالیت دیگری بین این دو مرحله فرآیند اتفاق افتاده است که در داده ها قابل مشاهده نیست.

نحوه رفع :

کار زیادی در اینجا وجود ندارد. مهم این است که آگاهی داشته باشید که این فعالیت ها انجام می شود. اگرچه نمی توانید آنها را در داده ها مشاهده کنید. فرآیند کاوی نمی تواند بدون اطلاع دامنه مناسب در مورد فرآیندی که در حال تجزیه و تحلیل هستید انجام شود. اطمینان حاصل کنید که با افرادی که در این فرآیند کار می کنند صحبت کنید تا بفهمید چه اتفاقی می افتد.

بعد از تفسیر نتایج می توانید این دانش دامنه را در نظر بگیرید. به عنوان مثال، در فرایند فوق می دانید که همه 21.7 روز در واقع زمان بیکار نیست. درعوض، می دانید که فعالیتهای دیگری نیز در حال انجام است، اما نمی توانید آنها را در داده ها مشاهده کنید. مانند یک نقطه کور در فرایند شماست. به طور معمول، با تفسیر مناسب می توانید تجزیه و تحلیل خود را بر اساس داده هایی که در اختیار دارید تکمیل کنید.

با این وجود، گاهی اوقات نقطه کور تبدیل به مشکل می شود. به عنوان مثال، ممکن است متوجه شوید که بزرگترین تنگناهای شما در این نقطه کور قرار دارد و شما واقعاً باید درباره آنچه اتفاق می افتد بیشتر بدانید. در این شرایط، ممکن است تصمیم به بازگشت و جمع آوری برخی از داده های دستی در مورد این بخش از فرایند از طریق مشاهده یا از طریق درخواست کارمندان برای تدریس فعالیت های دستی خود برای چند هفته داشته باشید. در این مورد حتماً شناسه نمونه فرایند را به همراه فعالیتها و برچسب های زمان نگهداری کنید.

پس از آن، می توانید داده های جمع آوری شده دستی را با داده های IT ترکیب کنید تا روند کاملی را تجزیه و تحلیل کنید، اما اکنون با دید در نقطه کور.

2- عدم وجود برچسب زمانی مناسب برای برخی از فعالیت ها

به عنوان مثال، در قطعه داده از یک فرآیند رسیدگی به فاکتور (تصویر زیر ) می بینیم که در بعضی نمونه فرایند ها فعالیت “Settle dispute with supplier” انجام شده است. بر خلاف سایر فعالیت های دیگر، این فعالیت دارای هیچ برچسب زمانی نیست. به سادگی ممکن است توسط سیستم ثبت نشده باشد یا اطلاعات مربوط به این فعالیت از یک سیستم دیگر تهیه شده باشد.

مشکلی که با مجموعه داده ای که در آن بعضی رویدادها یک برچس زمان دارند و بقیه آن ها این ویژگی را ندارند این است که ابزار استخراج فرایند نمی تواند توالی فعالیت ها را تشخیص دهد. به طور معمول رویدادها بر اساس برچسب های زمانی در هنگام وارد کردن داده ها مرتب می شوند. پس چه کاری می توانید انجام دهید؟

در اصل سه گزینه وجود دارد:

  1. نادیده گرفتن رویداد هایی که هیچ علامت برچسب زمانی ندارند. این به شما امکان می دهد عملکرد فرایند خود را تجزیه و تحلیل کنید اما کلیه فعالیتهایی را که با هیچ برچسب زمانی در ارتباط نیستند حذف کنید (به مثال زیر مراجعه کنید).

  2. وارد کردن داده ها بدون پیکربندی برچسب زمان. با این کار همه رویدادها بر اساس ترتیب فعالیتها از پرونده اصلی وارد می شوند. شما می توانید تمام فعالیت ها را در نقشه فرایند مشاهده کنید، اما قادر نخواهید بود زمان انتظار در فرآیند را تجزیه و تحلیل کنید (به مثال زیر مراجعه کنید).

  3. استفاده از بچسب زمانی فعالیت های مرتبط با یک فعالیت که برچسب زمانی ندارد. این مرحله از پردازش داده به شما امکان می دهد همه رویدادها را وارد کنید و کلیه فعالیت ها را در نقشه فرایند انجام دهید، ضمن اینکه امکان تجزیه و تحلیل عملکرد فرایند خود را نیز حفظ می کنید.

بیایید نگاه کنیم چگونه گزینه های 1 و 2 بر مثال فوق تاثیر می گذارند.

اولا می توانیم داده ها را به روش عادی وارد کنیم. هنگامی که ستون “timestamp” انتخاب می شود، دیسکو هشدار می دهد که الگوی برچسب زمان با تمام ردیف ها در داده ها مطابقت ندارد (نگاه کنید به تصویر زیر). علت این عدم انطباق، وجود برچسب های زمانی   خالی  است.

وقتی جلوتر بروید و داده ها را به هر حال وارد کنید، دیسکو فقط رویدادهایی را که دارای یک برچسب زمان هستند را  وارد می کند (و آنها را بر اساس برچسب زمانی مرتب می کند تا توالی رویداد را برای هر نمونه فرایند تعیین کند). در نتیجه، یک نقشه فرآیند بدون فعالیت “Settle dispute with supplier” تهیه می کنید (به تصویر زیر مراجعه کنید). اکنون می توانید فرآیند خود را نیز از منظر عملکرد، کاملاً مورد تجزیه و تحلیل قرار دهید، اما نقطه کوری (مانند سناریوی نمونه ای که در ابتدای مقاله مورد بحث قرار گرفته است) دارید.

 اکنون میخواهیم فعالیت “Settle dispute with supplier” را در نقشه فرایند  قراردهیم. به عنوان مثال، می خواهیم تجسم کنیم که در وهله اول چند نمونه فرایند اختلاف دارند.

برای انجام این کار، داده ها را دوباره وارد می کنیم، اما اطمینان حاصل می کنیم که هیچ ستونی به عنوان “Timestamp“در صفحه پیکربندی نشده است. به عنوان مثال، می توانیم پیکربندی ستون”Complete Timestamp”را به ویژگی تغییر دهیم(تصویر زیر را مشاهده نمایید). در نتیجه، شما این هشدار را دریافت می کنید که هیچ ستونی با نام “Timestamp “مشخص نشده است، اما شما هنوز هم می توانید داده ها را وارد کنید. دیسکو اکنون از ترتیب رویداد ها در فایل اصلی برای تعیین توالی فعالیت برای هر نمونه فرایند استفاده می کند.

در نتیجه، “Settle dispute with supplier activity ” اکنون در نقشه فرآیند نمایش داده می شود (به تصویر زیر مراجعه کنید). ما می توانیم ببینیم که 80 مورد از 412 نمونه فرایند در جریان فرایند اختلاف بوده اند.

ما می توانیم نقشه فرایند را به همراه انواع مختلف، تعداد مراحل موجود در فرآیند و غیره مورد تجزیه و تحلیل قرار دهیم با این وجود، چون ما هیچ بار برچسب زمانی را وارد نکرده ایم، نمی توانیم کیفیت فرایند را تجزیه و تحلیل کنیم. برای مثال مدت زمان یک نمونه فرایند  یا زمان انتظار در نقشه فرایند.

برای تجزیه و تحلیل عملکرد فرآیند، و به طور همزمان نگه داشتن فعالیت ها بدون برچسب های زمانی در نقشه فرایند، باید برچسب های زمان را برای رویدادهایی اضافه کنید که در حال حاضر یکی از آنها را در جمع آوری داد ها ندارند.

مرجع :

http://fluxicon.com/blog/2016/09/data-quality-problems-in-process-mining-and-what-to-do-about-them-part-9-missing-timestamps/

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

مقایسه
علاقه مندی ها 0