مشکل کیفیت داده در فرایند کاوی (بخش ۵: برچسب زمانی مشابه برای فعالیتهای متفاوت)

مشکل کیفیت داده در فرایند کاوی (بخش ۵: برچسب زمانی مشابه برای فعالیتهای متفاوت)

مشکل کیفیت داده در فرایند کاوی (بخش 5: برچسب زمانی مشابه برای فعالیتهای متفاوت)

Same Timestamps for Different Activities

در مقاله قبلی در مورد تنظیمات زمانبندی اشتباه ما دیده ایم که چگونه مشکلات زمان بندی می توانند جریان های فرایند و انواع فرایندها را تحت تاثیر قرار دهد. یکی از دلایلی که چرا نشانه های زمان می تواند مشکلات را ایجاد کند این است که آنها به اندازه کافی متفاوت نیستند. به عنوان مثال، اگر شما فقط یک تاریخ (و بدون زمان) دارید، ممکن است به راحتی اتفاق بیفتد که دو فعالیت در یک مورد در همان روز اتفاق می افتد. در نتیجه شما نمی دانید کدام یک از آنها در واقع اتفاق افتاده است!

به مثال زیر نگاهی بیاندازید: یک فرآیند امضای سند ساده با چهار فعالیت و سه مورد را می توانیم ببینیم.

تعریف ردیف ها در هر مورد دلخواه است. هنگام وارد کردن این مجموعه داده، دنباله رویدادها براساس زمانبندی تعیین می شود. به عنوان مثال، دنباله ای از مراحل “ایجاد شده” و “فرستاده شده به مشتری” برای مورد 1 معکوس می شود (در مقایسه با فایل اصلی)، چرا که تاریخ نشان دهنده این است که دو مرحله در سفارش متضاد اتفاق افتاده است.

با این حال، اگر دو فعالیت در همان زمان اتفاق می افتد (در همان روز در این مثال)،  Discoنمی داند که چه ترتیبی دارند. بنابراین، این نظم را نگه می دارد که در فایل اصلی آنها ظاهر می شود. از آنجا که منظور از فعالیت ها در فایل نمونه به طور تصادفی است، این باعث ایجاد تنوع بیشتری در نقشه فرآیند[1] (و در انواع) می شود که نباید وجود داشته باشد.به عنوان مثال، سه مورد در مثال فوق از یک فرایند صرفا متوالی است. با این حال، چون گاهی اوقات چندین مرحله در یک روز اتفاق می افتد و نظم بین آنها اختیاری است، می توانید برخی از تغییرات[2] اضافی را در نقشه فرایند مشاهده کنید. آنها منعکس کننده اولویت های مختلف  دستورات مختلف با برچسب های زمانی مشابه در فایل هستند.

      برای حل این مشکل راهکارهای مختلفی وجود دارد: راهکار اول-در نظر نگرفتن برخی اتفاقاتدلیل وجود فعالیت هایی با  “برچسب زمانی یکسان” همیشه یک سطح کافی از جزئیات در الگوی زمانبندی نیست. گاهی اوقات، این یک واقعیت است که رویدادهای بسیاری به طور هم زمان زمان ثبت می شوند.به عنوان مثال، یک سیستم گردش کار در شهرداری را در نظر بگیرید، که در آن  خدمات مورد نیاز یک شهروند که به آدرس جدید خود نقل   مکان کرده است، طبقه بندی می شود. بعد از وارد کردن اطلاعات خیابان، شماره خیابان، کد پستی، شهر و غیره، فیلدهای موجود در صفحه پر شده است، آنها را با استفاده از  ‘Next ‘  نهایی کرده و رسید چاپ می شود.در ورود به سیستم  گردش کار، به احتمال زیاد، سوابق شخصی تغییرات به هر یک از این فیلدها را مشاهده خواهید کرد (به عنوان مثال، رکورد «مقدار قدیمی» و «ارزش جدید» ویژگی «خیابان»). با این حال، همه آنها ممکن است یک نشانه زمانی مشابه داشته باشند، زمانیکه کارمند دکمه «بعدی» را فشار داده و تغییرات فیلد داده تمام شده (یک بار) نهایی شد.در زیر میتوانید نمونه دیگری از فرایند  خودکار را مشاهده کنید.که گام های بسیاری در همان زمان اتفاق می افتد.

    با این حال، شما ممکن است به همه این رویدادهای با جزییات فراوان  نیاز نداشته باشید و می توانید یکی از آنها را برای نشان دادن کلیت اجرا استفاده کنید.عنوان مثال، در مورد زیر اولین از چهار رویداد برجسته می تواند در انتظار  دنباله ای از چهار فرآیند دیگر باشد. شما می توانید مراحل دیگر را از طریق گزینه “نگه داشتن انتخاب شده” در فیلد ویژگی لغو انتخاب کنید.

راه حل دوم-مرتب سازی بر اساس شماره توالی

گاهی اوقات شما در واقع اطلاعاتی در مورد اینکه کدام یک از فعالیت ها در نوع خاصی از صفت دنباله ای رخ داده است، دارید. این فوق العاده است، زیرا شما هم اکنون می توانید مجموعه داده های خود را بر اساس شماره توالی (نگاه کنید به پایین) را مرتب کنید و از تمام مسائل مربوط به تمام زمان های مشابه همان زمان جلوگیری کنید. 

ز آنجا که Disco از دنباله ای از فعالیت ها در فایل اصلی خود برای رویدادهایی که دارای نشانه زمانی مشابه هستند استفاده می کند، این مرحله قبل از مرتب سازی بر ترتیبی که در آن انواع و جریان های جریان شکل می گیرد، تأثیر می گذارد و بنابراین، از رخداد تصادفی دستورات فعالیت های زمان بندی مشابه جلوگیری می نماید.

راه حل سوم-مرتب سازی براساس نام فرآیند

البته شما همیشه یک شماره توالی ندارید که بتوانید برای مرتب سازی اطلاعات تکیه کنید. پس چه چیز دیگری می تواند انجام دهد؟راه دیگری که اغلب به آن کمک می کند این است که شما می توانید اطلاعات را به سادگی بر اساس نام فعالیت مرتب کنید. ایده این است که حداقل فعالیتهایی که یک نشانه زمانی مشابه دارند (و در این و بعضی اوقات در این نظم قرار دارند) هم اکنون در همان نظم هستند، حتی اگر نظم به خودی خود حساس نیست.این کار آسان است: قبل از وارد کردن آن، اطلاعات را بر اساس ستون فعالیت خود مرتب کنید. با این حال، گاهی اوقات این استراتژی همچنین می تواند باعث عقب نشینی شود، زیرا شما ممکن است – به طور تصادفی – دستورات اشتباه را در همان فعالیت های زمانی نشان دهید که به تصادف قبل از آن درست بود.به عنوان مثال، نتیجه مرتب سازی داده ها بر اساس نام فعالیت برای فرآیند امضای سند را در نظر بگیرید.

روش چهارم- مرتب سازی بر اساس شماره توالی ایده آل

برای تأثیر نظم فعالیتهای زمانی Timestamp در راه «درست»، می توانید این دنباله های فرآیند را در داده های خود که توسط تفاوت های واقعی در زمان نشانه تشکیل می شود، تجزیه و تحلیل کنید. شما همچنین می توانید به یک متخصص دامنه صحبت کنید تا به شما در درک دنباله ای ایده آل از فرایند کمک کند.ه عنوان مثال، اگر در فرآیند امضای سند مورد 2 قرار بگیرید، می توانید ببینید که دنباله به طور کامل توسط تایپ های مختلف تعیین شده است (نگاه کنید به تصویر زیر).

اکنون ما از این توالی ایده آل برای تأثیر بر مرتب سازی داده های اصلی استفاده می کنیم. یک روش ساده برای انجام این کار این است که قبل از شناسایی فعالیت ها با یک شماره توالی که مکان آنها را در دنباله ی ایده آل نشان می دهد (یعنی 1 – ایجاد شده، 2 – فرستاده شده به مشتری، 3 – پاسخ دریافت شده، و ‘4 – سند امضا شده’) با استفاده از پیدا کردن و جایگزینی.

پس از اضافه کردن شماره های توالی، می توانید به سادگی اطلاعات اصلی را توسط ستون فعالیت مرتب کنید.

نویسنده: خانم Anne Rozinat
مرجع خبر:

https://fluxicon.com/blog/2016/04/data-quality-problems-in-process-mining-and-what-to-do-about-them-part-5-same-timestamps-for-different-activities

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

مقایسه
علاقه مندی ها 0