مشکلات کیفیت داده درفرآیند کاوی و آنچه باید در مورد آنها انجام شود (بخش ۱۲: تاریخچه گمشده)

مشکلات کیفیت داده درفرآیند کاوی و آنچه باید در مورد آنها انجام شود (بخش ۱۲: تاریخچه گمشده)

این دوازدهمین مقاله در مجموعه ما در مورد مشکلات کیفیت داده ها برای فرآیندکاوی است. در اینجا می توانید کلیه مقالات موجود در این سری را پیدا کنید.

هنگامی که مجموعه ای از داده ها را بدست می آورید و مناسب بودن  داده ها را برای فرآیند کاوی ارزیابی

می کنید ، با جستجوی سه عنصر شروع می کنید Case ID ، نام فعالیت و Timestamp

به عنوان مثال ، هنگامی که به دنبال Case ID هستید ، می توانید به ستون های کاندید مراجعه کنید تا ببینید که آیا چندین ردیف در مجموعه داده وجود دارد که به همان شناسه مراجعه می کنند (تصویر زیر را ببینید(

اگر چندین ردیف با همان Case ID ندارید ، به احتمال زیاد فیلدی که فکر می کنید ممکن است Case ID شما باشد ، فقط یک شناسه رویداد است و به شما در ارتباط بامراحلی را که همان نمونه فرآیند است،کمک نمی کند.

وقتی به جستجوی زمینه های دیگر می پردازید ، گاهی به نظر می رسد که در ابتدا همه زمینه هایی را که لازم دارید داشته باشید. اما بعد می فهمید که در واقع اطلاعات قدیمی را در این زمینه ها از دست دادید. در ادامه اطلاعاتی را در مورد چهار موقعیت ، که اتفاق می افتد ، به شما داده می شود.

 

 

از دست دادن تاریخچه فعالیت

وقتی به دنبال فیلدی هستید که بتواند نام فعالیت شما را مشخص کند ، ممکن است با وضعیتی روبرو شوید که در تصویر زیر نشان داده شده است: وضعیت برای هر رویداد در همان Case یکسان است.

در این شرایط ، شما ستونی دارید که در مورد مراحل فرآیند یا وضعیت برای هر مورد چیزی ذکر می کند. با این حال ، شما در مورد تغییرات وضعیتی که با گذشت زمان اتفاق می افتد ، اطلاعات قدیمی را ندارید. غالباً در چنین زمینه ای اطلاعات مربوط به وضعیت فعلی (یا آخرین فعالیتی که اتفاق افتاده است) را برای هر مورد درج می کند. با این حال ، این کار برای فرآیند کاوی ، و دستیابی به اطلاعات قدیمی مربوط به فعالیت ها نیاز داریدکه  کافی نیست.

نحوه رفع :

اگر نام فعالیت یا ستون وضعیت ،در طول Case تغییر نمی کند ، نمی توانید از ستون به عنوان نام فعالیت خود استفاده کنید. شما باید از مدیر سیستم بپرسید که آیا می توانید اطلاعات تاریخچه ای را در این زمینه بدست آورید یا خیر.

همچنین می توانید ستون های دیگری را در مجموعه داده های خود جستجو کنید تا ببینید که آیا آنها حاوی اطلاعاتی هستند که با گذشت زمان تغییر می کنند یا خیر (مانند یک واحد سازمانی ، بنابراین می توانید انتقال کار بین واحدهای مختلف را تجزیه و تحلیل کنید)

توجه داشته باشید که حتی اگر اطلاعات مربوط به فعالیت های خود را در این فرآیند داشته باشید ، ممکن است هنوز اطلاعات مربوط به تکرارهای فعالیت را از دست نداده باشید.

از دست دادن تاریخچه Timestamp

در زمینه های timestamp هم همین اتفاق می افتد. در ابتدا ، به نظر می رسد ستون های Timestamp در مجموعه داده های مختلف شما وجود داشته باشد. اما آیا هر یک از آنها به مرور زمان برای یک مورد تغییر می کند؟ یا آیا همه ی آنها مانند مثال زیر یکسان هستند؟

نحوه رفع:

اگر Timestamp شما در طول Case تغییر نمی کند ، این یک فیلد داده است اما یک فیلد timestamp نیست، همانطور که برای فرآیند کاوی نیاز دارید که اگر فقط ستون های  timestampرا  دارید که هرگز تغییر نمی کنند ،  در حقیقت به هیچ وجه ستون  Timestampرا  ندارید.

اگر داده های شما به گونه ای مرتب شده باشند که دارای نظم مناسبی باشند ، حتی بدون تعیین زمان

می توانید داده های تنظیم شده را به دیسکو وارد کنید،شما هنوز هم می توانید جریان فرآیند و انواع آن را تجزیه و تحلیل کنید. (براساس اطلاعات توالی موجود در مجموعه داده های وارد شده) ، اما شما قادر نخواهید بود که یک تجزیه و تحلیل عملکرد را انجام دهید.

 

 

از دست دادن تاریخچه منابع و صفات موجود

وضعیت مشابهی می تواند با سایر فیلد داده مانند فیلد منبع یا ویژگی داده دیگر رخ دهد. به عنوان مثال ، در داده های زیر ، ستون منابع در طولCase تغییر نمی کند.

به جای شخصی که یک مرحله خاص را انجام داده است ، فیلد “منبع” بالا می تواند کاربری را که Case را شروع کرده است ، نشان دهد. که چه کسی مسئول این Case است یا  همچنین شخصی که آخرین مرحله را انجام داده است چه کسی است؟
همین اتفاق می تواند با یک فیلد داده رخ دهد ، مانند ویژگی “طبقه بندی” در مثال بالا ، جایی که ممکن است بدانید که این فیلد می تواند با گذشت زمان تغییر کند اما در مجموعه داده های شما فقط آخرین مقدار آن را مشاهده می کنید.

نحوه رفع:

اگر نمی توانید اطلاعات قدیمی را در این فیلد بدست آورید ، یک فرهنگ لغت داده از مدیر IT بخواهید، تا بتوانید آن را به درستی تفسیر کنید، و بتواند معنای این فیلد را به شما بفهماند.

درک کنید که شما نمی توانید تجزیه و تحلیل جریان فرآیند را با این ویژگی انجام دهید (برای مثال ، هیچ تجزیه و تحلیل شبکه های اجتماعی بر اساس فیلد منبع در مثال بالا امکان پذیر نخواهد بود). شما هنوز هم می توانید از این زمینه ها در تحلیل خود به عنوان یک صفت Case استفاده کنید.

از دست دادن تاریخچه برای صفات های مشتق شده

اطلاعات قدیمی گمشده در مورد صفات ها ممکن است برای کشف دقیق تر باشد، به عنوان مثال ، به داده های مجموعه زیر نگاهی بیندازید.ما می بینیم که ثبت مراحل ” شرکت حمل و نقل” در مورد C360 توسط یک نقش “خدمات منشی” انجام شده است. با این حال ، برای مورد C1254 همان مرحله توسط “مدیر خدمات” انجام شد ، که اگر بدانیم این فرآیند ممکن است ما را دچارخطا کند.

 

اگر به مسئله عمیق تر نگاه کنیم ، می فهمیم که فیلد”نقش” در واقع اطلاعاتی که از یک بانک اطلاعاتی جداگانه استخراج شده، به داده های قدیمی ما که بعداً تنظیم خواهد شد، مرتبط شده است. که فیلد “نقش” حاوی نقش های منسوب شده به کارمندان است.

در سال 2011 ، هنگامی که پرونده C1254 انجام شد ، الوینا لورز هنوز هم “منشی خدمات” بود. اما در سال 2013 ، وقتی پرونده  C360از آن منتشر شد ،که در آن زمان  الوینا “مدیر خدمات” بود. ما نمی توانیم در واقع  ببینیم که در ” شرکت حمل و نقل” الوینا در نقش  “منشی خدمات”بوده  و یا نقش خود را به درستی انجام داده است،  زیرا ما فقط اطلاعات مربوط به نقش فعلی او را داریم!

نحوه رفع:

مانند سایر نمونه های فوق ، معمولاً چیزهای زیادی در زمان کم وجود ندارد. مهمترین بخش این است که شما از این محدودیت داده ها آگاه هستید ، به طوری که می توانید نتایج را به درستی تفسیر کنید.

مرجع مقاله:

https://fluxicon.com/blog/2017/04/data-quality-problems-in-process-mining-and-what-to-do-about-them-part-12-missing-history/

 

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

مقایسه
علاقه مندی ها 0