مشکل کیفیت داده در فرایند کاوی (بخش ۳: برچسب زمانی صفر)

مشکل کیفیت داده در فرایند کاوی (بخش ۳: برچسب زمانی صفر)

مشکل کیفیت داده در فرایند کاوی (بخش 3: برچسب زمانی صفر)

Zero Timestamps

این مقاله در مورد مشکلات کیفیت داده برای کاوش فرآیندها است.پیش از خواندن این مقاله  اطمینان حاصل کنید که نگاهی به مقاله قبلی در مورد اشتباهات قالب بندی و مقاله در مورد داده های از دست رفته نیز انداخته اید.

این هفته، ما به مشکلات برچسب زمانی یا همان Timestamp می پردازیم. این برچسب های زمانی واقعا پاشنه آشیل کیفیت داده ها در کاوش فرآیندها هستند. همه چیز براساس زمانبندی ها است: نه فقط اندازه گیری عملکرد، بلکه جریان روند و توالی های مختلف. بنابراین، در طول هفته های بعدی، ما به نمونه های معمولی مربوط به برچسب زمانی نگاه خواهیم کرد.برچسب زمانی صفر(یا نشانگرهای آینده)یک مشکل داده ای که مطمئنا در برخی مواقع با آن روبرو شده اید، به اصطلاح برچسب زمانی صفر یا نوع دیگری از نشانگرهای پیش فرض است که توسط سیستم ارائه می شوند. اغلب برچسب های زمانی صفر در ابتدا توسط برنامه نویس سیستم اطلاعاتی به عنوان یک مقدار خالی تنظیم می شوند. آنها می توانند یک اشتباه باشند یا نشان دهند که نشانگر زمان واقعی هنوز ارائه نشده است (به عنوان مثال، چرا که یک مرحله فرایند مورد انتظار هنوز اتفاق نیفتاده است). یکی دیگر از دلایل می تواند خطا در داده هایی باشد که  دستی وارد می شود.این دسته از برچسب های زمانی به صورت 1 ژانویه 1900، تاریخچه یونیکس 1 ژانویه 1970 یا بعضی از نشانه های آینده (مانند 2100) می باشند.برای پیدا کردن اینکه آیا در زمان داده هایتان دارای برچسب زمانی صفر وجود دارد یا خیر، می توانیدآمار کلی داده ها را بررسی نمایید و نگاهی به اولین و آخرین برچسب زمانی داده در مجموعه داده بیندازید. به عنوان مثال، در تصویر زیر می توانید ببینید که حداقل یک  داده با نشانه زمانی 1900 در داده های وارد شده وجود دارد.

شما باید بدانید که چه زمانی  را برای مجموعه داده هایتان انتظار دارید و سپس تأیید کنید که اولین و آخرین برچسب زمانی برای مدت زمان مورد انتظار چه میزان است. آگاه باشید که اگر به یک مشکل مانند نشانه زمانی 1900 در تصویر بالا نپردازید، ممکن است طول بازه زمانی شما چیزی  بیش  از 100 سال باشد.

 راه حل مقابله با این مسئله

شما می توانید Zero timestamps را با استفاده از فیلتر Timeframe در Disco حذف کنید. برای مقابله با این مشکل باید سه مرحله طی شود.

 فازاول- بررسی

شما می خواهید بدانید که آیا فقط چند مورد از برچسب های زمانی صفر تحت تاثیر قرار می گیرند یا اینکه این یک مشکل در داده های گسترده ای وجود دارد. برای مثال، اگر نشانه های صفر در سیستم برای تمام فعالیت هایی که تاکنون اتفاق نیفتاده باشند، ثبت شود، آنها را در همه داده های موجود مشاهده می کنید.برای بررسی مواردی که دارای برچسب زمانی صفرهستند، یک فیلتر Timeframe اضافه کنید و از حالت «Timeframe Intersecting» با تمرکز بر دوره زمانی مشکل ساز استفاده کنید. این همه مواردی را که حاوی حداقل یک نشانه صفر هستند را حفظ خواهد کرد. سپس از دکمه «کپی و فیلتر» برای ایجاد یک مجموعه داده جدید با تمرکز بر برچسب های زمانی صفر که تماما دارای برچس زمانی صفر هستند، استفاده کنید.

در نتیجه، فقط مواردی را مشاهده خواهید کرد که دارای برچسب زمانی صفر هستند. شما می توانید تعداد زیادی از آنها را مشاهده کنید. علاوه بر این، شما می توانید نمونه های چند دسته دیگر را بررسی کنید تا ببینید آیا مشکل همیشه در یک مکان قرار دارد یا اینکه چندین فعالیت تحت تاثیر قرار گرفته است. در مثال ما، فقط دو مورد حاوی برچسب زمانی صفر هستند.

فاز دوم– حذف برچسب های زمانی صفر

بسته به اینکه آیا برچسب های زمانی  صفر یک مشکل گسترده هستند یا خیر، می توانید دو اقدام مختلف را انجام دهید:

  1. اگر فقط چند مورد از آنها تحت تاثیر قرار گرفته باشد، می توانید این موارد را به طور کامل حذف کنید. به این ترتیب، آنها تجزیه و تحلیل شما را تحریک نخواهند کرد. در عین حال شما با موارد جزئی که به دلیل مسائل مربوط به داده ها از دست رفته است،رو به رو نخواهید شد.
  2. اگر بسیاری از موارد تحت تاثیر قرار می گیرند، مانند شرایطی که برچسب های زمانی صفر برای فعالیت هایی که تا کنون اتفاق نیفتاده اند،ثبت شده است. می توانید رویدادهایی با برچسب زمانی صفر را حذف کنید و بقیه موارد را برای تجزیه و تحلیل خود نگه دارید.

در مثال ما فقط دو مورد تحت تأثیر قرار می گیرند و ما این موارد را کاملا حذف خواهیم کرد. برای انجام این کار، یک فیلتر  Timeframe اضافه کنید و گزینه “Contained in timeframe” را انتخاب کنید در حالی که تمرکز انتخاب خود را بر روی بازه زمانی مورد انتظار انجام می دهید. این همه مواردی را که رویدادهای خارج از محدوده زمانی انتخاب شده را حذف می کنند حذف خواهند کرد.

اگر فقط می خواهید فعالیت هایی را که دارای زمان بندی صفر هستند حذف کنید، گزینه “Trim to timeframe” را انتخاب کنید. این همه وقایع خارج از زمان مشخص شده را حذف می کند و بقیه این موارد را برای شما نگه می دارد.

توجه داشته باشید اگر برچسب های زمانی  صفر شما نشان می دهد که فعالیت های مشخصی هنوز اتفاق نیفتاده است، بهتر است که خانه های timestamp را در داده های منبع خالی نگه دارید، نه اینکه آن ها را با  یک مقدار زمانی 1900 یا 1970 را پر کنید.

فاز سوم-در نهایت یک فایل کپی شده مناسب تهیه نمایید.

پس از پاک کردن برچسب های صفر از داده های خود، بهتر است یک کپی جدید را با استفاده از گزینه «درخواست فیلترها به طور دائم»[2] ایجاد کنید.  در نتیجه یک مجموعه داده جدید (پاک شده) خواهید داشت که اکنون می تواند به عنوان نقطه شروع تجزیه و تحلیل شما باشد.

شما با موفقیت توانستید برچسب های صفر خود را حذف نمایید.

 

نویسنده: خانم Anne Rozinat
مرجع خبر:

Data Quality Problems In Process Mining And What To Do About Them — Part 3: Zero Timestamps

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

مقایسه
علاقه مندی ها 0