مشکلات کیفیت داده ها در فرآیند کاوی و آنچه باید در مورد آنها انجام شود – بخش ۱۱ : جلسه اعتبارسنجی داده ها به همراه کارشناس دامنه

مشکلات کیفیت داده ها در فرآیند کاوی و آنچه باید در مورد آنها انجام شود –  بخش  ۱۱ : جلسه اعتبارسنجی داده ها به همراه کارشناس دامنه

این یازدهمین مقاله از بخش ما در مورد مشکلات کیفیت داده ها برای فرآیند کاوی است.

یک سناریو فرآیند کاوی متداول بدین شرح است: شما یک مشکل فرآیند را که در تجزیه و تحلیل آن پیدا کرده اید به گروهی از مدیران فرآیند ارائه می دهید. آن ها به نگاشت فرآیند مربوطه نگاه می کنند و خاطر نشان می کنند که این نمی تواند درست باشد. شما اطلاعات را استخراج می کنید و می فهمید که در واقع ، مشکل کیفیت داده ها دلیل این الگوی فرآیند کشف شده است.

مشکلی که در این سناریو وجود دارد این است که ، حتی اگر پس از آن مشکل کیفیت داده را برطرف کنید ، اعتمادی که در سمت کسب و کار از دست داده اید ، قابل بازگشت نیست.

آنها به نتایج آینده شما نیز اعتماد نخواهند کرد ، زیرا “فکر می کنند که داده ها اشتباه است”. می توان فرصت های خوبی در تحلیل و بهبود این فرآیند داشت!

برای جلوگیری از این امر ، توصیه می کنیم قبل از شروع تحلیل واقعی در پروژه خود ، یک اعتبار سنجی داده اختصاصی را با یک فرآیند یا کارشناس دامنه تنظیم کنید. برای مدیریت انتظارات خود ،با دیگران ارتباط برقرار کنید که هنوز هدف آن به طور صریح تجزیه و تحلیل فرآیند نیست ، اما برای اطمینان از اینکه کیفیت داده ها قبل از شروع تجزیه و تحلیل خوب باشد ، اطمینان حاصل نشده است.

شما می توانید از یک کارشناس دامنه و یک کارشناس داده برای مشارکت در جلسه دعوت کنید، زیرا هدف شناسایی مشکلات در داده ها از منظر صاحب فرآیند است نیاز دارید برای شما تجزیه و تحلیل انجام دهد. (شما می توانید یک جلسه جداگانه با یک متخصص داده رزرو کنید تا سؤالات مربوط به داده را پاسخگو باشد.)

کارشناس دامنه در طول جلسه به سیستم عملیاتی دسترسی دارد ، به طوری که می تواند  فردی را  به راحتی جستجو کنید.

برای سازماندهی اعتبارسنجی داده ها با کارشناس دامنه ، می توانید موارد زیر را انجام دهید:

1-توضیحی مختصر ارائه دهید که فرآیند کاوی چیست. حداکثر 5 اسلاید را نشان دهید و یک نمونه آزمایشی کوتاه را با یک مثال ساده شرح بدهید. و همچنین ارائه گزارشی درباره فرآیند کاوی را در نظر بگیرید، باید فرض کنید که آنها یا نمی دانند فرآیند کاوی به چه معناست یا فقط تصویری مبهم از مفهوم آن دارند.

2- هدف را مجدداً تکرار کنید و توضیحی دهید که  چه طور می خواهید داده ها را با آنها اعتبارببخشید و موضوعات و سؤالات احتمالی را در آن ها جمع آوری کنید.

3-از آنها بخواهید تا یک نگاشت فرآیند بسیار ساده (فقط جعبه و فلش) فرآیند  را از دیدگاه خود تا حداکثر 7 مرحله در یک نمودار تخته سفید بکشند. که این کار به عنوان یک مرجع مفید  برای زمانی که می خواهید مراحل خاص فرآیند را تجزیه و تحلیل کنید، خواهد بود .

4-داده ها را به صورت خام به آنها نشان دهید (به عنوان مثال ، در اکسل) و توضیح دهید که داده ها را از کجا بدست آورده اید و چگونه استخراج شده است. اشاره به استفاده از ستون های شناسه فرایند، نام فعالیت و برچسب زمان نیز داشته باشید.

5-سپس داده ها را جلوی چشمان خود وارد کرده و اطلاعات را خلاصه کنید (نشان دادن بازه زمانی داده ها ، ویژگی ها  و غیره)پس از آن ، به نگاشت فرآیند نگاه کنید و بهترین نوع آن را بررسی کنید. به مواردی از نمونه داده ها توجه  کنید و از آنها بپرسید: آیا این داده ها  برای شما اهمیت دارد؟و هر شماره ای را که ذکر می کنند یادداشت کنید.

6- اگر الگوهای رفتاری عجیب و غریبی در فرآیند داشتید، آن ها را فیلتر کنید تا به متن قابل فهم تبدیل شود،در صورت لزوم، نگاشت فرآیند را ساده کنید (به مقاله در مورد استراتژی های ساده سازی مراجعه کنید) و به صورت پیوسته  به مواردی که در کنار هم می یابید نگاهی بیندازید. سعی کنید در صورت امکان پاسخ سؤالات را در جلسه پیدا کنید و در غیر اینصورت آنها را به عنوان یک نکته عملی بنویسید.

7- در صورت امکان ، چندین نمونه فرایند را در سیستم عملیاتی جستجو کنید (بسیاری از سیستم ها به شما امکان می دهند که شماره مشتری را جستجو کنید و تاریخچه هر نمونه فرایند را بررسی کنید) و آنها را با ترتیب نمونه فرایندی که در Disco پیدا می کنید مقایسه کنید. برای دیدن اینکه آیا مطابق پیش بینی هستند یا خیر.

8- البته ، شما ممکن است پیش از اعتبار سنجی داده ها ، هنگام بررسی کیفیت داده ، خود را به پاسخ سؤال برسانید.در غیر این صورت می توانید سوالات خود را به کارشناس دامنه بدهید و ببینید که آیا آنها توضیحاتی در مورد مشکلاتی که مشاهده کرده اید دارند یا خیر.

ممکن است متوجه شوید که متخصص دامنه در مورد فرآیند مربوط به خود تجزیه و تحلیل سؤالاتی را ایجاد می کند. این فوق العاده است و شما باید آنها را بنویسید، اما آن را آنالیز نکنید و جلسه را به سوالات مربوط به کیفیت داده خود هدایت نکنید تا مطمئن شوید که به هدف این جلسه رسیده اید: برای تأیید کیفیت داده و کشف هرگونه مسئله با داده هایی که ممکن است نیاز به پاکسازی داشته باشند.

پس از تایید جلسه مشکلات داده کشف شده را پیگیری کنید و در مورد آنها تحقیق کنید، و همچنین در مورد این موضوع که کدام یک از سؤالات اصلی شما ممکن است تحت تأثیر مسائل مربوط به کیفیت داده ها باشد، پیگیری کنید. وکارهایی را که انجام داده اید یا قصد انجام آنها را دارید مستند کنید تابتوانید بعدا آنها را اصلاح کنید.

مرجع :

https://fluxicon.com/blog/2016/10/data-quality-problems-in-process-mining-and-what-to-do-about-them-part-11-data-validation-session-with-domain-expert/

 

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

مقایسه
علاقه مندی ها 0