حریم خصوصی، امنیت و اخلاق در فرایند کاوی (قسمت ۳: ناشناس بودن)

حریم خصوصی، امنیت و اخلاق در فرایند کاوی (قسمت ۳: ناشناس بودن)

حریم خصوصی، امنیت و اخلاق در فرایند کاوی (Privacy, Security and Ethics in Process Mining)

قسمت 3: ناشناس بودن

اگر در مجموعه داده های شما، داده های حساس نیز موجود است، به جای حذف آن، می توانید از تکنیک های ناشناس سازی استفاده کنید. هنگامی که شما مجموعه ای از مقادیر را ناشناس می کنید، مقادیر واقعی (به عنوان مثال، نام کارمند “مری جونز”، “فرد اسمیت” و غیره) با یک مقدار دیگر جایگزین می شود (به عنوان مثال، “منبع 1″، “منبع 2 “، و غیره).

اگر مقدار اصلی همان مقدار داده شده در مجموعه داده چندین بار مشاهده شد، آن را با یک مقدار جایگزین مشابه (“مری جونز” همیشه با “منبع 1” جایگزین می شود) جایگزین می شود. به این ترتیب، شناسایی به شما اجازه می دهد که داده های اصلی را مختل کنید اما الگوها را در مجموعه داده های تجزیه و تحلیل خود حفظ کنید. به عنوان مثال، شما هنوز هم قادر به تجزیه و تحلیل توزیع بار کار در تمام کارکنان بدون دیدن نام واقعی هستید.

برخی از ابزارهای پردازش معدن (دیسکو و پروم) شامل قابلیت ناشناس سازی هستند. این به این معنی است که شما می توانید داده های خود را به ابزار استخراج فرایند وارد کنید و انتخاب کنید که کدام صفت ها باید ناشناس باشند. به عنوان مثال، شما می توانید فقط نام شناسه موارد، نام منابع، مقادیر ویژگی ها یا نشانگرهای زمانی را انتخاب کنید. سپس مجموعه داده های ناشناس را صادر میکنید و میتوانید آن را در میان تیم خود برای تجزیه و تحلیل بیشتر توزیع کنید.

باید ها:

  • مشخص کنید که کدام زمینه ها حساس هستند و نیاز به ناشناس سازی دارند (همچنین لیستی از ویژگی های استخراج فرآیند مشترک و همچنین نحوه تاثیر آنها در صورت عدم شناسایی در زیر را ببینید).
  • به یاد داشته باشید که علی رغم ناشناس سازی برخی اطلاعات ممکن است هنوز قابل شناسایی باشد. برای مثال، ممکن است فقط یک بیمار مبتلا به بیماری بسیار نادر باشد، یا اطلاعات تولد مشتری شما همراه با محل تولد او ممکن است مجموعه افراد ممکن را تا حد زیادی محدود کند که اطلاعات دیگر ناشناس نباشند.

نباید ها:

  • قبل از اینکه داده های خود را تمیز کنید، داده ها را ناشناس کنید، زیرا بعد از ناشناس بودن، ممکن است تمیز کردن داده دیگر امکان پذیر نباشد. به عنوان مثال، تصور کنید که نامهای رده بندی کمی متفاوت در مناطق مختلف استفاده می شوند اما در واقع آنها معنی یکسانی دارند. شما می خواهید این نام های مختلف را در یک مرحله پاک کردن داده ها با هم ادغام کنید. با این حال، پس از آنکه اسامی به عنوان «رده 1»، «رده 2» و غیره نامگذاری شده اند، تمیز کردن داده ها دیگر نمی تواند انجام شود.
  • ناشناس سازی زمینه هایی که نیازی به ناشناس سازی ندارند. ناشناس سازی در حالی که می تواند به حفظ الگوها در داده های شما کمک کند، همچنین می تواند باعث شود که به راحتی اطلاعات مربوط را از دست بدهید. به عنوان مثال، اگر شما شناسه اتفاق را در فرایند مدیریت حادثه خود شناسایی نکنید، دیگر نمیتوانید شماره بلیط حادثه در سیستم میزکار سرویس را جستجو کنید. با ایجاد یک فرهنگ مشارکتی در حوزه فرایندکاوی مبتکرانه خود(به بخش 4 مراجعه کنید) و با کار کردن به صورت مسئولانه و هدفمند، می توانید اغلب با داده های اصلی که در تیم خود دارید، آشکارا کار کنید.

ناشناس سازی ویژگی های فرآیند کاوی مشترک

در اینجا یک مرور کلی از ویژگی های فرایند کاوی یک فرآیند معمولی است و دلایلی که ممکن است بخواهید (یا شاید نخواهید) آن ها را ناشناس سازی کنید:

نام منبع

حذف نام کارکنانی که در این فرایند کار می کنند، یکی از مراحل ناشناس سازی رایج است. این مرحله می تواند به کاهش اصطکاک کمک کند و کارکنان، زمانی که شما آنها را در یک کارگاه تجزیه و تحلیل مشترک درگیر میکنید، احساس راحتی بیشتری دارند. اگر شما اطلاعات خود را به طور عمومی در برخی از فرم ها در دسترس قرار میدهید، قطعا باید نام کارمند ناشناس باشد.

آگاه باشید که ممکن است هنوز هم بتوان کارمند مشخصی را دنبال کرد. برای مثال، اگر شما یک مورد واقعی را بر اساس شناسه شخص در سیستم عملیاتی نگاه دارید، نام منابع واقعی آن را مشاهده خواهید کرد.

در نهایت، به یاد داشته باشید که ناشناس سازی نام کارمندان برای تجزیه و تحلیل معدن فرایند داخلی نیز اطلاعات ارزشمندی را حذف می کند. به عنوان مثال، اگر شما انحرافات فرآیند یا الگوی فرایندی جالبی را شناسایی کنید، معمولا اولین گام این است که با کارکنانی که در این پرونده شرکت داشته اند، صحبت کنید تا بدانید که چه اتفاقی افتاده و از آنها اطلاعات کسب کنید.

شناسه شخص

ناشناس سازی شناسه شخص ضروری است اگر حاوی اطلاعات حساس باشد. به عنوان مثال، اگر شما فرایند بازپرداخت مالیات بر درآمد را در اداره مالیات تجزیه و تحلیل کنید، خواهید دید که شناسه پرونده ترکیبی از شماره شهروندی و سال اعلام مالیات خواهد بود. به دلایل روشنی باید اطلاعات شماره امنیتی را جایگزین کنید.

با این حال، برای مجموعه های داده ای که شناسه مورد نظر کمتر حساس است، ایده خوبی است که آن را همانطور که هست حفظ کنید. مزیت این است که شما می توانید موارد مشخصی را در سیستم عملیاتی جستجو کنید تا تجزیه و تحلیل خود را تأیید کنید یا اطلاعات بیشتری کسب کنید. از دست دادن این پیوند توانایی شما برای انجام تجزیه و تحلیلهای ریشه ای را محدود می کند و روی اقدامات مربوط به مشکلات فرآیندی که شما کشف کردید تاثیر خواهد گذاشت.

نام فعالیت

به طور معمول، خود نام فعالیت را تغییر نخواهید داد. فعالیت ها مراحل فرآیند هستند که در نقشه فرآیند و در توالی های مختلف در ابزار فرایند کاوی ظاهر می شوند. دلیل آن که شما نمی خواهید نام فعالیت را با عنوان «فعالیت 1»، «فعالیت 2»، «فعالیت 3» و غیره جایگزین کنید، این است که اکثر فرایندها بسیار سریع پیچیده می شوند و بدون نام فعالیت شما هیچ شانسی برای ساخت یک مدل ذهنی و درک روند فرایند راندارید و تجزیه و تحلیل شما بی فایده است.

نگه داشتن نام فعالیت ها به صورت کامل مشکلی ندارد، زیرا آنها مراحل فرآیند عمومی را توصیف می کنند (مانند “ایمیل ارسال شده”). با این حال، اگر نامهای متفاوت فعالیتهای مختلف را در داده های خود داشته باشید، باید آنها را بررسی کنید تا اطمینان حاصل کنید که آنها حاوی اطلاعات محرمانه نیستند (مثلا “ایمیل ارسال شده توسط وکیل X”).

سایر مشخصات

اطلاعات حساس اغلب در ستون ویژگی های اضافی وجود دارند. به عنوان مثال، حتی اگر شما یک فرایند سفارش داخلی را تجزیه و تحلیل کنید، ممکن است در فیلد داده های اضافی، اطلاعاتی راجع به مشتری نمایش داده شود.

شما می توانید ستون هایی از داده را که نیازی به آن ندارید به طور کامل حذف کنید یا می توانید مقادیر آنها را بی نام بگذارید. ستون ویژگی هایی را که حساس نیستند را نگه دارید، زیرا این ویژگی ها می توانند در هنگام تجزیه و تحلیل فرایند کاوی دارای اطلاعات مهمی باشند.

در نهایت باید بدانید که اطلاعات حساس نیز می تواند در ویژگی «یادداشت» یا نوع دیگری از فیلد متن آزاد پنهان شوند، جایی که کارکنان اطلاعات اضافی در مورد پرونده یا مرحله فرایند را بنویسند. ناشناس بودن چنین فیلد متن آزادی بی فایده است، زیرا کل متن با «ارزش 1»، «ارزش 2» و … جایگزین می شود. برای حفظ سودمندی فیلد متن آزاد هنگام حذف اطلاعات حساس، مرحله پیش پردازش، نیاز به کار بیشتری دارد و چیزی نیست که ابزارهای فرایند کاوی بتوانند برای شما به صورت خودکار انجام دهند.

برچسب زمان

گاهی اوقات زمانی که یک فعالیت خاص اتفاق می افتد، اطلاعات زیادی را نشان می دهد و امکان شناسایی یکی از نهادهای کاری را به صورت ناخواسته فراهم می کند. در چنین شرایطی، با استفاده از افست، می توانید برچسب های زمان را ناشناس سازی کنید. به این صورت که تعداد مشخصی از روزها، ساعتها و دقیقه ها به زمانبندی واقعی اضافه میشود تا زمانبندی های جدید (در حال حاضر) ناشناس شوند.

در نظر داشته باشید که برخی از الگوهای فرآیند، ممکن است هنگام تجزیه و تحلیل داده های مجموعه، با ناشناس سازی برچسب های زمان، تغییر کند. به عنوان مثال، ممکن است فعالیت هایی را در زمان های متفاوت از زمان های اصلی داده ها مشاهده کنید. به همین دلیل، ناشناس سازی زمانبندی اغلب اگر مجموعه داده ها برای انتشار عمومی تهیه شود، مورد استفاده قرار می گیرد و نه هنگامی که  شما یک فرایند را در شرکت خود تجزیه و تحلیل می کنید.

نویسنده: خانم Anne Rozinat
مرجع خبر:

https://fluxicon.com/blog/2017/11/privacy-security-and-ethics-in-process-mining-part-3-anonymization/

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

مقایسه
علاقه مندی ها 0