حریم خصوصی ، امنیت و اخلاق در فرآیند داده کاوی – قسمت ۳: ناشناس ماندن

حریم خصوصی ، امنیت و اخلاق در فرآیند  داده کاوی – قسمت ۳: ناشناس ماندن

      این سومین مقاله از سری ما در مورد حریم خصوصی ، امنیت و اخلاق در داده کاوی است. در اینجا می توانید کلیه مقالات موجود در این سریال را پیدا کنید.

اگر مطالعه ای در مورد معادن فرآیند دارید که می خواهید آن را به اشتراک بگذارید ، لطفاً از طریق anne@fluxicon.com با ما تماس بگیرید.

      اگر در مجموعه داده های خود اطلاعات حساسی دارید ، به جای حذف آن می توانید از تکنیک های ناشناس سازی نیز استفاده کنید. وقتی مجموعه ای از داده ها را ناشناس می کنید ، داده های واقعی (به عنوان مثال نام های کارمندان،Mary Jones, Fred Smith و غیره را) با مقدار دیگری جایگزین می شوند (به عنوان مثال منبع 1 ، منبع 2 و غیره).

      اگر همان مقدار اصلی چند بار در مجموعه داده ها ظاهر شود ، آن را با همان مقدار جایگزین جایگزین می کنید (Mary Jones همیشه با منبع 1 جایگزین می شود). به این ترتیب ، ناشناس ماندن به شما امکان می دهد تا داده های اصلی را مبهم(غیرقابل شناسایی) کنید.اما الگوهای موجود داده ها را برای تجزیه و تحلیل شما را حفظ می کند. به عنوان مثال ، شما هنوز هم می توانید توزیع حجم کار در همه کارمندان را بدون دیدن نام های واقعی تجزیه و تحلیل کنید.

      برخی از ابزارهای فرآیند داده کاوی (Disco و ProM  )شامل ابزار ناشناس سازی هستند. این بدان معناست که می توانید داده های خود را در ابزار پردازش داده کاوی وارد کنید و انتخاب کنید که کدام قسمت های داده باید ناشناس باشند. به عنوان مثال ، می توانید مشخص کنید ناشناس سازی فقط در مورد شناسه ها ، نام منبع ، ویژگی ها یا نشانهای زمانی را انتخاب کنید. سپس مجموعه داده های ناشناس را ارسال کنید و می توانید آن را برای تجزیه و تحلیل بیشتر بین تیم خود توزیع کنید.

انجام دادن:

lمشخص کنید که کدام قسمتهای داده حساس هستند و نیاز به ناشناس ماندن دارند (همچنین به لیست صفت های رایج فرآیند داده کاوی و نحوه تأثیر آنها در صورت ناشناس بودن به متن زیر مراجعه کنید).

lبه خاطر داشته باشید که با وجود ناشناس ماندن برخی از اطلاعات هنوز هم می توان آن ها را شناسایی کرد. به عنوان مثال ، ممکن است فقط یک بیمار مبتلا به یک بیماری بسیار نادر باشد ، یا اطلاعات تولد مشتری شما همراه با محل تولد آنها ممکن است مجموعه افراد ممکن را به حدی متمایز کند که داده ها دیگر ناشناس نباشند.

انجام ندادن:

lقبل از مرتب کردن داده های خود ، داده ها را ناشناس کنید ، زیرا ممکن است پس از ناشناس سازی ، مرتب کردن داده ها دیگر امکان پذیر نباشد. به عنوان مثال تصور کنید که به جای نام های مشتری ها از نام های دسته بندی مختلف استفاده می شود اما در واقع به همین معنی هستند. دوست دارید این نامهای مختلف را در یک مرحله تمیز کردن داده ها ادغام کنید. اما ، پس از نام بردن به نام های دسته 1 ، دسته 2 و غیره ، تمیز کردن داده ها دیگر نمی تواند انجام شود.

lقسمتهایی را که نیازی به ناشناس بودن نیستند ناشناس کنید. ناشناس ماندن می تواند به حفظ الگوهای داده های شما کمک کند ، می توانید اطلاعات مربوطه را به راحتی از دست دهید. به عنوان مثال ، اگر شناسه یک رخ داد را در فرآیند مدیریت خود ناشناس کنید ، دیگر نمی توانید شماره بلیط آن را در سیستم خود جستجو کنید. با ایجاد فرهنگ مشارکتی و ابتکارعمل درمورد فرآیند داده کاوی خود (به بخش 4 مراجعه کنید) و با کار کردن با روشی مسئولانه و هدفمند ، اغلب می توانید با داده های اصلی که در تیم خود دارید بصورت علنی کار کنید.

ناشناس کردن زمینه های مشترک فرآیندهای داده کاوی

      در اینجا مروری بر خصوصیات فرآیند داده کاوی معمولی و اینکه چرا ممکن است بخواهید (یا ممکن است نخواهید) آنها را ناشناس کنید وجود دارد:

نام منبع

      حذف نام کارمندان شاغل در این فرآیند یکی از رایج ترین مراحل ناشناس کردن است. این کار می تواند به کاهش اصطکاک کمک کرده و کارمندان را در هنگام کار در یک کارگاه تحلیل مشترک ، راحت تر جلوه دهد. اگر داده های خود را به شکلی در دسترس عموم قرار دهید ، ناشناس کردن نام کارمندان یک امر ضروری است.

      آگاه باشید که هنوز هم ممکن است ردیابی کارمندان شخصی امکان پذیر باشد. به عنوان مثال ، اگر یک مورد خاص را بر اساس شناسه پرونده در سیستم عامل جستجو کنید ، نام منابع واقعی را در آنجا مشاهده خواهید کرد.

      در آخر ، به خاطر داشته باشید که ناشناس کردن نام کارمندان برای آنالیز فرآیند داده کاوی داخلی ، اطلاعات ارزشمندی را نیز حذف می کند. به عنوان مثال ، اگر انحراف فرآیند یا یک الگوی جالب را تشخیص دهید ، به طور معمول اولین قدم صحبت با کارمندانی است که در این پرونده شرکت داشتند تا درک کنند که چه اتفاقی افتاده است و از آنها می آموزید اما در صورت ناشناس کردن ممکن است نتوانید.

شناسه مورد

      اگر حاوی اطلاعات حساس باشد ، ناشناس کردن شناسه پرونده ضروری است. به عنوان مثال ، اگر روند بازگشت مالیات بر درآمد را در اداره مالیات تحلیل کنید ، شناسه پرونده ترکیبی از شماره تأمین اجتماعی شهروند و سال اعلام مالیات خواهد بود. شما باید اطلاعات آشکار را جایگزین اطلاعات تأمین اجتماعی کنید.

      با این حال ، برای مجموعه داده هایی که شناسه پرونده حساسیت کمتری دارد ، ایده خوبی است که آن را در جای خود نگه دارید. فایده این خواهد بود که شما می توانید موارد شخصی را در سیستم عملیاتی جستجو کنید تا تحلیل خود را تأیید کنید یا اطلاعات اضافی کسب کنید. از دست دادن این پیوند توانایی شما در انجام تجزیه و تحلیل علل ریشه ای و انجام اقدامات مربوط به مشکلات فرایندی را که شما کشف می کنید محدود خواهد کرد.

نام فعالیت

      به طور معمول ، شما خود نام فعالیت را ناشناس نمی کنید. فعالیتها مراحل فرایندی هستند که در نقشه فرایند و در توالیهای مختلف در ابزار پردازش داده کاوی ظاهر می شوند. دلیل اینکه نمی خواهید نام فعالیت ها را به عنوان مثال فعالیت 1 ، فعالیت 2 ، فعالیت 3 و غیره جایگزین کنید این است که اکثر فرآیندها بسیار سریع بسیار پیچیده می شوند و بدون نام فعالیت شما فرصتی برای ساختن ندارید. مدل ذهنی و درک روند جریان شما در حال تجزیه و تحلیل بی فایده است.

      نگه داشتن نامهای فعالیت به طور کامل معمولاً مشکلی ندارد ، زیرا آنها یک مرحله فرایند عمومی (مانند ایمیل ارسال شده) را توصیف می کنند. با این حال ، به خصوص اگر در فعالیت های خود نام فعالیت های مختلفی دارید ، باید آنها را مرور کنید تا اطمینان حاصل کنید که آنها هیچگونه اطلاعات محرمانه ای ندارند (به عنوان مثال ، ایمیل ارسال شده توسط وکیل .(X

سایر خصوصیات

      اطلاعات حساس غالباً در ستون های ویژگی های اضافی قرار دارد. به عنوان مثال ، حتی اگر شما در حال تجزیه و تحلیل یک فرایند سفارش داخلی هستید ، ممکن است فعالیت های دیگری وجود داشته باشد که اطلاعات مربوط به مشتری را فاش می کند.

      می توانید ستون های داده ای را که نیازی به آن ندارید ، کاملاً حذف کنید ، یا می توانید مقادیر آنها را ناشناس کنید. ستون های صفتی را که به شکل اصلی آنها حساس نیست ، نگه دارید ، زیرا می توانند هنگام بررسی موارد خاص ، در هنگام تحلیل فرآیند داده کاوی، اطلاعات حاوی متن هم مهم باشند.

      در آخر ، آگاه باشید که اطلاعات حساس همچنین می توانند در مورد یک ویژگی یا نوع دیگری از متن ، یادداشت آزاد پنهان شوند ، جایی که کارمندان اطلاعات اضافی در مورد یک اتفاق یا مرحله روند می نویسند. صرفاً ناشناس کردن زمینه چنین متن آزادی فایده ای ندارد ، زیرا کل متن با Value 1 ، Value 2 و غیره جایگزین می شود. درمرحله پردازش کاری نیست که ابزارهای داده کاوی بتوانند بطور خودکار برای شما انجام دهند.

زمان سنج

      بعضی اوقات ، زمان وقوع یک فعالیت خاص در حال حاضر اطلاعات زیادی را فاش می کند و این امکان را می دهد تا یکی از نهادهای تجاری خود را به روشی ناخواسته شناسایی کنید. در چنین شرایطی ، می توانید با اعمال یک انحراف ، نشانگرهای زمانی را ناشناس کنید. این بدان معناست که تعداد مشخصی از روز ، ساعت و دقیقه به زمانهای واقعی اضافه می شود تا برچسب های جدید (که اکنون ناشناس است) ایجاد شود.

      به خاطر داشته باشید که هنگام تجزیه و تحلیل مجموعه داده ها با برچسب های زمانی ناشناس ، برخی از الگوهای فرآیند ممکن است تغییر کنند. به عنوان مثال ، ممکن است فعالیتهای خود را در سایر ساعات روز از آنچه در مجموعه داده های اصلی مشاهده می کنید ، ظاهر شوند. به همین دلیل ، در صورت آماده سازی مجموعه داده ها برای انتشار عمومی ، گمنامی نشانگرزمانی بیشتر مورد استفاده قرار می گیرد و نه برای یک فرایند اگر بخواهید آن را در شرکت خود تجزیه و تحلیل کنید.

lhttps://fluxicon.com/blog/2017/11/privacy-security-and-ethics-in-process-mining-part-3-anonymization/

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

مقایسه
علاقه مندی ها 0