معدن الگوی رفتاری از ترافیک و کاربرد آن در تشخیص ناهنجاری شبکه

آخرین مطالب

امکانات وب

معدن الگوی رفتاری از ترافیک و کاربرد آن در تشخیص ناهنجاری شبکه

تشخیص دقیق و شناسایی رفتارهای غیر طبیعی در اینترنت یک کار چالش برانگیز است. در این کار ، یک طرح تشخیص ناهنجاری پیشنهاد شده است که از ماتریس ویژگی رفتار و ماتریس مجاور برای توصیف الگوهای رفتاری کاربر استفاده می کند. سپس ، تشخیص ناهنجاری با تجزیه و تحلیل ماتریس باقیمانده انجام می شود. با تجزیه و تحلیل ترافیک شبکه و خصوصیات ناهنجاری ، ما ماتریس ویژگی رفتار را می سازیم ، که شامل هفت ویژگی است که الگوهای رفتاری کاربر را توصیف می کند. برای درج اثرات محیط شبکه ، ما از شباهت بین آدرس های IP استفاده می کنیم تا ماتریس مجاورت را تشکیل دهیم. علاوه بر این ، ما از تجزیه ماتریس CUR برای معدن روند تغییر ماتریس استفاده می کنیم و خصوصیات الگوی باقیمانده ای را که برای تشخیص ناهنجاری ها استفاده می شود ، بدست می آوریم. برای اعتبارسنجی اثربخشی و صحت طرح پیشنهادی ، از دو مجموعه داده استفاده می شود: (1) مجموعه داده های عمومی MAWI ، که از شبکه ستون فقرات گسترده جمع آوری شده است ، که برای اعتبارسنجی دقت استفاده می شود.(2) مجموعه داده های شبکه پردیس ، جمع آوری شده از مرکز آموزش و تحقیقات چینی شمال غربی (CERNET) ، که برای تأیید عملی استفاده می شود. نتایج تجربی نشان می دهد که طرح پیشنهادی نه تنها می تواند رفتارهای غیر طبیعی را به طور دقیق تشخیص و شناسایی کند بلکه منبع ناهنجاری ها را نیز ردیابی می کند.

1. معرفی

پروفایل رفتار کاربر ، همراه با تشخیص ناهنجاری در ترافیک شبکه ، نقش مهمی در مدیریت شبکه ایفا می کند ، که به کنترل شبکه کمک می کند. الگوهای رفتاری عادی کاربر اغلب برای دوره های طولانی به عنوان پایدار و روتین وجود دارد ، اما رفتارهای غیر طبیعی باعث ایجاد تغییرات غیر منتظره در الگوهای عادی می شوند. بنابراین ، می توان از تغییرات الگوی رفتاری برای تشخیص ناهنجاری استفاده کرد. از ویژگی های استخراج شده از بسته های ترافیک خام معمولاً برای ضبط تغییرات پویا در الگوهای رفتاری ، مانند تعداد کل بسته ها یا جریان ها در یک پنجره زمانی خاص استفاده می شود ، و سپس روش های یادگیری ماشین با تغییرات غیر طبیعی مین ترکیب می شوند [1-5]. این روشها برای تشخیص تغییرات آشکار ناشی از رفتارهای غیر طبیعی مؤثر هستند. با این حال ، فن آوری های حمله بیشتر و باهوش تر می شوند و ناهنجاری ها فقط باعث ایجاد تغییرات جزئی در الگوهای ترافیکی می شوند. در همین حال ، حجم ترافیک همچنان در حال افزایش است ، و توصیف رفتار کاربر و شناسایی دقیق ناهنجاری ها از ترافیک گسترده شبکه ، هنوز هم وظایف را برای نظارت بر امنیت شبکه به چالش می کشد.

خصوصیات دقیق الگوی رفتاری پایه و اساس تشخیص ناهنجاری است. بسیاری از تکنیک ها در دهه گذشته ارائه شده است ، مانند تجزیه و تحلیل آماری [6-8] ، داده کاوی [9 ، 10] و یادگیری ماشین [11 ، 12]. تقریباً تمام این روشها فقط با توجه به ترافیک شبکه ، مانند تعداد بسته ها در یک پنجره زمانی خاص ، بدون توجه به تأثیر محیط شبکه ، ویژگی ها را استخراج می کنند ، اما می دانیم که محیط شبکه عامل مهم دیگری برای تشخیص حمله هوشمند است. همانطور که می دانیم ، Botnet یکی از حملات هوشمند معروف است که اخیراً ظاهر شده است ، و یکی از روش های تشخیص Botnet ، تجزیه و تحلیل الگوهای رفتاری "همزمان" میزبان در یک زیر شبکه است [13-16] ، این به معنای برخی استمیزبان در یک زیر شبکه از الگوهای دسترسی مشابهی برخوردار هستند ، مانند همیشه دسترسی به همان URL در همان زمان ، و ممکن است آن میزبان ها به رباتها آلوده شوند. در این مطالعه ، ما از ماتریس مجاور برای ضبط این نوع الگوی استفاده می کنیم.

از طرف دیگر ، نحوه شناسایی ناهنجاری ها از الگوهای عظیم ترافیک یک سوزن معمولی در یک مشکل یونجه (NIHA) است. تجزیه ماتریس ابزاری مؤثر برای تشخیص ناهنجاری است [17 ، 18] ، که می تواند الگوهای عظیم را به دو بخش تقسیم کند: یکی الگوی اصلی در الگوهای اصلی و دیگری مطابق با تغییرات غیر طبیعی است ، که برای تشخیص ناهنجاری مناسب استامروز در شبکه. بنابراین ، ما می توانیم از یک روش تجزیه ماتریس برای تمایز ترافیک طبیعی و غیر طبیعی استفاده کنیم.

برای این منظور ، ما یک طرح تشخیص ناهنجاری را در این مطالعه پیشنهاد کردیم ، که به طور مشترک از ماتریس ویژگی و ماتریس مجاور برای توصیف الگوهای رفتاری کاربر و ویژگی های محیط شبکه استفاده می کند و از تجزیه ماتریس برای شناسایی ناهنجاری ها استفاده می کند. ما هفت ویژگی آماری را از ترافیک شبکه استخراج می کنیم تا یک ماتریس ویژگی را برای ضبط ویژگی های رفتار کاربر در پنجره زمان تهیه کنیم

t. ما همچنین از شباهت آدرسهای IP خاص برای ساخت یک ماتریس مجاور برای ضبط ویژگی های رفتار مربوط به محیط شبکه استفاده می کنیم. ما به طور مشترک از ماتریس ویژگی و ماتریس مجاور برای ساخت یک مدل برای توصیف دقیق ویژگی های رفتار کاربر استفاده می کنیم. سپس ، ما از تجزیه ماتریس CUR [19] استفاده می کنیم تا الگوی اصلی رفتار را از مدل مشترک معدن تهیه کرده و یک ماتریس باقیمانده بدست آوریم ، که می تواند برای شناسایی ناهنجاری ها استفاده شود.

ما برای تأیید اثربخشی و صحت روش خود از دو نوع مجموعه داده ترافیکی استفاده می کنیم. اولین مجموعه داده های عمومی MAWI [20] است که از شبکه ستون فقرات گسترده ، پیوند ترانزیت ترانس اقیانوس آرام بین ژاپن و ایالات متحده جمع آوری می شود. این مجموعه داده دارای برچسب و برای ارزیابی عملکرد روش پیشنهادی ما است. مجموعه داده دوم از مرکز شمال غربی Ceet جمع آوری شده است. کاربران در شبکه نظارت شامل دانشجویان ، اعضای هیئت علمی و پرسنل قرارداد از شرکت های ارائه دهنده خدمات هستند. الگوهای رفتاری موجود به اندازه کافی پیچیده است و می تواند برای اندازه گیری عملی روش ما استفاده شود. نتایج تجربی مبتنی بر دو مجموعه داده نشان می دهد که روش پیشنهادی به میزان دقت تشخیص ناهنجاری بالاتر از 90 ٪ و بدون هیچ دانش قبلی دست می یابد. علاوه بر این ، روش ما همچنین می تواند ناهنجاری ها را برای مدیریت کارآمد شبکه ردیابی کند.

مشارکتهای ما در این مطالعه را می توان به شرح زیر خلاصه کرد: (1) ما یک طرح تشخیص ناهنجاری از جمله هر دو ویژگی استخراج شده از حجم ترافیک و محیط شبکه را پیشنهاد می کنیم: ما از هفت ویژگی ترافیکی برای ضبط تغییرات پویا در حجم ترافیک استفاده می کنیم و از شباهت استفاده می کنیمآدرس های IP برای ساختن یک ماتریس مجاور برای توصیف رفتار کاربر مربوط به محیط شبکه.(2) ما مشکل تشخیص ناهنجاری را به عنوان یک مشکل تجزیه ماتریس شکل می دهیم: ما مشکل تشخیص ناهنجاری را به عنوان یک مشکل تجزیه ماتریس شکل می دهیم و از تجزیه ماتریس CUR برای انجام تشخیص ناهنجاری استفاده می کنیم. نتایج تجربی تأیید می کند که روش توسعه یافته وسیله ای ساده و مؤثر برای نظارت بر امنیت یک شبکه سازمانی است.(3) ما اثربخشی و صحت روشهای خود را در دو مجموعه داده مختلف تأیید می کنیم: اول داده های عمومی Mawi و دوم مجموعه داده های جمع آوری شده از مرکز شمال غربی Ceet. از مجموعه داده MAWI برای اعتبارسنجی صحت طرح پیشنهادی استفاده می شود ، در حالی که از مجموعه داده Ceet برای تأیید عملی استفاده می شود.

باقیمانده این مطالعه به شرح زیر سازماندهی شده است. بخش 2 کار مرتبط را ارائه می دهد. بخش 3 انگیزه ها و اهداف طراحی را تشریح می کند ، پس از آن تعاریف ویژگی و توضیحات چارچوب در بخش 4 ارائه شده است. در بخش 5 ، توضیحات مفصلی از مدل تشخیص ناهنجاری ارائه می دهیم. نتایج و تجزیه و تحلیل تجربی در بخش های 6 و 7 ارائه شده است ، پس از آن نتیجه گیری در بخش 8 به شرح زیر است.

2. کار مرتبط

هدف از تشخیص ناهنجاری ، یافتن وقایع نادر است که مطابق با الگوهای اکثریت در مجموعه داده ها نیست [21 ، 22] ، که در بسیاری از زمینه ها از جمله امنیت ، امور مالی ، مراقبت های بهداشتی و شبکه های اجتماعی به طور گسترده ای کاربرد داشته است.[23-27]. تکنیک های مختلفی برای شناسایی ناهنجاری ها ارائه شده است ، که می تواند از دو جنبه ارائه شود: روش های تشخیص ناهنجاری تحت نظارت و بدون نظارت [28]. آثار مربوط به کار ما به شرح زیر خلاصه می شود.

در مورد تکنیک های تشخیص ناهنجاری تحت نظارت ، آنها معمولاً برای آموزش مدل به یک مجموعه داده برچسب نیاز دارند. یک دستگاه بردار پشتیبانی (SVM) می تواند با به حداکثر رساندن حاشیه طبقه بندی برای تشخیص ناهنجاری ها ، نمونه ها را به عنوان عادی و ناهنجاری طبقه بندی کند. کنگ و همکاران.[29] یک سیستم شناسایی غیر طبیعی ترافیک (ATIS) را بر اساس SVM طراحی کرد. گو و همکاران.[30] یک چارچوب تشخیص نفوذ را بر اساس طبقه بندی کننده گروه SVM با افزایش انتخاب ویژگی پیشنهاد داد. بیسیان ساده لوح یکی دیگر از ابزارهای ساده و مؤثر برای تشخیص ناهنجاری ها است و بسیاری از الگوریتم ها بر اساس قضیه Bayes ارائه شده است. Swakar و همکاران.[31] یک طبقه بندی کننده کلاس بیسین بیزی را بر اساس تجزیه و تحلیل بار بار بسته برای تشخیص حملات HTTP پیشنهاد داد. هان و همکاران.[32] یک مدل بیزی ساده لوح برای تشخیص نفوذ شبکه بر اساس تجزیه و تحلیل مؤلفه اصلی (PCA) ایجاد کرد. نی و همکاران.[33] یک شبکه بیزی را برای الگوبرداری از روابط علی بین ورودی های شبکه طراحی کرد. شبکه های عصبی (NNS) نیز به طور گسترده ای برای تشخیص ناهنجاری مورد استفاده قرار می گیرند زیرا می توانند دقت سیستم های تشخیص ناهنجاری را افزایش دهند. هودو و همکاران.[34] برای آموزش یک شبکه عصبی مصنوعی برای تشخیص حملات DDOS ، از ردپای بسته استفاده کرد. کوون و همکاران.[35] از یک شبکه عصبی حلقوی (CNN) برای تشخیص ناهنجاری ها استفاده کرد ، که می تواند ویژگی های ترافیک را بطور خودکار از مجموعه داده خام انتخاب کند. یک شبکه عصبی مکرر (RNN) در [36] برای یادگیری رفتارهای زمانی در داده های ترافیک شبکه در مقیاس بزرگ ارائه شد. این روشها در شناسایی ناهنجاری ها با مجموعه داده های دقیق دارای برچسب مؤثر هستند. با این حال ، مجموعه داده های دارای برچسب با کیفیت بالا امروز در شبکه بسیار دشوار است.

تکنیک های تشخیص ناهنجاری بدون نظارت اخیراً مورد استفاده قرار می گیرد ، زیرا برای آموزش مدل نیازی به مجموعه داده برچسب ندارند. K-Means یکی از رویکردهای اساسی برای تشخیص ناهنجاری بدون نظارت است [37]. نویسندگان در [38] از K-means برای خوشه بندی اتصالات شبکه به جوامع عادی و غیر عادی استفاده کردند. با این حال ، انتخاب K مناسب دشوار است ، زیرا به برنامه ها و محیط ها بستگی دارد. اخیراً ، چن و همکاران.[39] یک مدل تشخیص ناهنجاری مبتنی بر Autoencoder (CAE) را پیشنهاد کرد. گفت الساید و همکاران.[40] یک رویکرد بیش از حد بر اساس حافظه کوتاه مدت کوتاه مدت (LSTM) و دستگاه بردار پشتیبانی یک طبقه (OC-SVM) برای تشخیص ناهنجاری ها پیشنهاد کرد. اگرچه این روشها از دقت بالایی برخوردار هستند ، اما توضیح روشنی در مورد نتایج دشوار است. علاوه بر این ، ردیابی ناهنجاری ها و اعمال سیاست کنترل دشوار است. تجزیه و تحلیل مؤلفه اصلی (PCA) یکی دیگر از روشهای بدون نظارت است که برای تشخیص ناهنجاری مورد استفاده قرار می گیرد ، که می تواند با ارائه نمونه های داده به مؤلفه های اصلی ، رفتارهای طبیعی و غیر طبیعی داده ها را ضبط کند [41]. Wang and Battiti [42] یک روش تشخیص نفوذ را با PCA با SVD ارائه داد ، که می تواند براساس خطای بین بردار داده اصلی و بردار داده بازسازی آن ، نفوذی را شناسایی کند. با این حال ، برای تفسیر کارآمد نیست زیرا اجزای اصلی ترکیبی خطی از همه متغیرهای اصلی هستند [17]. برای تفسیر این نتایج ، کار در [43] یک روش جدید با نام تجزیه و تحلیل مؤلفه اصلی (SPCA) را برای تولید مؤلفه های اصلی اصلاح شده با بارگذاری پراکنده معرفی کرد. اگرچه این روش می تواند تفسیر را بهبود بخشد ، اما یک رابطه خطی بین مؤلفه های اصلی و متغیر اصلی وجود دارد. با این حال ، متغیرها معمولاً رابطه خطی را حفظ نمی کنند. روشهای تجزیه ماتریس مبتنی بر نمونه برای مقابله با آن مشکلات ارائه شده است ، که ردیف یا ستون از ماتریس اصلی را انتخاب می کنند تا ماتریس های درجه پایین را تشکیل دهند. کومار و همکاران.[44] تجزیه ماتریس CUR برای تفسیر روند تجزیه. با این حال ، روند تجزیه مقدار زیادی حافظه را اشغال می کند. سان و همکاران.[45] روش جدیدی به نام تجزیه Matrix Compact (CMD) را پیشنهاد کرد ، که می تواند از انتخاب مکرر جلوگیری کند ، به نوبه خود ، پیچیدگی محاسباتی را کاهش می دهد. با این حال ، این روش باید با نمونه گیری از ستون ها و/یا ردیف های ماتریس اصلی ، به دنبال یک پایه غیر ارتش باشد ، که باعث ایجاد پایه های بیش از حد مناسب می شود. تانگ و همکاران.

[46] یک روش Colibri را برای مقابله با این چالش ها پیشنهاد کرد. این روش می تواند به طور مکرر یک پایگاه غیرقانونی پیدا کند و بر این اساس هزینه فضا و زمان را صرفه جویی کند. با این حال ، در مقایسه با تجزیه ماتریس CUR و CMD نتواند دقت را بهبود بخشد.

با الهام از آثار مرتبط ، ما یک روش تشخیص ناهنجاری را بر اساس تجزیه ماتریس پیشنهاد می کنیم. با ترکیب مزایای ویژگی های منحنی و شبکه ، روشهای توسعه یافته نه تنها می توانند ناهنجاری های شناخته شده و ناشناخته را تشخیص دهند ، بلکه منبع ناهنجاری ها را نیز ردیابی می کنند.

3. اهداف اساسی و اهداف طراحی

3. 1فرض اساسی و تأیید آن

برای ضبط ویژگی های محیط شبکه ، فرض می کنیم کاربرانی که آدرس های IP را با همان پیشوند نگه می دارند ، الگوهای رفتاری مشابهی دارند و ما این فرض را از سه جنبه زیر تأیید می کنیم.

اولا ، ما اصل کلی ترتیب آدرس IP را تجزیه و تحلیل می کنیم. به طور کلی ، آدرس های IP هیچ ارتباطی با الگوهای رفتاری کاربر ندارند. با این حال ، برای مدیریت راحت ، مدیران شبکه معمولاً آدرس های IP را با همان پیشوند به کاربران در یک منطقه خاص اختصاص می دهند. فرآیند ترتیب آدرس IP را می توان به شرح زیر خلاصه کرد: (1) مرجع شماره شماره های اینترنت (IANA) استخرهای آدرس IP را به پنج سازمان مختلف رجیستری منطقه ای منطقه ای (RIR) در جهان اختصاص می دهد.(2) سازمان منطقه ای آدرس های IP را به ارائه دهندگان خدمات مختلف اینترنت (ISP) اختصاص می دهد.(3) بلوک های آدرس IP توسط ISP به کشورهای مختلف اختصاص می یابد.(4) سرپرستان شبکه هنگام ساخت شبکه محلی محلی خود (LAN) بلوک های آدرس IP را به مناطق مختلف اختصاص می دهند. بر اساس تجزیه و تحلیل فوق ، می توانیم متوجه شویم که آدرس های IP با همان پیشوند اغلب به همان منطقه اختصاص می یابد. علاوه بر این ، کاربران در همان منطقه اغلب الگوهای رفتاری مشابهی دارند زیرا نیازهای شبکه مشابهی دارند. بنابراین ، می توانیم نتیجه بگیریم که کاربرانی که آدرس های IP را با همان پیشوند نگه می دارند ، ممکن است الگوهای رفتاری مشابهی را در خود جای دهند.

ثانیاً ، برخی از محققان نیز در حال کار بر روی پروفایل الگوی ترافیک هستند ، مشخص کردند که کاربرانی که آدرس IP را با همان پیشوند نگه می دارند ، از الگوهای رفتاری مشابهی برخوردار هستند. جیانگ دریافت که رفتار ترافیکی با همان پیشوند اغلب با گذشت زمان پایدار می شود ، که می تواند برای تشخیص ناهنجاری استفاده شود [47]. Xu دریافت که میزبان با همان پیشوندهای شبکه رفتار مشابهی در بین برنامه های مختلف اینترنت دارند [48 ، 49]. جیانگ دریافت که شباهت رفتار ضبط شده توسط جریان های جمع شده با همان پیشوندهای شبکه می تواند برای ساخت مکانیسم شناسایی غیر طبیعی استفاده شود [50]. این آثار بیشتر فرض را تأیید می کنند.

(a)

سوم ، ما الگوهای رفتاری آدرس های IP را با همان پیشوندهای P در مجموعه داده های MAWI و CERNET تجزیه و تحلیل می کنیم. ما به طور تصادفی سه بلوک IP را انتخاب می کنیم ، و نتایج در شکل 1 نشان داده شده است ، جایی که A-C نتایج مجموعه داده MAWI است ، D-F همان مجموعه داده Ceet است ، A و D نتایج P = 8 ، B و E هستندنتایج P = 16 و C و F نتایج P = 24 است. از شکل ، می توانیم متوجه شویم که کاربرانی که آدرس IP را با همان پیشوند نگه می دارند ، از الگوهای رفتاری مشابه ، به ویژه الگوهای رفتاری در مجموعه داده های Ceet برخوردار هستند.

(b)

(آ)

(c)

(ب)

(d)

(ج)

(e)

(د)

(f)

(ه)

(a) (a) (b) (b) (c) (c) (d) (d) (e) (e) (f) (f)

(f) شکل 1

ردیابی آدرس های IP با همان پیشوندها.

3. 2اهداف طراحی

بر اساس نتایج تجزیه و تحلیل فوق ، ما عمدتاً بر توسعه یک روش جدید تشخیص ناهنجاری تمرکز می کنیم ، که در استخراج ناهنجاری های موجود در شبکه امروز مؤثر است و اهداف طراحی به شرح زیر است: (1) بازده مدیریت را بهبود بخشید: برای کنترلناهنجاری ها ، ردیابی ناهنجاری ها مهم و ضروری است. آدرس IP باید در طی فرآیند تشخیص حفظ شود. در روش توسعه یافته ما ، ما هر آدرس IP خاص را به عنوان شاخصی از ستون برای ساخت ماتریس ویژگی در نظر می گیریم ، که می تواند به هدف ردیابی IP غیر طبیعی به راحتی برسد.(2) بهبود صحت تشخیص: برای تهیه یک مدل دقیق تشخیص غیر طبیعی با در نظر گرفتن محیط شبکه ، ما یک ماتریس مجاور را برای توصیف محیط شبکه می سازیم. ماتریس مجاورت از آدرس IP با درجه مشابه تشکیل شده است که با شباهت باینری آدرس های IP محاسبه می شود.(3) بهبود عملی: روش طراحی شده باید در اکثر شبکه های سازمانی بدون اجزای سخت افزاری جدید مستقر شود و ویژگی های مورد استفاده باید به راحتی استخراج شود. علاوه بر این ، این روش باید نسبت به رفتارهای خاص غیر طبیعی که می تواند باعث ایجاد تغییرات جزئی شود ، به منظور تشخیص ناهنجاری های جدید حساس باشد.

4. تعریف ویژگی و توضیحات چارچوب

4. 1تعریف ویژگی حجم

در مرحله اول ، برای اعمال برخی از روشهای اندازه گیری در ترافیک اتخاذ شده ، روشهای تشخیص ناهنجاری بیشتر و بیشتر ویژگی های مربوط به هدر بسته ها را استخراج می کند. اطلاعات موجود در هدر بسته ها در جدول 1 نشان داده شده است. میز 1

اطلاعات در هدر بسته ها.

ثانیا ، ما ویژگی های حملات معمولی را تجزیه و تحلیل می کنیم ، و نتایج در جدول 2 نشان داده شده است. از جدول ، می توانیم متوجه شویم که حملات مختلف ممکن است منجر به تغییرات آشکار در آمار ویژگی های موجود در هدر بسته ها شود ، به نوبه خود ، استخراج شدهویژگی ها تغییر خواهد کرد و از این تغییرات می توان برای تشخیص ناهنجاری ها استفاده کرد. جدول 2

تجزیه و تحلیل حملات معمولی.

تجارت با گزینه‌‌های باینری...

ما را در سایت تجارت با گزینه‌‌های باینری دنبال می کنید

برچسب : نویسنده : حمیدرضا پگاه بازدید : 25 تاريخ : سه شنبه 14 شهريور 1402 ساعت: 13:02

معدن الگوی رفتاری از ترافیک و کاربرد آن در تشخیص ناهنجاری شبکه

آخرین مطالب

امکانات وب