Veri odakli ve açiklanabilir saldiri tespiti: Shaprehberli özellik mühendisli̇ği ve dayaniklilik testlerikullanilarak kapsamli bir çerçeve
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
Siber tehditlerin karmaşıklığı arttıkça, geleneksel imza tabanlı Saldırı Tespit Sistemleri (IDS) yetersiz kalmaktadır. Anomali tabanlı yaklaşımlara geçiş zorunlu olsa da mevcut makine öğrenmesi modelleri genellikle aşırı yanlış alarmlar, 'kara kutu' karar mekanizmaları ve sıfırıncı gün saldırılarını tespit etmede yetersizlik gibi sorunlar yaşamaktadır. Bu tez, UNSW-NB15 veri setini kullanarak yanlış negatifleri (kaçırılan saldırıları) azaltmayı ve operasyonel güvenilirliği sağlamayı önceliklendiren veri odaklı bir IDS çerçevesi sunmaktadır. Metodolojimiz, model seçiminden ileri düzey dayanıklılık testlerine kadar sistematik bir ilerleme izlemektedir. Yirminin üzerinde algoritmanın değerlendirilmesinin ardından, Rastgele Orman (Random Forest), Karar Ağacı (Decision Tree) ve Uzun Kısa Süreli Bellek (LSTM) temel modeller olarak seçilmiştir. Çalışmanın önemli bir katkısı, istatistiksel çıkarımları SHAP analizi ile birleştiren hibrit bir özellik mühendisliği stratejisidir. Bu yaklaşım, gizli saldırı örüntülerini ortaya çıkarmamızı ve özellik uzayını 230 niteliğe genişletmemizi sağlamıştır. Sistemin dayanıklılığı ayrıca Maliyet Duyarlı Öğrenme, Kavram Kayması (Concept Drift) ve Açık Küme Tanıma (Open-Set Recognition) senaryoları ile doğrulanmıştır. Deneysel sonuçlar, önerilen çerçevenin operasyonel güvenilirliği önemli ölçüde artırdığını göstermektedir. Derin mimariler, özellikle LSTM modeli, yanlış negatif oranlarını neredeyse sıfıra indirerek kaçırılan saldırıları büyük ölçüde minimize etmiştir. Rastgele Orman modeli 0.9870 AUC-PR skoru ile en kararlı sınıflandırıcı olarak öne çıkarken, LSTM modeli bilinmeyen tehditleri tespit etmede üstünlük sağlamış ve açık küme testlerinde görülmemiş saldırı türlerinin %93.18'ini yakalamıştır. Ayrıca, maliyet duyarlı öğrenme yanlış negatif oranını %0.05'in altına düşürerek 'sıfır sızdırma' seviyesine yaklaşmış, ancak bunun kesinlik (precision) değerinden ödün verilmesini gerektirdiği de ortaya konmuştur. Bu çalışma, etkili yeni nesil IDS'lerin inşasında rafine veri temsilinin en az algoritmik karmaşıklık kadar hayati olduğu sonucuna varmaktadır.
As cyber threats evolve in complexity, traditional signature-based Intrusion Detection Systems (IDS) are becoming insufficient on their own against sophisticated threats. The shift towards anomaly-based approaches is necessary, yet existing machine learning models often fall short due to excessive false alarms, 'black box' decision- making, and poor detection of zero-day attacks. This thesis presents a data-centric IDS framework that prioritizes the reduction of false negatives to ensure operational reliability, utilizing the UNSW-NB15 dataset. Our methodology follows a systematic progression from model selection to advanced stress testing. After evaluating a pool of over twenty algorithms, we selected Random Forest (RF), Decision Tree (DT), and Long Short-Term Memory (LSTM) as our core models. A key contribution of this work is a hybrid feature engineering strategy that integrates statistical derivations with SHAP analysis. This approach allowed us to reveal hidden attack patterns and expand the feature space to 230 attributes. We further validated the system's robustness through Cost-Sensitive Learning, Concept Drift, and Open-Set Recognition scenarios. The experiments demonstrate that the proposed framework significantly enhances operational reliability. Deep architectures, particularly LSTM, achieved near-zero false negative rates, dramatically reducing the risk of missed attacks. Random Forest emerged as the most stable classifier with an AUC-PR of 0.9870, whereas LSTM excelled at detecting the unknown, capturing 93.18% of unseen attack types in open- set tests. It has also been shown that cost-sensitive learning reduces the false negative rate to below 0.05%, approaching the 'zero leakage' level, but this requires sacrificing precision.This study concludes that refined data representation is as vital as algorithmic sophistication in building effective next-generation IDS.
As cyber threats evolve in complexity, traditional signature-based Intrusion Detection Systems (IDS) are becoming insufficient on their own against sophisticated threats. The shift towards anomaly-based approaches is necessary, yet existing machine learning models often fall short due to excessive false alarms, 'black box' decision- making, and poor detection of zero-day attacks. This thesis presents a data-centric IDS framework that prioritizes the reduction of false negatives to ensure operational reliability, utilizing the UNSW-NB15 dataset. Our methodology follows a systematic progression from model selection to advanced stress testing. After evaluating a pool of over twenty algorithms, we selected Random Forest (RF), Decision Tree (DT), and Long Short-Term Memory (LSTM) as our core models. A key contribution of this work is a hybrid feature engineering strategy that integrates statistical derivations with SHAP analysis. This approach allowed us to reveal hidden attack patterns and expand the feature space to 230 attributes. We further validated the system's robustness through Cost-Sensitive Learning, Concept Drift, and Open-Set Recognition scenarios. The experiments demonstrate that the proposed framework significantly enhances operational reliability. Deep architectures, particularly LSTM, achieved near-zero false negative rates, dramatically reducing the risk of missed attacks. Random Forest emerged as the most stable classifier with an AUC-PR of 0.9870, whereas LSTM excelled at detecting the unknown, capturing 93.18% of unseen attack types in open- set tests. It has also been shown that cost-sensitive learning reduces the false negative rate to below 0.05%, approaching the 'zero leakage' level, but this requires sacrificing precision.This study concludes that refined data representation is as vital as algorithmic sophistication in building effective next-generation IDS.
Description
Keywords
Computer Engineering and Computer Science and Control, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol
Turkish CoHE Thesis Center URL
Fields of Science
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
End Page
69
