Veri odakli ve açiklanabilir saldiri tespiti: Shaprehberli özellik mühendisli̇ği ve dayaniklilik testlerikullanilarak kapsamli bir çerçeve

dc.contributor.advisor Sezen, Arda
dc.contributor.author Varlı, Buğra
dc.date.accessioned 2026-06-05T09:19:02Z
dc.date.available 2026-06-05T09:19:02Z
dc.date.issued 2026
dc.description.abstract Siber tehditlerin karmaşıklığı arttıkça, geleneksel imza tabanlı Saldırı Tespit Sistemleri (IDS) yetersiz kalmaktadır. Anomali tabanlı yaklaşımlara geçiş zorunlu olsa da mevcut makine öğrenmesi modelleri genellikle aşırı yanlış alarmlar, 'kara kutu' karar mekanizmaları ve sıfırıncı gün saldırılarını tespit etmede yetersizlik gibi sorunlar yaşamaktadır. Bu tez, UNSW-NB15 veri setini kullanarak yanlış negatifleri (kaçırılan saldırıları) azaltmayı ve operasyonel güvenilirliği sağlamayı önceliklendiren veri odaklı bir IDS çerçevesi sunmaktadır. Metodolojimiz, model seçiminden ileri düzey dayanıklılık testlerine kadar sistematik bir ilerleme izlemektedir. Yirminin üzerinde algoritmanın değerlendirilmesinin ardından, Rastgele Orman (Random Forest), Karar Ağacı (Decision Tree) ve Uzun Kısa Süreli Bellek (LSTM) temel modeller olarak seçilmiştir. Çalışmanın önemli bir katkısı, istatistiksel çıkarımları SHAP analizi ile birleştiren hibrit bir özellik mühendisliği stratejisidir. Bu yaklaşım, gizli saldırı örüntülerini ortaya çıkarmamızı ve özellik uzayını 230 niteliğe genişletmemizi sağlamıştır. Sistemin dayanıklılığı ayrıca Maliyet Duyarlı Öğrenme, Kavram Kayması (Concept Drift) ve Açık Küme Tanıma (Open-Set Recognition) senaryoları ile doğrulanmıştır. Deneysel sonuçlar, önerilen çerçevenin operasyonel güvenilirliği önemli ölçüde artırdığını göstermektedir. Derin mimariler, özellikle LSTM modeli, yanlış negatif oranlarını neredeyse sıfıra indirerek kaçırılan saldırıları büyük ölçüde minimize etmiştir. Rastgele Orman modeli 0.9870 AUC-PR skoru ile en kararlı sınıflandırıcı olarak öne çıkarken, LSTM modeli bilinmeyen tehditleri tespit etmede üstünlük sağlamış ve açık küme testlerinde görülmemiş saldırı türlerinin %93.18'ini yakalamıştır. Ayrıca, maliyet duyarlı öğrenme yanlış negatif oranını %0.05'in altına düşürerek 'sıfır sızdırma' seviyesine yaklaşmış, ancak bunun kesinlik (precision) değerinden ödün verilmesini gerektirdiği de ortaya konmuştur. Bu çalışma, etkili yeni nesil IDS'lerin inşasında rafine veri temsilinin en az algoritmik karmaşıklık kadar hayati olduğu sonucuna varmaktadır. tr
dc.description.abstract As cyber threats evolve in complexity, traditional signature-based Intrusion Detection Systems (IDS) are becoming insufficient on their own against sophisticated threats. The shift towards anomaly-based approaches is necessary, yet existing machine learning models often fall short due to excessive false alarms, 'black box' decision- making, and poor detection of zero-day attacks. This thesis presents a data-centric IDS framework that prioritizes the reduction of false negatives to ensure operational reliability, utilizing the UNSW-NB15 dataset. Our methodology follows a systematic progression from model selection to advanced stress testing. After evaluating a pool of over twenty algorithms, we selected Random Forest (RF), Decision Tree (DT), and Long Short-Term Memory (LSTM) as our core models. A key contribution of this work is a hybrid feature engineering strategy that integrates statistical derivations with SHAP analysis. This approach allowed us to reveal hidden attack patterns and expand the feature space to 230 attributes. We further validated the system's robustness through Cost-Sensitive Learning, Concept Drift, and Open-Set Recognition scenarios. The experiments demonstrate that the proposed framework significantly enhances operational reliability. Deep architectures, particularly LSTM, achieved near-zero false negative rates, dramatically reducing the risk of missed attacks. Random Forest emerged as the most stable classifier with an AUC-PR of 0.9870, whereas LSTM excelled at detecting the unknown, capturing 93.18% of unseen attack types in open- set tests. It has also been shown that cost-sensitive learning reduces the false negative rate to below 0.05%, approaching the 'zero leakage' level, but this requires sacrificing precision.This study concludes that refined data representation is as vital as algorithmic sophistication in building effective next-generation IDS. en_US
dc.identifier.uri https://hdl.handle.net/20.500.14411/11617
dc.identifier.uri https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=5T1_CZ5-UGb9QCmoURec4HmOisfA3-9ENOJbS0O-2sr3GHD4Mk52PH4fPeh8mvN9
dc.language.iso en
dc.subject Computer Engineering and Computer Science and Control en_US
dc.subject Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol tr
dc.title Veri odakli ve açiklanabilir saldiri tespiti: Shaprehberli özellik mühendisli̇ği ve dayaniklilik testlerikullanilarak kapsamli bir çerçeve tr
dc.title Data-drıven and explaınable ıntrusıon detectıon: acomprehensıve framework usıng shap-guıded featureengıneerıng and robustness testıng en_US
dc.type Master Thesis
dspace.entity.type Publication
gdc.coar.access metadata only access
gdc.coar.type text::thesis::master thesis
gdc.description.department FEN BİLİMLERİ ENSTİTÜSÜ / BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI / Bilgisayar Mühendisliği Bilim Dalı
gdc.description.department Atılım University
gdc.description.endpage 69
gdc.identifier.yoktezid 1005240
relation.isAuthorOfPublication.latestForDiscovery 367853fe-83ca-445e-a3be-00c62fcb4e35
relation.isOrgUnitOfPublication.latestForDiscovery 50be38c5-40c4-4d5f-b8e6-463e9514c6dd

Files