Veri odakli ve açiklanabilir saldiri tespiti: Shaprehberli özellik mühendisli̇ği ve dayaniklilik testlerikullanilarak kapsamli bir çerçeve

Varlı, Buğra

Veri odakli ve açiklanabilir saldiri tespiti: Shaprehberli özellik mühendisli̇ği ve dayaniklilik testlerikullanilarak kapsamli bir çerçeve

dc.contributor.advisor	Sezen, Arda
dc.contributor.author	Varlı, Buğra
dc.date.accessioned	2026-06-05T09:19:02Z
dc.date.available	2026-06-05T09:19:02Z
dc.date.issued	2026
dc.description.abstract	Siber tehditlerin karmaşıklığı arttıkça, geleneksel imza tabanlı Saldırı Tespit Sistemleri (IDS) yetersiz kalmaktadır. Anomali tabanlı yaklaşımlara geçiş zorunlu olsa da mevcut makine öğrenmesi modelleri genellikle aşırı yanlış alarmlar, 'kara kutu' karar mekanizmaları ve sıfırıncı gün saldırılarını tespit etmede yetersizlik gibi sorunlar yaşamaktadır. Bu tez, UNSW-NB15 veri setini kullanarak yanlış negatifleri (kaçırılan saldırıları) azaltmayı ve operasyonel güvenilirliği sağlamayı önceliklendiren veri odaklı bir IDS çerçevesi sunmaktadır. Metodolojimiz, model seçiminden ileri düzey dayanıklılık testlerine kadar sistematik bir ilerleme izlemektedir. Yirminin üzerinde algoritmanın değerlendirilmesinin ardından, Rastgele Orman (Random Forest), Karar Ağacı (Decision Tree) ve Uzun Kısa Süreli Bellek (LSTM) temel modeller olarak seçilmiştir. Çalışmanın önemli bir katkısı, istatistiksel çıkarımları SHAP analizi ile birleştiren hibrit bir özellik mühendisliği stratejisidir. Bu yaklaşım, gizli saldırı örüntülerini ortaya çıkarmamızı ve özellik uzayını 230 niteliğe genişletmemizi sağlamıştır. Sistemin dayanıklılığı ayrıca Maliyet Duyarlı Öğrenme, Kavram Kayması (Concept Drift) ve Açık Küme Tanıma (Open-Set Recognition) senaryoları ile doğrulanmıştır. Deneysel sonuçlar, önerilen çerçevenin operasyonel güvenilirliği önemli ölçüde artırdığını göstermektedir. Derin mimariler, özellikle LSTM modeli, yanlış negatif oranlarını neredeyse sıfıra indirerek kaçırılan saldırıları büyük ölçüde minimize etmiştir. Rastgele Orman modeli 0.9870 AUC-PR skoru ile en kararlı sınıflandırıcı olarak öne çıkarken, LSTM modeli bilinmeyen tehditleri tespit etmede üstünlük sağlamış ve açık küme testlerinde görülmemiş saldırı türlerinin %93.18'ini yakalamıştır. Ayrıca, maliyet duyarlı öğrenme yanlış negatif oranını %0.05'in altına düşürerek 'sıfır sızdırma' seviyesine yaklaşmış, ancak bunun kesinlik (precision) değerinden ödün verilmesini gerektirdiği de ortaya konmuştur. Bu çalışma, etkili yeni nesil IDS'lerin inşasında rafine veri temsilinin en az algoritmik karmaşıklık kadar hayati olduğu sonucuna varmaktadır.	tr
dc.description.abstract	As cyber threats evolve in complexity, traditional signature-based Intrusion Detection Systems (IDS) are becoming insufficient on their own against sophisticated threats. The shift towards anomaly-based approaches is necessary, yet existing machine learning models often fall short due to excessive false alarms, 'black box' decision- making, and poor detection of zero-day attacks. This thesis presents a data-centric IDS framework that prioritizes the reduction of false negatives to ensure operational reliability, utilizing the UNSW-NB15 dataset. Our methodology follows a systematic progression from model selection to advanced stress testing. After evaluating a pool of over twenty algorithms, we selected Random Forest (RF), Decision Tree (DT), and Long Short-Term Memory (LSTM) as our core models. A key contribution of this work is a hybrid feature engineering strategy that integrates statistical derivations with SHAP analysis. This approach allowed us to reveal hidden attack patterns and expand the feature space to 230 attributes. We further validated the system's robustness through Cost-Sensitive Learning, Concept Drift, and Open-Set Recognition scenarios. The experiments demonstrate that the proposed framework significantly enhances operational reliability. Deep architectures, particularly LSTM, achieved near-zero false negative rates, dramatically reducing the risk of missed attacks. Random Forest emerged as the most stable classifier with an AUC-PR of 0.9870, whereas LSTM excelled at detecting the unknown, capturing 93.18% of unseen attack types in open- set tests. It has also been shown that cost-sensitive learning reduces the false negative rate to below 0.05%, approaching the 'zero leakage' level, but this requires sacrificing precision.This study concludes that refined data representation is as vital as algorithmic sophistication in building effective next-generation IDS.	en_US
dc.identifier.uri	https://hdl.handle.net/20.500.14411/11617
dc.identifier.uri	https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=5T1_CZ5-UGb9QCmoURec4HmOisfA3-9ENOJbS0O-2sr3GHD4Mk52PH4fPeh8mvN9
dc.language.iso	en
dc.subject	Computer Engineering and Computer Science and Control	en_US
dc.subject	Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol	tr
dc.title	Veri odakli ve açiklanabilir saldiri tespiti: Shaprehberli özellik mühendisli̇ği ve dayaniklilik testlerikullanilarak kapsamli bir çerçeve	tr
dc.title	Data-drıven and explaınable ıntrusıon detectıon: acomprehensıve framework usıng shap-guıded featureengıneerıng and robustness testıng	en_US
dc.type	Master Thesis
dspace.entity.type	Publication
gdc.coar.access	metadata only access
gdc.coar.type	text::thesis::master thesis
gdc.description.department	FEN BİLİMLERİ ENSTİTÜSÜ / BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI / Bilgisayar Mühendisliği Bilim Dalı
gdc.description.department	Atılım University
gdc.description.endpage	69
gdc.identifier.yoktezid	1005240
relation.isAuthorOfPublication.latestForDiscovery	367853fe-83ca-445e-a3be-00c62fcb4e35
relation.isOrgUnitOfPublication.latestForDiscovery	50be38c5-40c4-4d5f-b8e6-463e9514c6dd

Collections

Yüksek Lisans Tezleri

Veri odakli ve açiklanabilir saldiri tespiti: Shaprehberli özellik mühendisli̇ği ve dayaniklilik testlerikullanilarak kapsamli bir çerçeve

Files

Collections