Yapay Zeka Kodlarında Güvenlik: LLM Çıktılarındaki Açıkları Azaltmak için Prompt Mühendisliği Yaklaşımı

Loading...
Publication Logo

Date

2025

Journal Title

Journal ISSN

Volume Title

Publisher

Open Access Color

OpenAIRE Downloads

OpenAIRE Views

Research Projects

Journal Issue

Abstract

Yapay zeka tarafından üretilen kodların güvenliği, Büyük Dil Modelleri'nin (LLM'ler) yazılım geliştirme süreçlerinde giderek daha fazla kullanılmasıyla önemli bir endişe haline gelmiştir. GPT-3.5, GPT-4, Gemini, DeepSeek ve LLaMA gibi güçlü kod üretme yeteneklerine sahip modeller, güvenlik açısından kabul görmüş standartları tam olarak anlamadıkları için SQL enjeksiyonu, zayıf kimlik doğrulama ve hatalı erişim kontrolü gibi güvenlik açıklarına karşı savunmasız kalabilmektedir. Bu tez, LLM'ler tarafından üretilen kodların güvenliğini artırmak amacıyla OWASP Top 10 standartlarının dahil edildiği hızlı mühendislik (prompt engineering) tekniklerini incelemektedir. Bu çalışmada, farklı LLM'lerde (zero-shot, Chain-of-Thought, Recursive Criticism and Improvement (RCI) ve persona tabanlı promptlar) farklı yönlendirme stratejileri karşılaştırılarak bir kıyaslama veri kümesi (LLMSecEval) ve statik analiz araçları (Bandit ve CodeQL) kullanılmıştır. Sonuçlar, RCI tekniğinin güvenlik açıklarını önemli ölçüde azalttığını ve LLaMA modelinin RCI tekniğiyle sıfır güvenlik açığına ulaştığını göstermektedir. Bulgular, yönlendirme (prompt) tasarımının güvenlik risklerini azaltmadaki etkinliğini ortaya koymakta ve geliştiriciler ile araştırmacılar için güvenli kod üretimi konusunda pratik içgörüler sunmaktadır. Bu araştırma; açık ve kapalı LLM'lerin karşılaştırmalı değerlendirmesini yaparak, prompt mühendisliğini geliştirerek ve güvenlik odaklı, yeniden kullanılabilir prompt şablonları önererek literatüre katkı sağlamaktadır. Araştırmanın ikinci aşamasında, RCI-SA Döngüsü (Statik Analiz ile Yinelemeli Eleştiri ve İyileştirme) adı verilen bir iyileştirme yöntemi sunulmuştur. Bu yinelemeli yaklaşım, statik analiz geri bildirimlerini kullanarak üretilen kodları sürekli olarak iyileştirmeyi amaçlamaktadır. Bazı durumlarda tespit edilen toplam CWE sayısı artsa da, bu döngü birçok kritik güvenlik açığını ortadan kaldırmış ve önceden gizli olan sorunları açığa çıkarmıştır, bu da genel güvenliğin artmasına yol açmıştır. Bu yöntem, yinelemeli doğrulamanın önemini vurgulamakta ve geri bildirim odaklı prompt iyileştirmeleri yoluyla güvenli kod üretimi için pratik bir çerçeve sunmaktadır.
The security of AI-generated code has become an important concern as Large Language Models (LLMs) are being used more and more in software development. Despite having strong code generating capabilities, LLMs like GPT-3.5, GPT-4, Gemini, DeepSeek, and LLaMA frequently don't understand accepted security procedures, which leaves them vulnerable to issues like SQL injection, weak authentication, and inappropriate access control. This thesis explores the improvement of LLM-generated code security by rapid engineering, namely through the incorporation of OWASP Top 10 standards. A benchmark dataset (LLMSecEval) and static analysis tools (Bandit and CodeQL) are used in this study to compare different prompting strategies across many LLMs, such as zero-shot, Chain-of-Thought, Recursive Criticism and Improvement (RCI), and persona-based prompts. Results indicate that RCI prompting significantly reduce vulnerability rates, with LLaMA achieving zero vulnerabilities under RCI prompting. The findings underscore the effectiveness of prompt design in mitigating security risks and offer practical insights into secure code generation for developers and researchers. This research contributes to the field by benchmarking open and closed LLMs, enhancing prompt engineering practices, and proposing reusable, security-aware prompt templates. In the second phase of the research, a refinement method called RCI-SA Loop (Recursive Critique and Improvement with Static Analysis) is introduced. This iterative approach uses static analysis feedback to continuously improve generated code. While the total number of detected CWEs increased in some cases, the loop effectively removed several critical vulnerabilities and exposed previously hidden issues, resulting in overall security improvement. The method highlights the importance of iterative validation and contributes a practical framework for secure code generation through feedback-driven prompt refinement.

Description

Keywords

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Güvenlik Mühendisliği, Güvenlik Protokolleri, Kod Üretici, Yazılım Güvenliği, Computer Engineering and Computer Science and Control, Security Engineering, Security Protocols, Code Generator, Software Security

Turkish CoHE Thesis Center URL

Fields of Science

Citation

WoS Q

Scopus Q

Source

Volume

Issue

Start Page

End Page

91
Page Views

1

checked on Apr 20, 2026

Downloads

27

checked on Apr 20, 2026

Google Scholar Logo
Google Scholar™

Sustainable Development Goals

SDG data could not be loaded because of an error. Please refresh the page or try again later.