Alımla Zenginleştirilmiş Üretimin Geliştirilmesi: Gelişmiş Dil Modeli Yanıtları İçin Belge Ayrımlarının ve Parametrelerin Optimize Edilmesi

dc.contributor.advisor Yıldız, Beytullah
dc.contributor.author Çelik, Cabir
dc.date.accessioned 2026-04-03T14:56:30Z
dc.date.available 2026-04-03T14:56:30Z
dc.date.issued 2024
dc.description.abstract Recent developments in Natural Language Processing (NLP) are very exciting, especially with the advent of Large Language Models (LLMs), which offer powerful applications in various domains. This thesis presents an enhancement of the Retrieval-Augmented Generation (RAG) framework to support LLMs in creating an effective health-related assistant. The focus is on sentence-aware splitting algorithms to improve RAG processes in healthcare document analysis. The research investigates the effectiveness of sentence-aware splitting in RAG using a dataset of questions and books. These documents are split into different lengths based on sentence awareness, using either deep learning models or traditional character-based methods, and stored in a vector database. For testing, questions are selected and relevant splits are retrieved from the database using parameters such as Split Length, Top K, and Window Size. Similarity scores are calculated to identify the most relevant splits. The results show that sentence-aware splitting outperforms traditional character-based splitting and that parameters such as Split Length, Top K, and Window Size significantly improve RAG performance. en_US
dc.description.abstract Doğal Dil İşleme (NLP) alanındaki son gelişmeler, özellikle de çeşitli alanlarda güçlü uygulamalar sunan Büyük Dil Modellerinin (LLM) ortaya çıkmasıyla oldukça heyecan vericidir. Bu tez, sağlık alanında etkili bir asistan oluşturmada LLM'leri desteklemek için Alımla-Zeninleştrilmiş Üretim (RAG) çerçevesinde bir iyileştirme sunmaktadır. Sağlıkla ilgili belge analizinde RAG süreçlerini geliştirmek için cümle duyarlı algoritmalarla döküman bölmeye odaklanılmaktadır. Araştırmada, seçilmiş kitaplardan oluşan bir veri kümesi kullanarak RAG'de cümle duyarlı döküman bölmelerin etkinliğini incelemektedir. Bu belgeler, derin öğrenme modelleri veya geleneksel karakter tabanlı bölme yöntemleri kullanılarak bölünmekte ve bir vektör veritabanında saklanmaktadır. Test için seçilen sorular Bölme Uzunluğu, Top K ve Pencere Boyutu gibi parametreler kullanılarak veritabanında sorgulandı ve benzer bölümler getirildi. Benzerlik puanları hesaplanarak en alakalı bölünmeler belirlenir. Sonuçlar, cümle duyarlı bölmenin geleneksel karakter tabanlı bölmeden daha iyi performans gösterdiğini ve Bölme Uzunluğu, Top K ve Pencere Boyutu gibi parametrelerin RAG performansını önemli ölçüde artırdığını göstermektedir tr
dc.identifier.uri https://hdl.handle.net/20.500.14411/11262
dc.identifier.uri https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=UjlM15wKZGQW6TLC0pvCtxFifAGDMzckP2e3yOYELqq0nCHdS8CE5ssZ44_GWs-F
dc.language.iso en
dc.subject Computer Engineering and Computer Science and Control en_US
dc.subject Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol tr
dc.title Alımla Zenginleştirilmiş Üretimin Geliştirilmesi: Gelişmiş Dil Modeli Yanıtları İçin Belge Ayrımlarının ve Parametrelerin Optimize Edilmesi tr
dc.title Enhancing Retrieval-Augmented Generation: Optimizing Document Splits and Parameters for Improved Language Model Responses en_US
dc.type Master Thesis
dspace.entity.type Publication
gdc.description.department FEN BİLİMLERİ ENSTİTÜSÜ / Yazılım Mühendisliği Ana Bilim Dalı / Yazılım Mühendisliği Bilim Dalı
gdc.description.department Atılım University
gdc.description.endpage 83
gdc.identifier.yoktezid 895612
gdc.virtual.author Yıldız, Beytullah
relation.isAuthorOfPublication 8eb144cb-95ff-4557-a99c-cd0ffa90749d
relation.isAuthorOfPublication.latestForDiscovery 8eb144cb-95ff-4557-a99c-cd0ffa90749d
relation.isOrgUnitOfPublication 4abda634-67fd-417f-bee6-59c29fc99997
relation.isOrgUnitOfPublication 50be38c5-40c4-4d5f-b8e6-463e9514c6dd
relation.isOrgUnitOfPublication.latestForDiscovery 4abda634-67fd-417f-bee6-59c29fc99997

Files