12 results
Search Results
Now showing 1 - 10 of 12
Master Thesis Soyutlayıcı Özetlemek, Benzerlik, Gereklilik, ve Kabul Edilebilirliği Kullanan Kapsamlı Değerlendirme Metriği(2023) Al-brıman, Mohammed Khalıd Hılmı; Yıldız, BeytullahUzun metinlerden otomatik olarak anlamlı özetler üretmek, birçok alanda büyük önem taşımaktadır. Transformer modeli gibi yeni sinir ağı mimarilerinin ortaya çıkması, kaliteli özetler üretebilen çok sayıda büyük dil modellerinin gelişmesine neden olmuştur. Fakat, özetleme modellerinin ürettiği özetler, önemli bir sorunu beraberinde getirmektedir. Özetleme modellerinin kalitesini ölçen, ROUGE gibi, standart otomatik değerlendirme metrikleri, kapsamlı bir değerlendirme yapmakta eksik kalmaktadır. Bu çalışmada, modeller tarafından üretilen ve insanlar tarafından yazılan örnek özetleri kullanan, SEAScore adlı yeni bir model tabanlı metrik sunuyoruz. Bu metrik, semantik benzerlik, doğal dil çıkarımı ve dilsel kabul edilebilirlik gibi çeşitli Doğal Dil İşleme yöntemlerini kullanır. Geliştirdiğimiz SEAScore metriği, daha önce eğitilmiş dil modelleri tarafından çıkarılan özellikleri kullanarak, özetleme modellerinin kalitelerini ölçen bir puan üretir. Bu tezde, üç tane özetleme modeli kullanarak yeni metriğimizin kalitesini ölçen deneyler yaptık. Deneysel sonuçlara göre, geliştirdiğimiz SEAScore metriği, bilinen standart metriklerine göre, insan tarafından üretilen değerlendirme puanları ile daha yüksek korelasyon sergileyerek başarılı sonuçlar sunmuştur.Article Daha İyi Dağıtımla İyileştirilmiş Dengesiz Veriler Üzerinde Derin Öğrenme ile Verimli Metin Sınıflandırması(2022) Yıldız, Beytullah; Yıldız, BeytullahTeknolojik gelişmeler ve internetin yaygınlaşması, günlük olarak üretilen verilerin katlanarak artmasına neden olmaktadır.\rBu veri tufanının önemli bir kısmı sosyal medya, iletişim araçları, müşteri hizmetleri gibi uygulamalardan gelen metin\rverilerinden kaynaklanmaktadır. Bu büyük miktarda metin verisinin işlenmesi otomasyona ihtiyaç duymaktadır. Son\rzamanlarda metin işlemede önemli başarılar elde edilmiştir. Özellikle derin öğrenme uygulamaları ile metin sınıflandırma\rperformansı oldukça tatmin edici hale gelmiştir. Bu çalışmada, metin sınıflandırma başarısını daha da artırmak için veri\rdengesizliği sorununu azaltan yenilikçi bir veri dağıtım algoritması önerdik. Deney sonuçları, veri dağılımını optimize eden\ralgoritma ile sınıflandırma doğruluğunda yaklaşık %3,5 ve F1 puanında 3'ün üzerinde bir iyileşme olduğunu göstermektedir.Master Thesis Reklam Tıklama Tahmini için Takviyeli Öğrenme(2023) Haıder, Umaır; Yıldız, BeytullahÇevrimiçi reklamcılıkta kritik öneme sahip tıklama oranı (CTR) tahmini için geleneksel yöntemler, kullanıcı tercihlerinin dinamikliği ve reklamların alakasını kapsamada zorlanırken, yeni stratejilerin keşfini başarılı olanlarla dengeli bir şekilde sağlayan Thompson Örnekleme gibi takviyeli öğrenme (RL) algoritmaları, etkili bir çözüm sunar. Bu araştırmada, gerçek dünya reklam izlenimleri ve tıklamalarını simüle etmek için özel bir OpenAI Gym ortamını ve kullanıcı tercihlerinin ve reklamların alakasının sürekli değişimini ele alan dinamik CTR'yi tahmin etmek için bir Thompson Örnekleme uygulamasını içeren yeni bir RL tabanlı yaklaşım sunuyoruz. Bulgular, Thompson Örnekleme'nin CTR tahmininde, diğer RL stratejilerinden yaklaşık \%10 daha yüksek bir güven seviyesi ile, üstün bir performans sergilediğini ve bu sayede çevrimiçi reklam seçim süreçlerinin önemli ölçüde gelişebileceğini, böylece daha yüksek CTR'ler ve potansiyel olarak reklam yayıncıları için artan gelir sağlayabileceğini öne sürüyor.Article Citation - WoS: 11Citation - Scopus: 20Reinforcement Learning Using Fully Connected, Attention, and Transformer Models in Knapsack Problem Solving(Wiley, 2022) Yildiz, Beytullah; Yıldız, Beytullah; Yıldız, BeytullahKnapsack is a combinatorial optimization problem that involves a variety of resource allocation challenges. It is defined as non-deterministic polynomial time (NP) hard and has a wide range of applications. Knapsack problem (KP) has been studied in applied mathematics and computer science for decades. Many algorithms that can be classified as exact or approximate solutions have been proposed. Under the category of exact solutions, algorithms such as branch-and-bound and dynamic programming and the approaches obtained by combining these algorithms can be classified. Due to the fact that exact solutions require a long processing time, many approximate methods have been introduced for knapsack solution. In this research, deep Q-learning using models containing fully connected layers, attention, and transformer as function estimators were used to provide the solution for KP. We observed that deep Q-networks, which continued their training by observing the reward signals provided by the knapsack environment we developed, optimized the total reward gained over time. The results showed that our approaches give near-optimum solutions and work about 40 times faster than an exact algorithm using dynamic programming.Master Thesis Saldırı Tespiti için Takviyeli Öğrenme(2021) Saad, Ahmed Mohamed Saad Emam; Yıldız, BeytullahBulut bilişim, web servisleri ve Nesnelerin İnterneti sistemleri gibi ağ tabanlı teknolojiler, esneklikleri ve üstünlükleri nedeniyle yaygın olarak kullanılmaktadır. Öte yandan, ağ tabanlı teknolojilerin katlanarak büyümesi, ağ güvenliği sorunlarının büyüklüğünü artırmaktadır. İzinsiz giriş, ağ tabanlı teknolojilerin güvenliğinin önemli bir parçasıdır. Sağlam bir saldırı tespit sistemi uygulamak, izinsiz giriş sorununu çözmek ve ağ tabanlı teknolojilerin ve hizmetlerin güvenli bir şekilde sunulmasını sağlamak için çok önemlidir. Bu tezde, izinsiz girişleri tespit etmek ve ağ uygulamalarını daha güvenli, güvenilir ve verimli hale getirmek için pekiştirmeli öğrenmeyi kullanan yeni bir yaklaşım öneriyoruz. Takviye öğrenme yaklaşımı olarak, ağ trafiği saldırılarını taklit eden ve öğrenme sürecine rehberlik eden, özel olarak uyarlanmış bir Gym ortamının yanında kullanılan derin Q-öğrenme kullanılmaktadır. Uzun-Kısa Süreli Bellek kullanan denetimli bir derin öğrenme çözümü, karşılaştırma için temel yaklaşım alarak uygulanmıştır. NSL-KDD veri kümesi, takviye öğrenme ortamını oluşturmak için kullanılmakta olup temel modeli eğitmek ve değerlendirmek için de kullanılır. Önerilen pekiştirmeli öğrenme yaklaşımının performans sonuçları, temel modele ve literatürdeki diğer çözümlere göre büyük bir üstünlük göstermektedir.Master Thesis Soyutlayıcı Metin Özetlemesi Derin Öğrenme Kullanarak(2021) Abbas, Hanan Wahhab Abbas; Yıldız, BeytullahÖzetleri otomatik olarak üretme yeteneği, çeşitli alanlarda verimliliğin yanı sıra bilginin yayılmasını ve elde tutulmasını iyileştirmeye yardımcı olabilir. Özetleme, soyutlamacı ve çıkarıcı olmak üzere temelde iki yaklaşım vardır. Ana fikirleri yakalamak için kaynak metnin kısa bir özetini oluşturma süreci olduğu için soyutlayıcı yaklaşım daha başarılı kabul edilir. Bu yaklaşımda, kaynak metinden oluşturulan özetler, orijinal metinde yer almayan yeni ifadeler ve cümleler içerebilir. Dikkate dayalı Tekrarlayan Sinir Ağları kodlayıcı-kod çözücü modellerinin kullanımı, özetleme ve makine çevirisi dahil olmak üzere dille ilgili çeşitli görevler için popüler olmuştur. Son zamanlarda, makine çevirisi alanında, Transformer modelinin Tekrarlayan Sinir Ağları tabanlı modelden üstün olduğu kanıtlanmıştır. Bu tezde, metin özetleme için geliştiril-miş bir kodlayıcı-kod çözücü Transformer modeli öneriyoruz. Temel model olarak, soyutlayıcı metin özetleme görevi için bir Tekrarlayan Sinir Ağları modelini olan Dikkatli Uzun Kısa Süreli Bellek kullandık. Bu çalışmanın değerlendirilmesi, ROUGE puanı kullanılarak otomatik olarak yapılmıştır. Deneysel sonuçlar, Transformer modelinin daha iyi bir özet ve daha yüksek bir ROUGE puanı sağladığını göstermektedir.Article Citation - WoS: 29Citation - Scopus: 43Text Classification Using Improved Bidirectional Transformer(Wiley, 2022) Tezgider, Murat; Yıldız, Beytullah; Yildiz, Beytullah; Aydin, Galip; Yıldız, BeytullahText data have an important place in our daily life. A huge amount of text data is generated everyday. As a result, automation becomes necessary to handle these large text data. Recently, we are witnessing important developments with the adaptation of new approaches in text processing. Attention mechanisms and transformers are emerging as methods with significant potential for text processing. In this study, we introduced a bidirectional transformer (BiTransformer) constructed using two transformer encoder blocks that utilize bidirectional position encoding to take into account the forward and backward position information of text data. We also created models to evaluate the contribution of attention mechanisms to the classification process. Four models, including long short term memory, attention, transformer, and BiTransformer, were used to conduct experiments on a large Turkish text dataset consisting of 30 categories. The effect of using pretrained embedding on models was also investigated. Experimental results show that the classification models using transformer and attention give promising results compared with classical deep learning models. We observed that the BiTransformer we proposed showed superior performance in text classification.Article Citation - WoS: 5Citation - Scopus: 9Optimizing Bitmap Index Encoding for High Performance Queries(Wiley, 2021) Yildiz, Beytullah; Yıldız, Beytullah; Yıldız, BeytullahMany sources such as historical archives, sensor readings, health systems, and machine records produce ever-increasing but often unchanging data. These accumulating data create a need for faster processing. Bitmap index, which can take advantage of multi-core and multiprocessor systems, is designed to process data that increase over time but do not change frequently. It has a well-known advantage, especially in queries on data with low cardinality. However, bitmap index can handle high cardinality data efficiently because it can use its own compression algorithm. Bitmap index has many encoding schemes that affect query processing time. In this study, we developed an algorithm that improves query performance by using optimal encoding among bitmap encodings. With this optimization algorithm, we witnessed up to 40% performance increase in queries made with bitmap indexes created with different encodings. Furthermore, in comparison with a commonly used relational database, we found significant improvements in the number of query operations per second performed on optimized encoded bitmap indexes generated by the introduced algorithm.Article Citation - WoS: 6Citation - Scopus: 10Beyond Rouge: a Comprehensive Evaluation Metric for Abstractive Summarization Leveraging Similarity, Entailment, and Acceptability(World Scientific Publ Co Pte Ltd, 2024) Briman, Mohammed Khalid Hilmi; Yıldız, Beytullah; Yildiz, Beytullah; Yıldız, BeytullahA vast amount of textual information on the internet has amplified the importance of text summarization models. Abstractive summarization generates original words and sentences that may not exist in the source document to be summarized. Such abstractive models may suffer from shortcomings such as linguistic acceptability and hallucinations. Recall-Oriented Understudy for Gisting Evaluation (ROUGE) is a metric commonly used to evaluate abstractive summarization models. However, due to its n-gram-based approach, it ignores several critical linguistic aspects. In this work, we propose Similarity, Entailment, and Acceptability Score (SEAScore), an automatic evaluation metric for evaluating abstractive text summarization models using the power of state-of-the-art pre-trained language models. SEAScore comprises three language models (LMs) that extract meaningful linguistic features from candidate and reference summaries and a weighted sum aggregator that computes an evaluation score. Experimental results show that our LM-based SEAScore metric correlates better with human judgment than standard evaluation metrics such as ROUGE-N and BERTScore.Master Thesis Alımla Zenginleştirişmiş Üretı̇mı̇n Gelı̇ştı̇rı̇lmesı̇: Gelı̇şmı̇ş Dı̇l Modelı̇ Yanıtları İçı̇n Belge Ayrımlarının ve Parametrelerı̇n Optı̇mı̇ze Edı̇lmesı̇(2024) Çelik, Cabir; Yıldız, BeytullahDoğal Dil İşleme (NLP) alanındaki son gelişmeler, özellikle de çeşitli alanlarda güçlü uygulamalar sunan Büyük Dil Modellerinin (LLM) ortaya çıkmasıyla oldukça heyecan vericidir. Bu tez, sağlık alanında etkili bir asistan oluşturmada LLM'leri desteklemek için Alımla-Zeninleştrilmiş Üretim (RAG) çerçevesinde bir iyileştirme sunmaktadır. Sağlıkla ilgili belge analizinde RAG süreçlerini geliştirmek için cümle duyarlı algoritmalarla döküman bölmeye odaklanılmaktadır. Araştırmada, seçilmiş kitaplardan oluşan bir veri kümesi kullanarak RAG'de cümle duyarlı döküman bölmelerin etkinliğini incelemektedir. Bu belgeler, derin öğrenme modelleri veya geleneksel karakter tabanlı bölme yöntemleri kullanılarak bölünmekte ve bir vektör veritabanında saklanmaktadır. Test için seçilen sorular Bölme Uzunluğu, Top K ve Pencere Boyutu gibi parametreler kullanılarak veritabanında sorgulandı ve benzer bölümler getirildi. Benzerlik puanları hesaplanarak en alakalı bölünmeler belirlenir. Sonuçlar, cümle duyarlı bölmenin geleneksel karakter tabanlı bölmeden daha iyi performans gösterdiğini ve Bölme Uzunluğu, Top K ve Pencere Boyutu gibi parametrelerin RAG performansını önemli ölçüde artırdığını göstermektedir

