Frekans Alanında Görüntü Sınıflandırma için Konvolüsyonel Sinir Ağlarının Uygulanması
No Thumbnail Available
Date
2024
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Bu tezde, Evrişimsel Sinir Ağları (CNN'ler) son yıllarda çeşitli görüntü işleme ve bilgisayarlı görme görevlerinde dikkate değer başarılar elde etmiştir. Geleneksel CNN'ler doğrudan uzaysal alan görüntüleri üzerinde çalışır. Bununla birlikte, Hızlı Fourier Dönüşümü (FFT) yoluyla elde edilen görüntülerin frekans alanı gösterimi, piksel değerlerinin ilişkisizleştirilmesi ve hesaplama karmaşıklığında potansiyel azalma gibi benzersiz avantajlar sunar. Bu tez, görüntü sınıflandırmasını ve tanıma doğruluğunu artırmak için FFT ile dönüştürülmüş görüntülerin CNN algoritmalarına girdi olarak kullanılmasının etkilerini araştırmayı amaçlamaktadır. Araştırma, FFT'nin teorik temellerinin ve özelliklerinin kapsamlı bir incelemesiyle başlıyor. Daha sonra CNN'ler için ön işleme ardışık düzenlerinde FFT'nin entegrasyonunu araştırıyor. Giriş görüntülerini uzamsal alandan frekans alanına dönüştürerek, CNN'lerin en önemli frekans bileşenlerine odaklanarak daha verimli öğrenebileceğini, dolayısıyla yakınsama oranlarını ve genel performansı potansiyel olarak iyileştirebileceğini varsayıyoruz. Bunun etkinliğini değerlendirmek için CIFAR-10 (Kanada İleri Araştırma Enstitüsü), MNIST (Modifiye Ulusal Standartlar ve Teknoloji Enstitüsü)-Digits ve MNIST-Fashion dahil olmak üzere çeşitli kıyaslama veri setleri kullanılarak deneyler gerçekleştirildi. yaklaşmak. FFT ile dönüştürülmüş görüntüler çeşitli CNN mimarilerine beslendi ve sonuçlar, geleneksel uzaysal alan girdileri kullanılarak elde edilenlerle karşılaştırıldı. Sınıflandırma doğruluğu, eğitim süresi ve hesaplamalı kaynak kullanımı gibi ölçümler titizlikle analiz edildi. Sonuçlar, FFT tabanlı ön işlemenin, özellikle veri kümelerinin yüksek frekanslı gürültü veya gereksiz bilgi içerdiği senaryolarda, sınıflandırma doğruluğunda iyileştirmelere yol açabileceğini göstermektedir. Ancak faydaların farklı veri kümeleri ve ağ mimarileri arasında farklılık göstermesi, FFT ön işlemenin etkililiğinin bağlama bağlı olabileceğini düşündürmektedir. Sonuç olarak bu tez, FFT ön işlemesinin CNN iş akışlarına dahil edilmesinin görüntü işleme görevlerini geliştirme konusunda umut vaat ettiğini göstermektedir. Bulgular, hem uzaysal hem de frekans alanı bilgisinden yararlanan hibrit modellerin geliştirilmesi ve FFT tabanlı tekniklerin diğer sinir ağı türlerine ve makine öğrenimi algoritmalarına uygulanması da dahil olmak üzere gelecekteki araştırmalar için yollar önermektedir. Bu çalışma, bilgisayarlı görme alanını geliştirmek için frekans alanı analizinin derin öğrenme metodolojileriyle nasıl sinerjik olarak entegre edilebileceğinin daha geniş bir şekilde anlaşılmasına katkıda bulunmaktadır.
In recent years, Convolutional Neural Networks (CNNs) have achieved remarkable success in various image processing and computer vision tasks. Traditional CNNs operate directly on spatial domain images. However, the frequency domain representation of images obtained through Fast Fourier Transform (FFT) offers unique advantages, such as decorrelation of pixel values and potential reduction in computational complexity. This thesis aims to investigate the effects of using FFT-transformed images as input to CNN algorithms to enhance image classification and recognition accuracy. The research begins with a comprehensive examination of the theoretical foundations and properties of FFT. It then explores the integration of FFT in preprocessing pipelines for CNNs. By converting input images from the spatial domain to the frequency domain, we hypothesize that CNNs can learn more efficiently by focusing on the most significant frequency components, thereby potentially improving convergence rates and overall performance. Experiments were con- ducted using various benchmark datasets, including CIFAR-10(Canadian Institute For Advanced Research), MNIST(Modified National Institute of Standards and Technology)-Digits, and MNIST-Fashion, to evaluate the efficacy of this approach. FFT-transformed images were fed into various CNN architectures, and the results were compared with those obtained using traditional spatial domain inputs. Metrics such as classification accuracy, training time, and computational resource utilization were meticulously analyzed. The results indicate that FFT-based preprocessing can lead to improvements in classification accuracy, particularly in scenarios where the datasets contain high-frequency noise or redundant information. However, the benefits varied across different datasets and network architectures, suggesting that the effectiveness of FFT preprocessing may be context dependent. In conclusion, this thesis demonstrates that incorporating FFT preprocessing into CNN work- flows holds promise for enhancing image processing tasks. The findings suggest avenues for future research, including the development of hybrid models that leverage both spatial and frequency domain information and the application of FFT-based techniques to other types of neural networks and machine learning algorithms. This study contributes to a broader understanding of how frequency domain analysis can be synergistically integrated with deep learning methodologies to advance the field of computer vision.
In recent years, Convolutional Neural Networks (CNNs) have achieved remarkable success in various image processing and computer vision tasks. Traditional CNNs operate directly on spatial domain images. However, the frequency domain representation of images obtained through Fast Fourier Transform (FFT) offers unique advantages, such as decorrelation of pixel values and potential reduction in computational complexity. This thesis aims to investigate the effects of using FFT-transformed images as input to CNN algorithms to enhance image classification and recognition accuracy. The research begins with a comprehensive examination of the theoretical foundations and properties of FFT. It then explores the integration of FFT in preprocessing pipelines for CNNs. By converting input images from the spatial domain to the frequency domain, we hypothesize that CNNs can learn more efficiently by focusing on the most significant frequency components, thereby potentially improving convergence rates and overall performance. Experiments were con- ducted using various benchmark datasets, including CIFAR-10(Canadian Institute For Advanced Research), MNIST(Modified National Institute of Standards and Technology)-Digits, and MNIST-Fashion, to evaluate the efficacy of this approach. FFT-transformed images were fed into various CNN architectures, and the results were compared with those obtained using traditional spatial domain inputs. Metrics such as classification accuracy, training time, and computational resource utilization were meticulously analyzed. The results indicate that FFT-based preprocessing can lead to improvements in classification accuracy, particularly in scenarios where the datasets contain high-frequency noise or redundant information. However, the benefits varied across different datasets and network architectures, suggesting that the effectiveness of FFT preprocessing may be context dependent. In conclusion, this thesis demonstrates that incorporating FFT preprocessing into CNN work- flows holds promise for enhancing image processing tasks. The findings suggest avenues for future research, including the development of hybrid models that leverage both spatial and frequency domain information and the application of FFT-based techniques to other types of neural networks and machine learning algorithms. This study contributes to a broader understanding of how frequency domain analysis can be synergistically integrated with deep learning methodologies to advance the field of computer vision.
Description
Keywords
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Görüntü işleme, Görüntü sınıflandırma, Görüntü tanıma, Veri işleme, Yapay görme, Yapay sinir ağları, Yapay zeka, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering, Image processing, Image classification, Image recognition, Data processing, Machine vision, Artificial neural networks, Artificial intelligence