Yüksek Lisans Tezleri

Permanent URI for this collectionhttps://hdl.handle.net/20.500.14411/23

Browse

Now showing 1 - 1 of 1

Makine Öğrenmesinde, Farklı Veri Temizleme Tekniklerlerinin Sonuç Ölçevleri Üzerindeki Etkisinin İncelenmesi
(2022) Abbas, Israa Mustafa; Toker, Sacip
E-ticaret platformları ve çevrimiçi uygulamalar nedeniyle verilerin katlanarak büyümesi, veri analizi ve işlenmesi için büyük bir zorluk yarattı. Artık internetteki e-ticaret sitelerinin müşterilerinin satın aldıkları ürünler hakkında yorum yazmalarını sağlamak sık kullanılan bir uygulamadır. Bu incelemeler, bu ürünler hakkında değerli bilgi kaynakları sağlar. Bir ürün incelemesi, tüm çevrimiçi ürün şirketlerinde kullanılan duygusal analiz için önemli bir veri kaynağı içerir. Bu büyük miktarda veri etkisi büyük bir zorluk yaratır. Ancak, bu veri kümelerinin farklı veri sorunları vardır. Çoğu durumda, genellikle veriler yayınlanmadan önce çeşitli veri madenciliği teknikleri kullanılır. Mekansal olarak, görünmeyen verileri tahmin etmek için geçmiş ve etiketlenmiş veriler üzerinde eğitilen denetimli makine öğrenimi modellerinde, modelin daha önce öğrenmediği veriler. Bu tezde ayrıca makine öğrenmesinde deney çalışması tasarımına odaklandık. [1]. Bir sebep-sonuç ilişkisi bulmak için düzenli olarak Ronald Fisher'ın teorilerini [2] uygularız. Bu deneysel çalışma tasarımını uygulamak için, doğal dil işleme (NLP) yaklaşımı olan duygusal analiz ile denetimli makine öğrenmesi sınıflandırma algoritmalarını seçtik. Kuruluşların bir ürün veya hizmet hakkındaki görüşleri tanımlaması ve kategorilere ayırması için ortak bir yol. Duyguları ve öznel bilgileri elde etmek için metin madenciliği yapmak için veri madenciliği, makine öğrenimi ve yapay zeka kullanmayı içerir [3]. Bu çalışma, beş deney grubunun (yinelenen veri, noktalama işaretleri, durdurma sözcükleri, limmatezr, TF-IDF transform) etkisini analiz etmek ve bunları bir kontrol grubuyla karşılaştırmak (veri temizleme işlemi yapılmamış) için Multinominal Naïve Bays, Random Forest ve Lojistik Regresyon ile kurulmuştur. Uygulamalı. Deney grubunun üç modelin verimliliğine ve sınıflandırma oranına etkisini belirlemek ve ilginç gözlemleri açıklamak. Simülasyonlar, yirmi dört farklı kategoriden Amazon Product Review veri kümesinden rastgele seçilen 353 proje üzerinde çalıştırıldı. Böylece, veri seti Amazon.com'dan McAuley ve Leskovec [4][5] tarafından toplanmıştır. Metrik veri seti toplandıktan sonra analiz için SPSS yazılımı kullanılmıştır. Bu araştırma sorusunu ve kullanılan ölçeğin tanımlayıcı istatistiklerini incelemek için tekrarlı ölçüm ANOVA yapılmıştır. Analizin sonucu, veri temizlemenin makine öğrenimi modellerinin performansı üzerinde farklı bir etkisinin olduğunu göstermektedir. Aynı durumlarda rasgele ormanda olumlu, çok taraflı naif koylarda ve lojistik regresyonda olumsuz etkilenir. Diğer durumlarda, hiçbir etkisi olmadı. Genel olarak, deneysel sonuçlar Random Forest sınıflandırıcısının, Multinominal Naive Bayes sınıflandırıcısına ve Logistic Regression sınıflandırıcısına göre veri temizlemeye daha duyarlı olduğunu ve iki algoritmanın da temiz olmayan veri setinde yüksek bir sınıflandırma puanı elde ettiğini göstermiştir. Ayrıca, deney sonuçları, veri sorunları davranışının makine öğrenimi modelinde farklılık gösterdiğini gösterdi. Tüm makine öğrenimi algoritmalarında veri kalitesi sorunlarını alakasız veriler olarak kabul edemeyiz.

Browse

Browsing Yüksek Lisans Tezleri by Author "Abbas, Israa Mustafa"