1. Home
  2. Browse by Author

Browsing by Author "Görür, Abdül Kadir"

Filter results by typing the first few letters
Now showing 1 - 1 of 1
  • Results Per Page
  • Sort Options
  • Loading...
    Thumbnail Image
    Doctoral Thesis
    Kelime Gömme Kuralları ve Metin Sınıflandırması Tabanlı Makine Öğrenme Üzerine Bir Çalışma
    (2019) Al-gartanee, Asmaa; Mıshra, Alok; Görür, Abdül Kadir
    Çevrimiçi bilgilerin, internet üzerinden temin edilebilen elektronik belgelerin ve dijital kütüphanelerin sayısındaki ani artış ile beraber metin belgelerinin kategorize edilmesinde zorluklar oluşmaya başlamıştır. Metin sınıflandırması teknik sürecinin kara kutusunun gösterilebileceği en esnek yöntemlerden birisi olarak görülen kural tabanlı yaklaşımlar olarak gömme, kural tabanlı ve makine öğrenme yaklaşımı bu problemin bu nedenle en iyi çözümleridir. Sınıflandırma sürecinin detayları görülebilir ve iyi sonuçlar elde etmek için bazı araçlar ve yeni talimatlar eklenebilir. Bu yaklaşımın bilgi alma, e-devlet, bilgi süzme, metin veri tabanları, dijital kütüphaneler ve diğer uygulamalar için değeri yüksektir. Gömme tekniği ve kural tabanlı oluşturma problemi metin kategorizasyonunda çok belirgin bir öneme sahiptir. Gömme tekniğinin ana fikri, metin kategorizasyon motoruna bir belgeyi bir kategoriye dönüştürmesinde yardımcı olabilecek bilgilendirici ve bilgilendirici olmayan kelimeleri tutabilecek bir teknik kullanarak anahtar kelimelerin önemini tespit etmektir. Bu tez, kelimeden vektöre (word2vec) ve belgeden vektöre (doc2vec) yaklaşımları için gömme tekniği kullanan kural tabanlı yaklaşımı ele almaktadır. Benzerlik hesabına bağlı olarak anahtar kelimeler hazırlamada bu iki teknik kullanılacaktır. Bunun ardından, doğruluk, geri çağırma, hassasiyet ve F-Ölçümleri gibi performans değerlendirme ölçütlerini hesaplayarak sistemin en iyi performansını gerçekleştirecek bir sınıflandırıcı için kural tabanlı yaklaşımı uygulamada bu anahtar kelimeleri kullanırız. Reuters 21578 ve 20 haber grupları veri kümeleri üzerinde Reuters 21578 ve 20 haber grupları veri kümelerinin ilk on kategorisini tasnif etmek için deneyler yapılmıştır. Python dili; F-M Skoru, Hata oranı ve Doğruluk ile ölçülmekte olan yaklaşımın genel etkinliği ile izlenen kural tabanlı bir yaklaşımı meydana getirmek için kullanılmıştı. Reuters 21578 veri kümesi durumunda doc2vec (d2vRule) kullanan gömme tekniği ile kural tabanlı sonuçları; doğruluk % 79, geri çağırma % 75, F-Ölçümleri % 76.75, hata oranı % 9.28 ve doğruluk ölçümleri % 90.72 olarak bulunmuştur. 20 Haber Grubu veri seti için sonuçlar; hassasiyet % 76, geri çağırma % 66,64, F-Ölçümü % 70,98, hata oranı % 9,99 ve doğruluk ölçümü % 90,07 olarak bulunmuştur. Ayrıca, makine öğrenme algoritmaları J-RIPPER (JRip), One Rule (OneR) ve ZeroR, Reuter 21578 veri setine uygulandığında, JRip, OneR ve ZeroR için sırasıyla 0.713 - 0.752, 0.506 - 0.598 ve 0.219 - 0.39 F-Ölçümleri ve doğruluk ölçümleri elde ettik. . Buna ilaveten, bu algoritmaları veri kümemize uyguladığımızda, mutabakat sağlandı ve algoritmamızın (d2vRule) yukarıda belirtilen bu üç algoritmadan daha iyi performans gösterdiği ortaya çıktı. Bundan başka, değerlendirme ölçütlerine göre iyi bir sınıflandırma süreci sağlamaktadır. Diğer taraftan, gömme tekniğini word2vec modeliyle kullanırken, bu sonuçların hassasiyet, geri çağırma ve F-Ölçüm yaklaşımlarına bağlı olduğu tahmin edilebilir. Son olarak, kural tabanlı yaklaşımızın makine öğrenme sonuçlarından yani Naïve-Bayes, Naive Bayes Updateable, Rules.DecisionTable, Lazy. IBL ve Lazy.IBK. yaklaşımlarının sonuçlarından daha iyi olduğu açıktır. Kural-tabanlı (w2cRule) yaklaşımımız için geçerliliği denetlendiğinde, belirli bir referansın kural-tabanlı (RB) sınıflandırıcısının doğru sınıflandırılmış örneklerin % 82.19'u ile en yüksek doğruluğa sahip olduğu görülürken, Karar Ağacı (DT) Destek Vektör Makinesinin (SVM), Rastgele Orman (RF) ve Bayes Net (BN) sırasıyla % 81.72, % 81.49, % 81.19 ve % 77.85 doğruluk oranlarına sahiptirler ve Geçici Spesifiklik Skoru (TSS) sınıflandırıcısı referans alınan örneklerin % 77.19'unu doğru bir biçimde sınıflandırmıştır. Bununla beraber, kelimeden vektöre kural tabanlı sınıflandırıcımız (w2vRule) Reuter 21578 veri kümesi durumunda % 73 hassasiyet, % 77.61 geri çağırma, % 75.09 F-Ölçümü, % 10.09 hata oranı ve % 89.91 doğruluk ölçüm seviyeleri gözlemlenmiştir. Bundan dolayı, önceki kural tabanlı ve makine öğrenme sınıflandırıcıları ile kıyasladığımızda en iyi sonuçları vermiştir.