Kelime gömme kuralları ve metin sınıflandırması tabanlı makine öğrenme üzerine bir çalışma

Loading...
Thumbnail Image

Date

2019

Journal Title

Journal ISSN

Volume Title

Publisher

Open Access Color

OpenAIRE Downloads

OpenAIRE Views

Research Projects

Organizational Units

Organizational Unit
Software Engineering
(2005)
Department of Software Engineering was founded in 2005 as the first department in Ankara in Software Engineering. The recent developments in current technologies such as Artificial Intelligence, Machine Learning, Big Data, and Blockchains, have placed Software Engineering among the top professions of today, and the future. The academic and research activities in the department are pursued with qualified faculty at Undergraduate, Graduate and Doctorate Degree levels. Our University is one of the two universities offering a Doctorate-level program in this field. In addition to focusing on the basic phases of software (analysis, design, development, testing) and relevant methodologies in detail, our department offers education in various areas of expertise, such as Object-oriented Analysis and Design, Human-Computer Interaction, Software Quality Assurance, Software Requirement Engineering, Software Design and Architecture, Software Project Management, Software Testing and Model-Driven Software Development. The curriculum of our Department is catered to graduate individuals who are prepared to take part in any phase of software development of large-scale software in line with the requirements of the software sector. Department of Software Engineering is accredited by MÜDEK (Association for Evaluation and Accreditation of Engineering Programs) until September 30th, 2021, and has been granted the EUR-ACE label that is valid in Europe. This label provides our graduates with a vital head-start to be admitted to graduate-level programs, and into working environments in European Union countries. The Big Data and Cloud Computing Laboratory, as well as MobiLab where mobile applications are developed, SimLAB, the simulation laboratory for Medical Computing, and software education laboratories of the department are equipped with various software tools and hardware to enable our students to use state-of-the-art software technologies. Our graduates are employed in software and R&D companies (Technoparks), national/international institutions developing or utilizing software technologies (such as banks, healthcare institutions, the Information Technologies departments of private and public institutions, telecommunication companies, TÜİK, SPK, BDDK, EPDK, RK, or universities), and research institutions such TÜBİTAK.

Journal Issue

Abstract

Çevrimiçi bilgilerin, internet üzerinden temin edilebilen elektronik belgelerin ve dijital kütüphanelerin sayısındaki ani artış ile beraber metin belgelerinin kategorize edilmesinde zorluklar oluşmaya başlamıştır. Metin sınıflandırması teknik sürecinin kara kutusunun gösterilebileceği en esnek yöntemlerden birisi olarak görülen kural tabanlı yaklaşımlar olarak gömme, kural tabanlı ve makine öğrenme yaklaşımı bu problemin bu nedenle en iyi çözümleridir. Sınıflandırma sürecinin detayları görülebilir ve iyi sonuçlar elde etmek için bazı araçlar ve yeni talimatlar eklenebilir. Bu yaklaşımın bilgi alma, e-devlet, bilgi süzme, metin veri tabanları, dijital kütüphaneler ve diğer uygulamalar için değeri yüksektir. Gömme tekniği ve kural tabanlı oluşturma problemi metin kategorizasyonunda çok belirgin bir öneme sahiptir. Gömme tekniğinin ana fikri, metin kategorizasyon motoruna bir belgeyi bir kategoriye dönüştürmesinde yardımcı olabilecek bilgilendirici ve bilgilendirici olmayan kelimeleri tutabilecek bir teknik kullanarak anahtar kelimelerin önemini tespit etmektir. Bu tez, kelimeden vektöre (word2vec) ve belgeden vektöre (doc2vec) yaklaşımları için gömme tekniği kullanan kural tabanlı yaklaşımı ele almaktadır. Benzerlik hesabına bağlı olarak anahtar kelimeler hazırlamada bu iki teknik kullanılacaktır. Bunun ardından, doğruluk, geri çağırma, hassasiyet ve F-Ölçümleri gibi performans değerlendirme ölçütlerini hesaplayarak sistemin en iyi performansını gerçekleştirecek bir sınıflandırıcı için kural tabanlı yaklaşımı uygulamada bu anahtar kelimeleri kullanırız. Reuters 21578 ve 20 haber grupları veri kümeleri üzerinde Reuters 21578 ve 20 haber grupları veri kümelerinin ilk on kategorisini tasnif etmek için deneyler yapılmıştır. Python dili; F-M Skoru, Hata oranı ve Doğruluk ile ölçülmekte olan yaklaşımın genel etkinliği ile izlenen kural tabanlı bir yaklaşımı meydana getirmek için kullanılmıştı. Reuters 21578 veri kümesi durumunda doc2vec (d2vRule) kullanan gömme tekniği ile kural tabanlı sonuçları; doğruluk % 79, geri çağırma % 75, F-Ölçümleri % 76.75, hata oranı % 9.28 ve doğruluk ölçümleri % 90.72 olarak bulunmuştur. 20 Haber Grubu veri seti için sonuçlar; hassasiyet % 76, geri çağırma % 66,64, F-Ölçümü % 70,98, hata oranı % 9,99 ve doğruluk ölçümü % 90,07 olarak bulunmuştur. Ayrıca, makine öğrenme algoritmaları J-RIPPER (JRip), One Rule (OneR) ve ZeroR, Reuter 21578 veri setine uygulandığında, JRip, OneR ve ZeroR için sırasıyla 0.713 - 0.752, 0.506 - 0.598 ve 0.219 - 0.39 F-Ölçümleri ve doğruluk ölçümleri elde ettik. . Buna ilaveten, bu algoritmaları veri kümemize uyguladığımızda, mutabakat sağlandı ve algoritmamızın (d2vRule) yukarıda belirtilen bu üç algoritmadan daha iyi performans gösterdiği ortaya çıktı. Bundan başka, değerlendirme ölçütlerine göre iyi bir sınıflandırma süreci sağlamaktadır. Diğer taraftan, gömme tekniğini word2vec modeliyle kullanırken, bu sonuçların hassasiyet, geri çağırma ve F-Ölçüm yaklaşımlarına bağlı olduğu tahmin edilebilir. Son olarak, kural tabanlı yaklaşımızın makine öğrenme sonuçlarından yani Naïve-Bayes, Naive Bayes Updateable, Rules.DecisionTable, Lazy. IBL ve Lazy.IBK. yaklaşımlarının sonuçlarından daha iyi olduğu açıktır. Kural-tabanlı (w2cRule) yaklaşımımız için geçerliliği denetlendiğinde, belirli bir referansın kural-tabanlı (RB) sınıflandırıcısının doğru sınıflandırılmış örneklerin % 82.19'u ile en yüksek doğruluğa sahip olduğu görülürken, Karar Ağacı (DT) Destek Vektör Makinesinin (SVM), Rastgele Orman (RF) ve Bayes Net (BN) sırasıyla % 81.72, % 81.49, % 81.19 ve % 77.85 doğruluk oranlarına sahiptirler ve Geçici Spesifiklik Skoru (TSS) sınıflandırıcısı referans alınan örneklerin % 77.19'unu doğru bir biçimde sınıflandırmıştır. Bununla beraber, kelimeden vektöre kural tabanlı sınıflandırıcımız (w2vRule) Reuter 21578 veri kümesi durumunda % 73 hassasiyet, % 77.61 geri çağırma, % 75.09 F-Ölçümü, % 10.09 hata oranı ve % 89.91 doğruluk ölçüm seviyeleri gözlemlenmiştir. Bundan dolayı, önceki kural tabanlı ve makine öğrenme sınıflandırıcıları ile kıyasladığımızda en iyi sonuçları vermiştir.
With the growth of online information and the sudden growth in the number of electronic documents provided on the Web and in digital libraries, there is difficulty in categorizing text documents. Therefore, embedding, rule-based and machine learning approaches are the best solutions to this problem as the rule-based approach is considered to be one of the most flexible methods by which the black box of the process of the text classification technique can be shown. The details of a process of classification can be seen and it can add some tools or new instructions to obtain good results. This approach has high value for information retrieval, e governments, information filtering, text databases, digital libraries, and other applications. The problem of the embedding technique and generating rule-based is very significant for text categorization. The general idea of any embedding technique is to determine the importance of keywords using a technique that can keep informative words and remove non-informative words, which can then help the text-categorization engine to categorize a document into a category. This thesis deals with the rule-based approach using the embedding technique for the word to vector (word2vec) and document to vector (doc2vec) approaches. It will use these two techniques to prepare keywords depending on the computation of similarity. After that, we use those keywords to apply the rule-based approach for a classifier to achieve to the best performance of the system by computing performance evaluation measures such as accuracy, recall, precision, and F Measures. Experiments were performed on the Reuter 21578 and 20 Newsgroups datasets to classify the top ten categories of Reuter 21578 and 20 Newsgroups datasets. The Python language was used to create a rule-based approach followed by the overall effectiveness of the approach being measured with the F Measure score, error rate, and accuracy. The results of rule-based with the embedding technique using the doc2vec model (d2vRule) in the case of the Reuter 21578 dataset were 79% precision, 75% recall, 76.75% F Measures, 9.28% error rate and 90.72% accuracy measurements. For the 20 Newsgroups dataset, the results were 76% precision, 66.64% recall, 70.98% F Measures, 9.93% error rate and 90.07% accuracy measurement. In addition, when the machine learning algorithms J RIPPER (JRip), One Rule (OneR) and ZeroR were applied to the Reuter 21578 dataset, we obtained F Measures and accuracy metrics of 0.713 − 0.752, 0.506 − 0.598 and 0.219 − 0.39 for JRip, One R and ZeroR, respectively. In addition, when applying those algorithms to our dataset, there was agreement and it appeared that our algorithm (d2vRule) performed better than these three algorithms mentioned above. Moreover, it provides a good classification process according to the evaluation metrics. On the other hand, when using the embedding technique with the word2vec model, it is predictable that these results depended on precision, recall and F Measures approaches. Finally, it is clear that our rule-based approach is better than the results of machine learning, namely Naïve-Bayes, Naive Bayes Updateable, Rules.DecisionTable, Lazy. IBL and Lazy.IBK. When it is validated for our rule-based (w2vRule), it can be seen that the rule-based (RB) classifier of a certain reference has the highest accuracy with 82.19% of correctly classified instances, while Decision Tree (DT), Support Vector Machine (SVM), Random Forest (RF), and Bayes Net (BN) have accuracies of 81.72%, 81.49%, 81.19%, and 77.85%, respectively, and the Temporal Specificity Score (TSS) classifier correctly classified 77.19% of instances referenced. However, our word-to-vector rule-based classifier (w2vRule) has an observed level of measurements in the case of the Reuter 21578 dataset were 73% precision, 77.71% recall, 75.09% F Measures, 10.09% error rate and 89.91% accuracy. Therefore, it achieved the best result when we compared it with previous rule-based and machine learning classifiers.

Description

Keywords

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control

Turkish CoHE Thesis Center URL

Fields of Science

Citation

WoS Q

Scopus Q

Source

Volume

Issue

Start Page

0

End Page

124