Makine Öğrenmesinde, Farklı Veri Temizleme Tekniklerlerinin Sonuç Ölçevleri Üzerindeki Etkisinin İncelenmesi
Loading...
Date
2022
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
E-ticaret platformları ve çevrimiçi uygulamalar nedeniyle verilerin katlanarak büyümesi, veri analizi ve işlenmesi için büyük bir zorluk yarattı. Artık internetteki e-ticaret sitelerinin müşterilerinin satın aldıkları ürünler hakkında yorum yazmalarını sağlamak sık kullanılan bir uygulamadır. Bu incelemeler, bu ürünler hakkında değerli bilgi kaynakları sağlar. Bir ürün incelemesi, tüm çevrimiçi ürün şirketlerinde kullanılan duygusal analiz için önemli bir veri kaynağı içerir. Bu büyük miktarda veri etkisi büyük bir zorluk yaratır. Ancak, bu veri kümelerinin farklı veri sorunları vardır. Çoğu durumda, genellikle veriler yayınlanmadan önce çeşitli veri madenciliği teknikleri kullanılır. Mekansal olarak, görünmeyen verileri tahmin etmek için geçmiş ve etiketlenmiş veriler üzerinde eğitilen denetimli makine öğrenimi modellerinde, modelin daha önce öğrenmediği veriler. Bu tezde ayrıca makine öğrenmesinde deney çalışması tasarımına odaklandık. [1]. Bir sebep-sonuç ilişkisi bulmak için düzenli olarak Ronald Fisher'ın teorilerini [2] uygularız. Bu deneysel çalışma tasarımını uygulamak için, doğal dil işleme (NLP) yaklaşımı olan duygusal analiz ile denetimli makine öğrenmesi sınıflandırma algoritmalarını seçtik. Kuruluşların bir ürün veya hizmet hakkındaki görüşleri tanımlaması ve kategorilere ayırması için ortak bir yol. Duyguları ve öznel bilgileri elde etmek için metin madenciliği yapmak için veri madenciliği, makine öğrenimi ve yapay zeka kullanmayı içerir [3]. Bu çalışma, beş deney grubunun (yinelenen veri, noktalama işaretleri, durdurma sözcükleri, limmatezr, TF-IDF transform) etkisini analiz etmek ve bunları bir kontrol grubuyla karşılaştırmak (veri temizleme işlemi yapılmamış) için Multinominal Naïve Bays, Random Forest ve Lojistik Regresyon ile kurulmuştur. Uygulamalı. Deney grubunun üç modelin verimliliğine ve sınıflandırma oranına etkisini belirlemek ve ilginç gözlemleri açıklamak. Simülasyonlar, yirmi dört farklı kategoriden Amazon Product Review veri kümesinden rastgele seçilen 353 proje üzerinde çalıştırıldı. Böylece, veri seti Amazon.com'dan McAuley ve Leskovec [4][5] tarafından toplanmıştır. Metrik veri seti toplandıktan sonra analiz için SPSS yazılımı kullanılmıştır. Bu araştırma sorusunu ve kullanılan ölçeğin tanımlayıcı istatistiklerini incelemek için tekrarlı ölçüm ANOVA yapılmıştır. Analizin sonucu, veri temizlemenin makine öğrenimi modellerinin performansı üzerinde farklı bir etkisinin olduğunu göstermektedir. Aynı durumlarda rasgele ormanda olumlu, çok taraflı naif koylarda ve lojistik regresyonda olumsuz etkilenir. Diğer durumlarda, hiçbir etkisi olmadı. Genel olarak, deneysel sonuçlar Random Forest sınıflandırıcısının, Multinominal Naive Bayes sınıflandırıcısına ve Logistic Regression sınıflandırıcısına göre veri temizlemeye daha duyarlı olduğunu ve iki algoritmanın da temiz olmayan veri setinde yüksek bir sınıflandırma puanı elde ettiğini göstermiştir. Ayrıca, deney sonuçları, veri sorunları davranışının makine öğrenimi modelinde farklılık gösterdiğini gösterdi. Tüm makine öğrenimi algoritmalarında veri kalitesi sorunlarını alakasız veriler olarak kabul edemeyiz.
Enormous growth of data due to e-commerce platforms and online applications has posed a big challenge for data analysis and processing. It is now a frequent practice for e-commerce web sites to enable their customers to write reviews of products that they have purchased. Such reviews provide valuable sources of information on these products. A product review has important data source for sentimental analysis is used in all online product firms. This huge volume of data influence leads to a great challenge. These datasets, however, contain different data's issues. Typically, different data mining technique used in before deploying data in many cases. Spatially, in supervised machine learning models trained on historical and labelled data to predict unseen data, data that a model has never learned before. In this thesis, we focused on design of experiment study in machine learning too [1]. We applied Ronald Fisher theories [2] regularly to find cause- effect relationship .For carry out this design of experimental study, we chose supervised machine learning classification algorithms with sentimental analysis, it is an approach to natural language processing (NLP).This is a popular way for organizations to determine and categorize opinions about a product, service .It involves the use of data mining, machine learning and artificial intelligence to mine text for sentiment and subjective information [3].This study established with Multinominal Naïve Bays ,Random Forest and Logistic Regression to analysis impact of five experimental groups (duplicate data ,punctuation mark ,stop words, limmatezr, TF-IDF transform ) and compare with one control group (no data cleaning applied). To determine the impact experimental group on three models' efficiency and classification ratio and explain the interesting observations. A simulation done on 353 projects chosen randomly from Amazon product review dataset from twenty-four different categories . Thus, Dataset was collected from Amazon.com by McAuley and Leskovec [4][5]. After collecting metric dataset, SPSS software used for analyzing. A repeated-measure ANOVA was performed to examine this research question and the descriptive statistics of metric used. Analysis result shows there are different impact for data cleansing on machine learning models performance . data cleaning in same cases impacted positively on Random Forest and negatively in Multinominal Naive Bays and Logistic Regression. In other cases, had no impact at all. In overall, experimental result showed Random Forest classifier more sensitive on data cleaning than Multinominal Naïve Bayes classifier and Logistic Regression classifier ,both algorithms get high classification score in un-cleaned data set. Moreover, the experiment results showed data issues behavior differ in machine learning model. We cannot consider data quality issues as irrelevant data in all machine learning algorithm.
Enormous growth of data due to e-commerce platforms and online applications has posed a big challenge for data analysis and processing. It is now a frequent practice for e-commerce web sites to enable their customers to write reviews of products that they have purchased. Such reviews provide valuable sources of information on these products. A product review has important data source for sentimental analysis is used in all online product firms. This huge volume of data influence leads to a great challenge. These datasets, however, contain different data's issues. Typically, different data mining technique used in before deploying data in many cases. Spatially, in supervised machine learning models trained on historical and labelled data to predict unseen data, data that a model has never learned before. In this thesis, we focused on design of experiment study in machine learning too [1]. We applied Ronald Fisher theories [2] regularly to find cause- effect relationship .For carry out this design of experimental study, we chose supervised machine learning classification algorithms with sentimental analysis, it is an approach to natural language processing (NLP).This is a popular way for organizations to determine and categorize opinions about a product, service .It involves the use of data mining, machine learning and artificial intelligence to mine text for sentiment and subjective information [3].This study established with Multinominal Naïve Bays ,Random Forest and Logistic Regression to analysis impact of five experimental groups (duplicate data ,punctuation mark ,stop words, limmatezr, TF-IDF transform ) and compare with one control group (no data cleaning applied). To determine the impact experimental group on three models' efficiency and classification ratio and explain the interesting observations. A simulation done on 353 projects chosen randomly from Amazon product review dataset from twenty-four different categories . Thus, Dataset was collected from Amazon.com by McAuley and Leskovec [4][5]. After collecting metric dataset, SPSS software used for analyzing. A repeated-measure ANOVA was performed to examine this research question and the descriptive statistics of metric used. Analysis result shows there are different impact for data cleansing on machine learning models performance . data cleaning in same cases impacted positively on Random Forest and negatively in Multinominal Naive Bays and Logistic Regression. In other cases, had no impact at all. In overall, experimental result showed Random Forest classifier more sensitive on data cleaning than Multinominal Naïve Bayes classifier and Logistic Regression classifier ,both algorithms get high classification score in un-cleaned data set. Moreover, the experiment results showed data issues behavior differ in machine learning model. We cannot consider data quality issues as irrelevant data in all machine learning algorithm.
Description
Keywords
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Duygu analizi, Fikir madenciliği, Lojistik regresyon analizi, Computer Engineering and Computer Science and Control, Makine öğrenmesi, Sentiment analysis, Opinion mining, Naive Bayes sınıflandırıcısı, Logistic regression analysis, Machine learning, Rastgele ormanlar, Naive Bayes classifier, Veri temizleme, Random forests, Data cleaning, Ön işlemler, Pre-transactions
Turkish CoHE Thesis Center URL
Fields of Science
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
0
End Page
64