Çoklu bağlantı sorunu durumunda küçültme yöntemlerinin karşılaştırılması ve değerlendirilmesi
Loading...
Date
2022
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
Mühendislik, tıp, doğa ve sosyal bilimler gibi uygulamalı bilimlerin birçok alanında veri analizi ve veri yorumlamanın kullanımı artarak önem kazanmaktadır. Bu amaç doğrultusunda veri toplamak, analiz etmek ve yorumlamak için istatistiksel yöntemler kullanılmaktadır. Basitliği ve kolay yorumlanması nedeniyle, en çok tercih edilen istatistiksel analiz yöntemlerinden biri, çoklu doğrusal regresyondur. Bu regresyon modelleri, birden fazla bağımsız değişken ile bir bağımlı değişken arasındaki ilişkiyi tanımlar. Ancak bazen çoklu doğrusal regresyon modelinin uygulanacağı veri setlerinde bağımsız değişkenler arasında çoklu doğrusal bağlantı (iç ilişki) olduğu gözlemlenebilir. Bu da, modelde tahmin edilen katsayıların varyansının büyük ve yanlılıklarının düşük olmasına neden olmaktadır. Bu gibi durumlarda model tahminleri doğru sonuç vermeyebilir ve modelin güvenilirliği düşebilir. Veri setindeki değişkenler arasında çoklu doğrusal bağlantı varsa bunun önceden belirlenmesi büyük önem taşımaktadır. Bu amaç doğrultusunda kullanılan çok sayıda çoklu doğrusal bağlantı tespit etme yöntemi ve bu sorunu çözmek için geliştirilmiş çeşitli yöntemler bulunmaktadır. Çoklu doğrusal bağlantı problemini çözmek için en popüler ve güçlü yöntemler küçültme yöntemleridir. Küçültme yöntemleri, modelde tahmin edilen parametrelerin varyansını azaltarak çoklu doğrusal bağlantı sorununu en aza indirmeyi amaçlar. En çok tercih edilen küçültme yöntemlerinden olan Ridge Regresyon, Lasso ve Elastik Net modeldeki değişkenlerin katsayılarını direkt sıfır yapar veya sıfıra çok yaklaştırır. Bu tez çalışmasında, Ridge Regresyon, Lasso ve Elastik Net, farklı özelliklere sahip dokuz farklı simüle edilmiş veri setine uygulanmıştır. Simüle edilmiş veri setlerindeki bazı bağımsız değişkenler arasında çoklu doğrusal bağlantıyı oluşturmak için Copula fonksiyonu kullanılmıştır. Daha sonra, yukarıda bahsedilen küçültme yöntemlerinin tümü, üç tane gerçek hayat veri setine de uygulanmıştır. Bu veri setleri, boyutlarına göre küçük, orta ve büyük olarak sınıflandırılan simüle edilmiş veri setleri ile eşleştirilmiştir. Simüle edilmiş veri setlerine uygulanan küçültme yöntemlerinin doğruluğunu ölçmek için 10 Katlamalı Çapraz Doğrulama yaklaşımı uygulanmıştır. Bunun yanında, gerçek hayat veri setleri için, veri setini yalnızca bir eğitim ve bir test verisine ayırmaya dayanan hold-out yöntemi tercih edilmiştir. Tüm modeller oluşturulduktan sonra, hangi özelliklere sahip veri setlerinde hangi yöntemin daha iyi sonuç verdiğini belirlemek için her bir yöntem özelinde bazı performans ölçütleri hesaplanmıştır. Ortalama kare hatası (MSE), bağımsız değişken sayısına bağlı ortalama kare hatası (PMSE), R-kare, ortalama mutlak hata (MAE) ve açıklanan varyans, karar verme aşamasında kullanılan performans ölçütleridir. Performans sonuçlarından yola çıkarak, küçültme yöntemleri çok kriterli karar verme yöntemlerinden biri olan TOPSIS ile karşılaştırılmış ve her bir veri seti için yöntemlerin tercih sırası belirlenmiştir. Tüm performans ve TOPSIS sonuçları incelendiğinde, genellikle küçük veri setlerinde en iyi sonuçları ridge regresyonunun verdiği, veri seti büyüdükçe yani karmaşıklık arttıkça küçültme yöntemlerinin tahmin edilen katsayıların varyansını azaltmak için değişken seçimi yapma eğiliminde olduğu ve bu yüzden de lasso ve elastik net modellerinin daha iyi sonuçlar verdiği görülmektedir. Modeller arasında genel bir sıralama yapılacak olursa lasso, elastik net ve ridge regresyonu olarak sıralanabilir.
The use of data analysis and data interpretation are increasing in importance in many fields of applied science such as engineering, medicine, natural and social sciences. For this purposes, statistical methods are used to collect, analyze and interpret data. Among the statistical analysis methods, one of the most preferred one is multiple linear regression due to its simplicity and interpretation. It describes the relationship between more than one independent variables and a dependent variable. However, sometimes, it can be observed that there is a multicollinearity (linear relationship) between the independent variables in data sets to which multiple linear regression models will be applied. This causes the variance of the estimated coefficients in the model to be large and their biases to be low, and in such cases, model predictions may not give accurate results and the reliability of the model may decrease. If there is a multicollinearity between the variables in the data set, it is of great importance to determine this in advance. For this purpose, there are many multicollinearity determination method and there are several methods developed to solve this problem. The most popular and powerful methods to handle this problem are shrinkage methods. Shrinkage methods aim to minimize the multicollinearity problem by reducing the variance of the estimated parameters in the model. Ridge Regression, Lasso, and Elastic Net are the most preferred shrinkage methods that set the coefficients of the variables in the model to zero or very close to zero. In this thesis, Ridge Regression, Lasso, and Elastic Net were applied to nine different simulated data sets with different characteristics. The Copula function was used to create multicollinearity between independent variables for simulated data sets. Following that, all of the aforementioned shrinkage methods were also applied on three real-world data sets. These data sets were matched with the simulated data sets based on their sizes, which were classified as small, medium, and large. For the simulated data sets, a 10-fold Cross-Validation (CV) approach is applied to validate the shrinkage methods. On the other hand, the hold-out method, which relies on only one training and test split, is preferred for real-world data sets. After all models were created, well-known performance measures were calculated for each method to determine which method gives better results in the data set in which characteristics. Mean squared error (MSE), mean squared error based on number of independent variables (PMSE), R-squared, mean absolute error (MAE) and explained variance are the performance measures used in decision making. Based on performance results, the methods were compared with TOPSIS, which is one of the multi-criteria decision making methods, and the order of preference was determined for each data set. When all the performance and TOPSIS results are examined, it is seen that generally ridge regression gives the best results in small data sets, as the data set grows, that is, as the complexity increases, shrinkage methods tend to make variable selection to reduce the variance of the estimated coefficients, and therefore lasso or elastic net models give better results. If a general ranking is made among the models, they can be listed as lasso, elastic net and ridge regression.
The use of data analysis and data interpretation are increasing in importance in many fields of applied science such as engineering, medicine, natural and social sciences. For this purposes, statistical methods are used to collect, analyze and interpret data. Among the statistical analysis methods, one of the most preferred one is multiple linear regression due to its simplicity and interpretation. It describes the relationship between more than one independent variables and a dependent variable. However, sometimes, it can be observed that there is a multicollinearity (linear relationship) between the independent variables in data sets to which multiple linear regression models will be applied. This causes the variance of the estimated coefficients in the model to be large and their biases to be low, and in such cases, model predictions may not give accurate results and the reliability of the model may decrease. If there is a multicollinearity between the variables in the data set, it is of great importance to determine this in advance. For this purpose, there are many multicollinearity determination method and there are several methods developed to solve this problem. The most popular and powerful methods to handle this problem are shrinkage methods. Shrinkage methods aim to minimize the multicollinearity problem by reducing the variance of the estimated parameters in the model. Ridge Regression, Lasso, and Elastic Net are the most preferred shrinkage methods that set the coefficients of the variables in the model to zero or very close to zero. In this thesis, Ridge Regression, Lasso, and Elastic Net were applied to nine different simulated data sets with different characteristics. The Copula function was used to create multicollinearity between independent variables for simulated data sets. Following that, all of the aforementioned shrinkage methods were also applied on three real-world data sets. These data sets were matched with the simulated data sets based on their sizes, which were classified as small, medium, and large. For the simulated data sets, a 10-fold Cross-Validation (CV) approach is applied to validate the shrinkage methods. On the other hand, the hold-out method, which relies on only one training and test split, is preferred for real-world data sets. After all models were created, well-known performance measures were calculated for each method to determine which method gives better results in the data set in which characteristics. Mean squared error (MSE), mean squared error based on number of independent variables (PMSE), R-squared, mean absolute error (MAE) and explained variance are the performance measures used in decision making. Based on performance results, the methods were compared with TOPSIS, which is one of the multi-criteria decision making methods, and the order of preference was determined for each data set. When all the performance and TOPSIS results are examined, it is seen that generally ridge regression gives the best results in small data sets, as the data set grows, that is, as the complexity increases, shrinkage methods tend to make variable selection to reduce the variance of the estimated coefficients, and therefore lasso or elastic net models give better results. If a general ranking is made among the models, they can be listed as lasso, elastic net and ridge regression.
Description
Keywords
Endüstri ve Endüstri Mühendisliği, Elastik net, Ridge regresyon, Industrial and Industrial Engineering, Shrinkage yöntemleri, Elastic net, Ridge regression, TOPSIS, Shrinkage methods, Çok kriterli karar verme, TOPSIS, Multi criteria decision making, Çoklu doğrusal bağlantı, Multiple linear connection
Turkish CoHE Thesis Center URL
Fields of Science
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
0
End Page
117