Table of Contents
Skewness, bir veri dağılımının simetrisi veya asimetrisini ölçen bir istatistiksel ölçüdür. Bir veri dağılımının normal dağılıma göre ne kadar asimetrik olduğunu belirtir. Skewness değeri 0 ise, veri dağılımı simetriktir. Pozitif bir skewness değeri, sağa çarpıktır (sağa doğru çekim), negatif bir skewness değeri ise sola çarpıktır (sola doğru çekim) olarak adlandırılır.
- Negatif (sol) çarpıklık: Sola doğru çarpık, kuyruk sağ tarafta daha uzundur. Veri setindeki büyük değerler daha sık görülürken küçük değerler daha az sıklıkta görülür.
- Pozitif (sağ) çarpıklık: Sağa doğru çarpık, kuyruk sol tarafta daha uzundur. Veri setindeki küçük değerler daha sık görülürken büyük değerler daha az sıklıkta görülür.
- Simetrik dağılım: Çarpıklık yok. Veri setindeki büyük ve küçük değerlerin görülme sıklığı eşittir.
Çarpıklık, veri setindeki örneklem gözlemlerinin üçüncü merkezi momentine dayanır. Veri setindeki her bir özellik için çarpıklığı hesaplamak için genellikle şu formül kullanılır:
Box-Cox Dönüşümü
Veri setindeki çarpıklığı azaltmak veya veriyi normal dağılıma yakın bir hale getirmek için kullanılır. lambda parametresi belirlenerek gerçekleştirilir.
from scipy.stats import boxcox
train, test = train_test_split(df, test_size=0.2)
train, fitted_lambda = boxcox(train)
test = boxcox(test, fitted_lambda)