Veri bilimi projelerinde, veri setlerindeki değişkenler genellikle farklı ölçeklerde olabilir. Örneğin, bir değişkenin değeri 0 ile 100 arasında iken diğer bir değişkenin değeri binlerce veya milyonlarca olabilir. Bu farklı ölçekler, model performansını etkileyebilir ve yanıltıcı sonuçlara neden olabilir. İşte bu nedenle, ölçekleme önemli bir veri ön işleme adımıdır. Ölçekleme;
- Model Performansı: Farklı ölçeklerdeki değişkenler, modelin performansını etkileyebilir. Ölçekleme, modelin daha tutarlı ve güvenilir tahminler yapmasını sağlar.
- Hızlı Eğitim: Ölçeklenmiş veri setleri, modelin daha hızlı eğitilmesine yardımcı olabilir. Büyük değerlerle çalışmak, eğitim sürecini yavaşlatabilir.
- Model İyileştirme: Ölçekleme, modelin daha iyi genelleme yapmasına ve daha iyi sonuçlar elde etmesine olanak tanır.
Standardization: Veri kümesindeki değerleri belirli bir ölçüde dönüştürerek ortalamayı 0 yapma ve standart sapmayı 1 yapma işlemidir. Veri setindeki her özellik veya değişken için,o özellik için ortalama değeri çıkararak ve standart sapmaya bölerek dönüştürür. Böylece her özellik aynı ölçekte ve aynı varyansa sahip olur.
Normalization: Veri değerlerini belirli bir aralık veya dağılım içinde ölçeklendirir ve farklı özellikler arasındaki büyüklük farklarını azaltır. Veri dağılımı değişmez yalnızca ölçeklendirir.
Mean Normalization:
# scikit-learn
ss = StandardScaler(with_mean=True, with_std=False)
Min-Max Normalization:
# scikit-learn
scaler = MinMaxScaler()
scaler.fit(X_train)
Maximum Absolute Scaling:
# scikit-learn
scaler = MaxAbsScaler()
scaler.fit(X_train)
Robust Scaling:
# scikit-learn
scaler = RobustScaler()
scaler.fit(X_train)