Aktivasyon Fonksiyonları | Cyber Data Science

Derin öğrenme modellerinin temel yapı taşlarından biri olan aktivasyon fonksiyonları, sinir ağlarının çıktılarını belirlemek için kullanılan matematiksel işlevlerdir. Aktivasyon fonksiyonları, sinir ağlarının her bir katmanındaki nöronların çıktılarını belirlemek için kullanılan matematiksel işlevlerdir. Bu fonksiyonlar, nöronların gelen sinyalleri nasıl ileteceğini ve etkinleştireceğini kontrol eder.

Basamak (Step) Fonksiyonu

Basamak fonksiyonu, basit ve kesikli bir aktivasyon fonksiyonudur. Kesikli olması nedeniyle, gradyan tabanlı eğitim algoritmaları ile kullanılması zordur. Belirli bir eşiği aşan girişlere 1, aşmayanlara ise 0 değerini verir. Sadece iki çıkış ürettiği için çoklu sınıflandırma problemleri üzerinde kullanılmaz, ikili sınıflandırma problemleri üzerinde kullanılır. Türevi 0 olduğu için geri yayılım sırasında parametreler güncellenmez yani öğrenme süreci gerçekleşmez. Bundan dolayı gizli katmanlarda kullanılmaz, çıkış katmanlarında kullanılır. Doğrusal ilişkileri modellemekte kullanılır. Doğrusal olmayan ilişkileri modellemekte yetersizdir. Formülü;

Doğrusal (Linear) Fonksiyon

Doğrusal fonksiyonu girişin herhangi bir dönüşüm olmadan çıkışa aktarıldığı bir doğrusal ilişki oluşturur. Girişi doğrudan çıkış olarak iletir. Türevi sabit bir değere eşit olduğu için öğrenme süreci gerçekleşmez. Genellikle regresyon problemlerinde kullanılır. Sadece doğrusal ilişkileri modelleyebilir.

Sigmoid (Logistic) Fonksiyonu

Sigmoid fonksiyonu, giriş verisini 0 ile 1 arasında bir çıkışa dönüştürür. Giriş verilerini bir olasılık dağılımına dönüştürmek için kullanılır. İkili sınıflandırma problemlerinde kullanılır. Doğrusal olmayan bir fonksiyondur.

Sigmoid fonksiyonu 0 merkezli değildir, orta noktası 0.5’tir. Bu, girişlerin çok büyük veya çok küçük olduğu durumlarda gradyanların hızla azalmasına yol açabilir. Y eksenindeki değerler X eksenindeki değişikliklere göre çok az değişeceği için bu bölgelerde türev değerleri çok küçük olur ve 0’a yakınsar. Böylece öğrenme oranı çok az seviyede olur. Bu probleme kaybolan gradyanlar (vanishing gradients) denir.

Hiperbolik Tanjant (Tanh) Fonksiyonu

Hiperbolik tanjant fonksiyonu, giriş verilerini -1 ile 1 arasında bir çıkışa dönüştürür. Sürekli ve türevlenebilirdir. İkili sınıflandırma ve çoklu sınıflandırma problemleri için uygundur. Büyük veri kümeleri için sigmoid fonksiyonuna göre daha güçlüdür.

Sigmoid fonksiyonunda olduğu gibi burda da kaybolan gradyanlar (vanishing gradients) sorunu devam etmektedir. 0 merkezli olmasından dolayı ağırlıkların ve çıkışların değişken işaretlerde olmasına neden olabilir. Bu da eğitim sürecini karmaşıklaştırabilir.

ReLU Fonksiyonu

ReLU fonksiyonu, girişin pozitif olduğu durumlarda doğrusal bir çıkış üretir ve negatif olduğu durumlarda sıfır çıkışı verir. ReLU fonksiyonunun avantajı aynı anda tüm nöronları aktive etmemesidir.

Giriş negatif olduğunda sıfır çıkışı ürettiği için bazı nöronlar eğitim sırasında “ölebilir”. Yani, bu nöronlar artık güncellenmez ve hiçbir katkıda bulunmaz.

Sızıntılı ReLU (Leaky ReLU) Fonksiyonu

Sızıntılı ReLU (Leaky ReLU) fonksiyonu, girişin pozitif olduğu durumlarda doğrusal bir çıkış üretir ve negatif olduğu durumlarda küçük bir negatif değer döndürür. Bu, ReLU’nun “ölme” sorununu hafifletir. Performansı, alfa parametresinin iyi bir şekilde ayarlanmasına bağlıdır.

Üstel ReLU (Exponential ReLU) Fonksiyonu

Üstel ReLU (Exponential ReLU) giriş verilerini işlerken negatif değerler için bir hiperparametre kullanır ve giriş verisine bağlı olarak negatif değerler için farklı bir eğri oluşturur. EReLU, giriş verisi pozitif olduğunda doğrusal bir davranış sergilerken negatif olduğunda doğrusal olmayan bir davranış sergiler.

Softmax Fonksiyonu

Softmax fonksiyonu, çok sınıflı sınıflandırma problemlerinde kullanılır. Giriş verilerini sınıflar arasında olasılık dağılımına dönüştürür. Giriş verilerini normalize eder, yani her bir sınıfın olasılığını 0 ile 1 arasında bir değere dönüştürür ve tüm sınıfların toplamı 1 olur.

Swish Fonksiyonu

Swish fonksiyonu giriş verilerini bir doğrusal fonksiyon ve sigmoid fonksiyonunun birleşimi ile işler. Giriş verileri pozitif olduğunda doğrusal bir davranış sergilerken negatif olduğunda doğrusal olmayan bir davranış sergiler.