Word2Vec | Cyber Data Science

Bir kelimeyi vektörlerle temsil etmek için kullanılır. İki farklı yöntemi içerir:

from gensim.models import Word2Vec

# Ornek bir metin corpus
corpus = [["bu", "bir", "ornek", "cumle"], ["baska", "bir", "ornek"]]

# GloVe modelini olustur
model = Word2Vec(corpus, vector_size=100, window=5, min_count=1, sg=1)

# Kelime vektorlerini al
word_vectors = model.wv

# Ornek bir kelimenin vektorunu al
vector = word_vectors['ornek']
print("Kelime vektoru:", vector)

Skip-gram

Orta kelimeyi alarak çevresindeki kelimeleri tahmin etme. Belirli bir kelimenin etrafındaki bağlamı tahmin etmek için kullanılır. Bu yöntemde, bir kelimenin bağlamındaki diğer kelimeler, o kelimenin vektörlerinin güncellenmesinde kullanılır. Pencere büyüklüğü çevreden kaç kelime alınacağını gösterir. Örneğin 2 ise ortadaki kelimenin sağından 2 solundan 2 kelime alınır. CBOW’a göre daha fazla hesaplama gücü gerektirir.

Continuous Bag of Words (CBOW)

Çevredeki kelimelerden ortadaki kelimeyi tahmin etme. Belirli bir kelimenin verilen bir bağlamdaki olasılığını tahmin etmek için kullanılır. Bu yöntemde bir kelimenin vektörü o kelimenin bağlamındaki diğer kelimelerin vektörleri kullanılarak tahmin edilir. Skip-gram’a göre daha az hesaplama gücü gerektirir. Küçük veri setleri için uygundur.

Skip-gram

Continuous Bag of Words (CBOW)

Related News

Genetik Algoritmalar

LSA ve LDA

Optimizasyon Algoritmaları

CatBoost