TF (Term Frequency) ve IDF (Inverse Document Frequency) hesaplamaları şu şekilde yapılır:
- TF Hesaplaması: Bir belgede belirli bir kelimenin kaç kez geçtiğini ifade eder 3. Formülü: TF = Belgedeki Terim Sayısı / Belgede Bulunan Toplam Kelime Sayısı 4.
Örnek: Bir web sayfasında 1000 kelimelik bir metin olduğunu ve bu metinde "SEO" kelimesinin 50 kez geçtiğini varsayalım. TF = 50/1000 = 0,05 olacaktır 4.
- IDF Hesaplaması: Belirli bir kelimenin tüm belgeler arasında ne kadar nadir kullanıldığını ölçer 4. Formülü: IDF = log(Toplam İçerik Sayısı / Kelimenin Geçtiği İçerik Sayısı) 4.
Örnek: Bir veri kümesinde 10.000 belge olduğunu ve bu belgelerin 100 tanesinde "SEO" kelimesinin geçtiğini düşünelim. IDF = log(10.000/100) ≈ 4,5 olacaktır 2.
5 kaynaktan alınan bilgiyle göre: