LLM (Büyük Dil Modelleri), milyonlarca hatta milyarlarca kelimeden oluşan büyük veri setleri ile eğitilir 34.
Bu veri setleri genellikle aşağıdaki kaynaklardan elde edilir:
- Edebiyat: Kitaplar, şiirler, oyunlar 5.
- Çevrimiçi içerikler: Bloglar, web sayfaları, forumlar 5.
- Haberler ve güncel olaylar 5.
- Sosyal medya: Facebook, Twitter, Instagram gibi platformlardaki metinler 5.
Ayrıca, LLM'ler eğitilmeden önce veriler temizlenir, işlenir, standartlaştırılır ve bir NoSQL veritabanında saklanır 2.
5 kaynaktan alınan bilgiyle göre: