Chatbot eğitimi için kullanılabilecek bazı veri setleri şunlardır:
- WikiQA Corpus: Soru-cevap çiftleri içeren, açık alan soru cevap araştırmaları için kullanılan bir veri seti 14.
- Ubuntu Dialogue Corpus: Ubuntu chat loglarından alınan, 930.000 diyalog ve 100 milyon kelime içeren bir veri seti 14.
- TREC QA Collection: Wikipedia makalelerinden alınan sorular ve cevaplardan oluşan, geniş bir konu yelpazesini kapsayan bir veri seti 4.
- Customer Support on Twitter: Twitter'da büyük markalara ait 3 milyon tweet içeren, müşteri desteği odaklı bir veri seti 14.
- Cornell Movie-Dialogs Corpus: Film senaryolarından alınan, 300.000'den fazla diyalog içeren, informal dil, mizah ve alaycılığı anlamak için ideal bir veri seti 24.
Bu veri setleri, chatbot'un doğal dil anlama ve diyalog oluşturma yeteneklerini geliştirmek için çeşitli ve gerçekçi örnekler sunar.
5 kaynaktan alınan bilgiyle göre: