Yapay zekadan makale özeti
- Kısa
- Ayrıntılı
- Bu video, bir eğitim içeriği olup, konuşmacı yapay zeka ile ses modeli oluşturma sürecini adım adım göstermektedir.
- Video, yapay zeka ile yapılan coverlarda kullanılan ses modellerinin nasıl oluşturulacağını anlatmaktadır. İçerikte, en az 10-15 dakikalık bir ses dosyası hazırlama, Slicer GUI programı ile ses dosyasını 10 saniyelik bölümlere ayırma, Google Colab'da ses modelini eğitme ve son olarak ses modelini sıkıştırılmış dosya olarak kaydetme adımları gösterilmektedir. Konuşmacı, özellikle Türkçe kaynaklarda yanlış bilgilerin bulunduğu konusunda uyarıda bulunarak, ses modelinin kalitesini etkileyen faktörleri ve grafiklerin nasıl yorumlanacağını da açıklamaktadır.
- Ses Modeli Oluşturma İçin Gerekli Dosya
- Yapay zeka ile yapılan coverlarda kullanılan ses modellerini kendi modellemek isteyenler için adım adım gösterilecek.
- En az 10-15 dakikalık, mümkün olduğunca az esme ve nefes alma olmadan dümdüz konuşma olan bir ses kaydı gerekiyor.
- Ses kaydı uzun olursa daha iyi ve daha kaliteli sonuç alınır.
- 00:50Ses Dosyasını Hazırlama
- Slicer GUA adlı program kullanılarak ses dosyası 10 saniyelik bölümlere ayrılır.
- Bölme işlemi tamamlandıktan sonra klasör ZIP formatına dönüştürülür.
- Türkçe kaynaklarda bu konuyla ilgili çok fazla yanlış bilgi olduğu için bu video kısa ve hızlı bir şekilde öğretilecek.
- 02:21Google Colab'da İşlem Başlatma
- Dataset ZIP dosyası Google Drive'a yüklenir ve Colab'da çalıştırılır.
- Dataset ismi ile ZIP içindeki klasör isminin aynı olması gerekiyor, aksi takdirde sorun yaşanabilir.
- Google Drive'a bağlanma işlemi yapıldıktan sonra, dataset ismi belirtilerek işlem başlatılır.
- 07:07Eğitim Parametreleri ve Kalite
- Total Epochs değeri, ses modelinin kalitesini etkiler.
- 30 dakikalık ses kaydı için 200-250 epoch kullanılabilir, ancak daha hızlı sonuç almak için 2 epoch kullanılmış.
- Yüksek epoch değeri verildiğinde ses robotlaşabilir ve overfitting (gerekenden fazla işlenme) olabilir.
- 09:41Eğitim Sonrası İşlemler
- Eğitim tamamlandıktan sonra "index training" komutu çalıştırılır ve ses modeli hazır hale gelir.
- RBC_disconnect klasöründe dataset.pt ve index dosyaları bulunur.
- Bu dosyalar ZIP formatına dönüştürülerek ses modeli oluşturulmuş olur ve AI cover'lar gibi uygulamalarda kullanılabilir.