Buradasın
Tahmin Algoritmaları Eğitim Serisi: Veri Ön İşleme ve Regresyon Modelleri
youtube.com/watch?v=F_JxDdKK2xwYapay zekadan makale özeti
- Kısa
- Ayrıntılı
- Bu video, Kaan adlı bir eğitmen tarafından sunulan tahmin algoritmaları eğitim serisinin ilk bölümüdür. Eğitmen, veri bilimi ve yapay zeka projelerinde kullanılan temel teknikleri adım adım anlatmaktadır.
- Video, tahmin algoritmalarının ne olduğunu açıklayarak başlıyor ve ardından veri ön işleme sürecine geçiyor. Google Colab üzerinden MPG veri setinin okunması, pandas ve seaborn kütüphanelerinin kullanımı, boş değerlerin tespit edilmesi, kategorik verilerin işlenmesi, veri setinin eğitim ve test olarak ayrılması ve görselleştirilmesi gibi temel adımlar gösteriliyor. Son bölümde ise Keras kütüphanesi kullanılarak regresyon modellerinin oluşturulması anlatılıyor.
- Eğitim serisi, veri ön işleme adımlarını öğrenmek isteyenler için faydalı bir kaynak niteliğindedir ve bir sonraki derste doğrusal ve derin regresyon modellerinin oluşturulacağı bilgisiyle sonlanmaktadır.
- 00:01Tahmin Algoritmaları Serisi
- Video serisi tahmin algoritmalarına odaklanacak ve fiyat, konum, borsa hareketleri gibi farklı verileri tahmin etme yöntemlerini inceleyecek.
- Serinin ilk videosunda veri ön işleme kısmına odaklanılacak, diğer videolarda doğrusal regresyon ve derin regresyon algoritmaları incelenecek.
- Doğrusal regresyon doğrusal tahmin, derin regresyon ise derin manasına gelmektedir.
- 01:10Veri Seti İncelemesi
- Veri seti iki dosyadan oluşmaktadır: data dosyası ve names dosyası (veri setinin özelliklerini içeren).
- Veri seti araba hakkında bilgiler içeriyor: motor verimliliği (mpg), silindir sayısı, km başına yakıt tüketimi, beygir gücü, ağırlık, model yılı, hızlanma süresi ve üretilme yeri.
- Veri setinde araba isimleri de bulunuyor ancak tahmin işlemi için kullanılmayacak.
- 03:00Google Colab ve Kütüphaneler
- Google Colab, yapay zeka ve derin öğrenme işlemlerini kolaylaştıran Google'un sunduğu bir hizmettir.
- Pandas kütüphanesi veri işleme ve görselleştirme için kullanılır, dataframe adı verilen veri yapıları içerir.
- Seaborn, matplotlib altyapısını kullanarak veri görselleştirme için kullanılan bir kütüphanedir.
- 04:20Veri Setini Okuma ve Ön İşleme
- Pandas kütüphanesinin read_csv fonksiyonu kullanılarak veri seti adresinden okuma işlemi gerçekleştirilir.
- skipinitialspace parametresi true olarak ayarlanarak sütunların düzgün bir şekilde eşleştirilmesi sağlanır.
- Boş değerler (NaN) içeren satırlar veri setinden silinir, kategorik verilerin algılanması için gerekli ön işlemler gerçekleştirilir.
- 09:38Kategorik ve Sayısal Veriler
- Kategorik veriler sayısal verilerden farklı olarak hiyerarşik yapıya sahip değildir; örneğin 3'ün 2'den büyük olduğu söylenemez, sadece indeksleme amaçlı kullanılır.
- Veri setinde kategorik verileri sayısal olarak işlemek yerine, kategorileştirmek gerekir.
- Kategorik verileri kategorileştirmek için map fonksiyonu kullanılabilir ve her kategorik veriye uygun değer atanabilir.
- 11:02Veri Setindeki Kategorik Veriler
- Veri setinde motor verimliliği, silindir sayısı, mesafe, beygir gücü, ağırlık ve çıkma hızı sayısal verilerdir.
- Origin (arabanın üretildiği ülke/kiya) kategorik bir veridir ve bu veriyi kategorileştirmek gerekir.
- Origin verisi 1, 2 ve 3 olmak üzere üç kategorik birimden oluşur ve bunlar sırasıyla Amerika, Avrupa ve Japonya olarak kategorileştirilir.
- 13:53Veri Setini Kategorileştirme
- Pandas kütüphanesinin get_dummies fonksiyonu kullanılarak kategorik veriler birleştirilir.
- Kategorileştirme işleminden sonra origin sütununda Amerika, Avrupa ve Japonya değerleri 0 ve 1 değerleriyle temsil edilir.
- Bu şekilde kategorik verilerin üstünlükleri ele alınarak veri seti eğitilebilir hale getirilir.
- 15:38Veri Setini Eğitim ve Test Olarak Ayırma
- Pandas kütüphanesinin sample fonksiyonu kullanılarak veri seti %80 eğitim, %20 test olarak ayrılır.
- Sample fonksiyonu hem veri setini ayırır hem de karıştırır.
- Test seti, eğitim setindeki indeksleri veri setinden çıkararak elde edilir.
- 17:14Veri Setini Görselleştirme
- Veri seti 11 sütunlu olduğundan (11 boyutlu) görselleştirme işlemi zorlaşır.
- Seaborn kütüphanesinin pairplot fonksiyonu kullanılarak veri seti görselleştirilir.
- Görselleştirme işlemiyle veri setindeki değişkenlerin birbirleriyle ilişkisi incelenir ve doğrusallık analizi yapılabilir.
- 20:06Doğrusal İlişkiler ve Model Eğitimi
- Veri setinde model yılı, mesafe, beygir gücü ve ağırlıkla ilgili doğrusal ilişkiler bulunmaktadır.
- MPG (yakıt verimliliği) açısından tüm veriler benzer şekilde sıralanmıştır, bu da modelin doğrusal şekilde eğitilmesi ve başarılı sonuçlar elde edilmesi anlamına gelir.
- Model yılına göre dağılım halindeyken, modern araçlarda doğrusal ilişki mevcuttur ve bu iki farklı ilişkiyi birleştirmek için derin öğrenme (dip regresyon) modeli kullanılabilir.
- 21:18Veri Setinin İncelenmesi
- Veri setinin detaylı incelenmesi için "describe" ve "transpose" fonksiyonları kullanılarak her sütunun ortalaması, standart sapması, minimum ve maksimum değerleri görüntülenir.
- Veri setindeki değerler (MPG ortalaması 23, silindir 5, mesafe 195, beygir gücü 104, ağırlık 2990) arasında doğrudan ilişki kurmak zordur.
- Tüm verileri belirli bir aralıkta ifade etmek için normalleştirme işlemi yapılmalıdır; beygir gücü 104 değeri 1'e, silindir 3 değeri 1'e, ağırlık 2990 değeri 5'e ifade edilmelidir.
- 23:00Normalleştirme ve Etiketleme
- Verileri -1 ile 1 aralığına sıkıştırmak, daha başarılı bir model eğitimi sağlar.
- Keras kütüphanesi modelleri otomatik olarak normalleştirir ancak bu işlem eğitim sürecini yavaşlatabilir, bu nedenle önceden normalleştirme yapılması önerilir.
- Eğitim ve test setlerinden MPG değerleri "pop" fonksiyonu kullanılarak etiket olarak ayrılır ve diğer derste bu veriler kullanılarak doğrusal ve derin regresyon modelleri oluşturulacaktır.