Buradasın

Yapay Zeka Serisi: Veri Ön İşleme

youtube.com/watch?v=rSyDZy9lgZQ

Yapay zekadan makale özeti

Kısa
Ayrıntılı

Bu video, yapay zeka serisinin beşinci bölümü olup, bir eğitmen tarafından sunulan makine öğrenmesi eğitim içeriğidir.
Video, veri ön işleme konusunu iki ana bölümden oluşmaktadır. İlk bölümde etiket olan verilerin numaralandırılması, sayısallaştırılması ve özelliklerin ölçeklenmesi konuları ele alınırken, ikinci bölümde özellik ölçekleme yöntemleri (standardizasyon ve normalleştirme) detaylı olarak açıklanmaktadır. Eğitmen, Jupyter ortamında kod örnekleriyle veri setinin nasıl hazırlanacağını adım adım göstermektedir.
Video, bir sonraki bölümde makine öğrenmesi, denetimli ve denetimsiz öğrenme konularına giriş yapılacağını ve regresyon modelinin inceleneceğini duyurarak sona ermektedir.

Yapay Zeka Serisinin Beşinci Videosu: Bu video, yapay zeka serisinin beşinci videosu olup veri ön işleme konusunun ikinci kısmını ele alıyor.
Önceki videoda veri setini yükleme ve kayıp değerleri doldurma konuları ele alınmış, bu videoda ise etiket olan verileri numaralandırma, sayısallaştırma, özellikleri ölçekleme ve veri setini öğrenme-test şeklinde ikiye bölme konuları ele alınacak.
Önceki videoda gerekli kütüphanelerin (numpy, pandas ve py pilot) eklenmesi, veri setinin CSV dosyası kullanılarak yüklenmesi ve verinin X (bağımsız değişken) ve Y (bağımlı değişken) olarak ikiye bölünmesi gösterilmişti.
01:47Etiket Değerlerini Numaralandırma: Veri setini uygun matematiksel model bulabilmek için sayısal değerlerle çalışmak gerekiyor, bu yüzden etiket olan değerlerin hepsini sayısallaştırmak gerekiyor.
Encoding işlemi için iki sınıf bulunuyor: Label Encoder ve One Hot Encoder.
Label Encoder, iki veya daha az sınıf sayılarında kullanılır ve etiketleri 0, 1 aralığında numaralandırır.
One Hot Encoder, iki veya daha fazla sınıf sayılarında kullanılır ve etiketleri ikili sayı sisteminde numaralandırır.
03:47Kod Aşaması: Bağımsız değişken (ülke isimleri) One Hot Encoding olarak, bağımlı değişken (purchased) ise Label Encoding olarak numaralandırılacak.
One Hot Encoding için Column Transformer kullanılıyor ve hangi index'in uygulanacağı belirtiliyor.
Label Encoding için Column Transformer yerine Label Encoder sınıfı kullanılıyor ve "pass_through" parametresi ile diğer sütunlar korunuyor.
09:18Veri Setini Öğrenme-Test Olarak Bölme: Veri setini ikiye bölme işlemi, matematiksel model bulabilmek için yapılıyor.
TrainTestSplit fonksiyonu kullanılarak veri seti öğrenme ve test verilerine bölünüyor, genellikle %80 öğrenme, %20 test oranı kullanılıyor.
TrainTestSplit fonksiyonu dört değişken döndürüyor: X_train (öğrenme verisinin bağımsız değişkeni), Y_train (öğrenme verisinin bağımlı değişkeni), X_test (test verisinin bağımsız değişkeni) ve Y_test (test verisinin bağımlı değişkeni).
RandomState parametresi kullanılarak veri setinin her seferinde aynı şekilde bölünmesi sağlanabilir.
14:06Veri Ölçekleme Yöntemleri: Veri ölçekleme, tüm özelliklerin aynı ölçekte işlem görmesini sağlayarak bazı özelliklerin diğer özellikleri domine etmesinden kaynaklanan sorunları çözer.
Veri ölçeklemede iki yöntem kullanılır: standardizasyon ve normalleştirme.
Standardizasyon her zaman çalışır ancak normal dağılımlarda (Gauss dağılımı) kullanılması önerilmez, normalleştirmede ise normal dağılımlarda kullanılması önerilir.
14:42Standardizasyon ve Normalleştirme Formülleri: Standardizasyon formülü: x'i ortalamasından çıkarıp standart sapmasına bölmek.
Normalleştirme formülü: x'i minimum değerinden çıkarıp maksimum değerden çıkarmak.
Veri setini öğrenme ve test şeklinde ikiye böldükten sonra sadece öğrenme verisinde ölçekleme uygulanmalıdır çünkü test verisi bilinmeyen veri üzerinde rol oynarken, öğrenme verisi matematiksel model oluşturmada aktif rol oynar.
15:49Kodlama Örneği: Normal dağılımlarda normalleştirme, normal dağılımlarda standartizasyon kullanılması önerilir.
Standardizasyon için gerekli kütüphane eklenir ve StandardScaler sınıfı kullanılır.
Öğrenme verisinde hem fit hem transform fonksiyonları kullanılırken, test verisinde sadece transform fonksiyonu kullanılır çünkü test verisi ile öğrenme verisi aynı skaler kullanılarak ölçeklenmelidir.
19:25Sonuç ve Gelecek Video: Veri ön işleme kısmı bu kadardır ve videoda kullanılan kodlar paylaşılacaktır.
Bir sonraki videoda makine öğrenmesine ve alt kümeleri olan denetimli ve denetimsiz öğrenme konularına detaylı giriş yapılacaktır.
Bir sonraki videoda basit regresyon modeli incelenecektir.

Yapay Zeka Serisi: Veri Ön İşleme

Yapay zekadan makale özeti

Yanıtı değerlendir