Yapay zekadan makale özeti
- Kısa
- Ayrıntılı
- Bu video, bir eğitmen tarafından sunulan Python ile makine öğrenmesi eğitim serisinin bir bölümüdür. Eğitmen, veri ön işleme tekniklerini adım adım göstermektedir.
- Videoda, veri setindeki "name" (isim) değişkeninin analiz edilmesi, ünvanların İngilizce ve Fransızca karşılıklarının birleştirilmesi, frekans analizi ve veri setinin temizlenmesi konuları ele alınmaktadır. Eğitmen, isim değişkeninden ünvanları nasıl ayırabileceğimiz, bu ünvanları nasıl gruplandırabileceğimiz ve en sık görülen ünvanları nasıl belirleyebileceğimiz Python kodları üzerinden göstermektedir.
- Video, veri setinin dokuz koldan oluşmasıyla sona erer ve bir sonraki videoda encode işlemi ve model çalıştırma konularının işleneceği belirtilir.
- 00:01Python ile Makine Öğrenmesi Eğitimi
- Python ile makine öğrenmesi eğitimine kaldığı yerden devam ediliyor.
- Önceki videoda data setindeki gereksiz sütunlar gönderilmiş, eksik gözlem değerleri doldurulmuş ve veri tipleri kontrol edilmiş.
- Bu videoda "name" değişkeni üzerine kafa yorulacak.
- 00:46Name Değişkeninin Değerlendirilmesi
- "Name" değişkeni metinsel bir ifade olarak tanımlanmış bir yapıdır.
- İsim değişkeni ile hayatta kalıp kalmaması arasında sezgisel olarak anlamlı bir ilişki kurulamaz.
- Bu değişken ham veriyi alıp modele göndermek için yeterli değildir, veriler üzerine kafa yorulması gerekir.
- 02:26Spesifik Bilgilerin Önemi
- Bir değişkeni işimize yaramıyor diye silmek son çarelerden biridir.
- Makine öğrenmesi insan öğrenmesi gibi çalışır ve spesifik bilgilerden faydalanarak kategorilere atama yapar.
- Spesifik bilgileri almak için değişkenlerin içeriklerine bakmak gerekir.
- 06:12Name Değişkeninden Ünvanları Çıkarma
- "Name" yapısında kişilerin ünvanları ile ilgili bilgiler bulunmaktadır.
- Ünvanlar spesifik bilgiler olduğu için modelin ayırt edebilmesi için daha işe yarar.
- "Name" yapısında noktalama işareti ayraç olarak kullanılarak ünvanlar ayrılabilir.
- 08:29Ünvanları İşleme
- Ünvanlar "title" adlı bir değişkene tanımlanabilir.
- Ünvanlar virgül üzerinden tekrar parçalanabilir ve baş ve son boşluklar "strip" fonksiyonu ile temizlenebilir.
- Ünvanlar frekanslarına göre gruplandırılabilir ve en fazla frekansa sahip olanlar özellik olarak alınabilir.
- 12:50Ünvan Verilerinin Birleştirilmesi
- İngilizce ünvanlar (title) birleştirilerek "mister" yapısına dönüştürülüyor.
- Fransızca ünvanlar da İngilizce ünvanlarla birleştirilerek "master" yapısına atanıyor.
- Birleştirme işlemi için iç içe for döngüsü kullanılarak "str replace" fonksiyonu ile Fransızca ünvanlar İngilizce karşılıklarıyla değiştiriliyor.
- 15:53Ünvan Verilerinin Gruplandırılması
- Ünvan verileri gruplandırılarak en yüksek frekanslı dört ünvan ve diğerleri (others) olarak adlandırılan beşinci kategori oluşturuluyor.
- Apply yapısı kullanılarak "apply" parametresi ile en yüksek frekanslı dört ünvan belirleniyor, diğerleri "others" olarak adlandırılıyor.
- Sonuç olarak, title kısmı dört en yüksek frekanslı ünvan ve bir "others" kategorisinden oluşan beş kategoriden oluşan bir değişken haline geliyor.
- 19:26Veri Setinin Hazırlanması
- Kişinin hayatta kalıp kalmaması ile ilgili ünvanlar arasında ilişki olup olmadığını ortaya çıkarmak için veri seti hazırlanıyor.
- "Nemi" ve "ticket" gibi anlam ifade etmeyen kolonlar veri setinden çıkarılıyor.
- Veri setinde dokuz koldan biri hedef değişken, geriye kalanlar model oluşturmak için kullanılacak data yapıları olarak kalıyor.
- 21:52Veri Setinin Önemi
- Regresyonda tarih üzerinden benzer bir işlem yapılmış, sınıflandırma problemi için de benzer mantık kullanılmış.
- Verinin model üzerinde çalışması kolay, ancak verinin model üzerine giderken üzerindeki gürültülerden arındırılması çok daha önemli bir konu.
- Bir sonraki videoda oluşturulan veri setleri encode edilecek ve model çalıştırılacak.