Buradasın

Python ile Makine Öğrenmesi: Kategorik Değişkenleri Regresyon Modeline Entegre Etme ve Model Kurma

youtube.com/watch?v=HrzjbO2-l7E

Yapay zekadan makale özeti

Kısa
Ayrıntılı

Bu video, bir eğitmen tarafından sunulan Python ile makine öğrenmesi eğitim içeriğidir. Eğitmen, veri analizi ve model kurma konusunda adım adım anlatım yapmaktadır.
Video, iki ana bölümden oluşmaktadır. İlk bölümde kategorik değişkenleri regresyon modeline nasıl entegre edebileceğimiz anlatılmakta, label encoding ve one hot encoding gibi kodlama yöntemleri açıklanmaktadır. İkinci bölümde ise "tips" adlı veri seti üzerinde doğrusal regresyon modeli kurma süreci gösterilmektedir.
Eğitim içeriğinde kukla değişken tuzağı, drop_first parametresi kullanımı, veri setini train ve test olarak parçalara ayırma, model kurma ve tahmin değerlerini hesaplama gibi konular kod örnekleriyle anlatılmaktadır. Ayrıca, modelin doğrusal bir modele uygun olmadığını göstererek, model seçimi ve veri ön işleme süreçlerinde dikkat edilmesi gereken noktalar vurgulanmaktadır.

00:01Python ile Makine Öğrenmesi Eğitimi: Python ile makine öğrenmesi eğitimine kaldığı yerden devam ediliyor.
Önceki videoda çoklu doğrusal regresyon modeli üzerinde eksik gözlemlerin doldurulması ve hata parametrelerinin okunması gibi senaryolar gösterilmişti.
Bu videoda kategorik değişkenleri regresyon modeline nasıl entegre edileceği anlatılacak.
00:48Kategorik Değişkenlerin Kodlanması: Kategorik yapılar veri analizi eğitiminde encoding adı verilen bir yapı ile regresyon modeline entegre edilebiliyor.
En önemli iki kodlama yöntemi label encoding ve one hot encoding'dir.
Hiyerarşik bir durum varsa label encoding, hiyerarşik durum yoksa one hot encoding kullanılır.
02:11Veri Seti İncelemesi: Pandas, Matplotlib ve Seaborn kütüphaneleri import edilerek "tips" isimli veri seti okunuyor.
Veri seti total (toplam fatura tutarı), tip (bahşiş tutarı), sex (cinsiyet), smoker (sigara içip içmemesi), day (hangi gün), time (hangi öğünde yemek yediği) ve size (kaç kişi olduğu) değişkenlerinden oluşuyor.
Veri setinde eksik gözlem değeri bulunmuyor.
03:59Kategorik Değişkenlerin Tanımlanması: Cinsiyet değişkeni iki gruptan oluşuyor: male ve female.
Smoker değişkeni iki gruptan oluşuyor: yes ve no.
Day ve time değişkenleri ikiden fazla gruptan oluşuyor.
Cinsiyet, smoker, day ve time değişkenleri arasında hiyerarşik sıralama olmadığı için one hot encoding kullanılacak.
04:56Veri Setinin Veri Tipleri: Veri setindeki değişkenlerin veri tipleri inceleniyor.
Toplam fatura tutarı ve bahşiş tutarı float 64, size değişkeni integer 64 olarak tanımlanıyor.
Sex, smoker, day ve time değişkenleri kategorik olarak adlandırılmış.
05:46Kategorik Değişkenleri Kodlama: Büyük veri setlerinde kategorik değişkenleri teker teker ayırmak zaman açısından mantıklı olmadığı için bir yapı kurulacak.
"kategorik" adında bir fonksiyon oluşturuluyor ve veri setindeki kategorik değişkenleri alıyor.
"select_dtypes" fonksiyonu kullanılarak kategorik değişkenler listeleniyor.
09:15One Hot Encoding Uygulaması: One hot encoding yapısı kullanıldığında her kategorik değişken iki değişken haline çevriliyor.
Bu durum kukla değişken tuzağı olarak adlandırılan bir problem ortaya çıkartıyor.
"drop_first=True" parametresi kullanılarak kukla değişken tuzağına düşmeden kodlama yapılıyor.
Cinsiyet değişkeni 1-kadın, 2-erkek şeklinde; smoker değişkeni 1-yes, 0-no şeklinde; gün değişkeni 1-pazartesi, 2-salı, 3-çarşamba, 4-perşembe şeklinde; öğün değişkeni 1-akşam, 0-kahvaltı şeklinde kodlanıyor.
12:32Veri Setinde Bağımlı ve Bağımsız Değişkenlerin Tespiti: Veri setinde toplam fatura tutarı, bahşiş tutarı, kişi sayısı, cinsiyet, sigara içme durumu ve gün/öğün gibi bağımsız değişkenler bulunuyor.
Tahmin edilecek bağımlı değişken olarak "tip" (bahşiş tutarı) seçiliyor.
Bağımsız değişkenler için "drop" fonksiyonu kullanılarak "tip" değişkeni veri setinden çıkarılıyor ve geriye kalanlar "x" değişkenine atanıyor.
15:10Veri Setinin Parçalanması ve Model Kurulumu: Veri seti "train_test_split" fonksiyonu ile %80 eğitim ve %20 test olarak parçalanıyor.
"LinearRegression" sınıfı kullanılarak doğrusal regresyon modeli kuruluyor.
Model, eğitim verileri ile öğrenildikten sonra test verileri üzerinde tahmin değerleri üretiyor.
17:07Model Performansının Değerlendirilmesi: Gerçek değerler ve tahmin değerleri karşılaştırılarak çizgi grafik oluşturuluyor.
Grafikte gerçek ve tahmin değerleri arasındaki uyumsuzluk net bir şekilde görülüyor.
R-kare skoru negatif çıkıyor çünkü veri seti doğrusal bir modele uyumsuz.
20:40Model Tuning ve Sonuç: Veri seti doğrusal modele uyum sağlamıyor, bu nedenle model seçimi üzerinde hata yapıldığı düşünülüyor.
Model tuning, model doğru olabilirken veri ön işleme sürecinde problemler, test size oranı veya random state değişiklikleri gibi faktörleri içerir.
Bir sonraki videoda model tuning konusu anlatılacak.

Python ile Makine Öğrenmesi: Kategorik Değişkenleri Regresyon Modeline Entegre Etme ve Model Kurma

Yapay zekadan makale özeti

Yanıtı değerlendir

Python ile makine öğrenmesi nasıl yapılır?

Kategorik değişkenler regresyonda nasıl ele alınır?

Makine öğrenmesinde kategorik veriler nasıl kodlanır?