Yapay zekadan makale özeti
- Kısa
- Ayrıntılı
- Bu video, bir konuşmacının Python ile makine öğrenmesi konusunda eğitim verdiği bir eğitim içeriğidir.
- Video, çok terimli lojistik regresyon yapısının ne olduğu ve nasıl kullanılacağı konusunu ele almaktadır. İçerik, Cagle.com'dan indirilen Iris veri seti üzerinde adım adım Python kodlarını göstermektedir. Eğitim, veri setinin indirilmesi, temizlenmesi, bağımlı değişkenin encoder edilmesi, eğitim ve test veri setlerinin ayrılması, standartlaştırma işlemleri, modelin oluşturulması, fit edilmesi ve başarı ölçümü (konfis matris, başarı skoru) ile devam etmektedir.
- Videoda ayrıca cross validation yöntemi kullanılarak modelin gerçek başarı puanının nasıl ölçüleceği gösterilmekte ve Iris data setinin üç farklı çiçek türü (setosa, versicolor, virginica) ve bunların yaprak uzunlukları ile genişlikleri hakkında bilgiler içermektedir.
- 00:02Çok Terimli Lojistik Regresyon
- Python ile makine öğrenmesi eğitiminde, bir önceki videoda kanser veri seti kullanılarak lojistik regresyon yapısı kurgulanmıştı.
- Bağımlı değişken iki kategori yapısından oluşuyorsa (iyi ve kötü huylu tümör), bu yapıya çok terimli lojistik regresyon denir.
- Bağımlı değişken ikiden fazla kategori yapısından oluşuyorsa ve bu kategoriler arasında hiyerarşik bağlantı yoksa çok terimli lojistik regresyon kullanılır, hiyerarşik bağlantı varsa sıralı lojistik regresyon kullanılır.
- 01:53Iris Veri Seti Tanıtımı
- Python'da lojistik regresyon yapısını kurgulamak için Kaggle.com'dan "iris" veri seti kullanılacak.
- Iris veri seti, 1936'da bir bilim insanı tarafından üç tür (setosa, versicolor ve virginica) iris çiçeğinin 150 elemanlı bir veri setidir.
- Veri setinde dört nitelik yapısı (alt yaprak uzunluğu, alt yaprak genişliği, üst yaprak genişliği ve üst yaprak uzunluğu) ve üç farklı tür yapısı (bağımlı değişken) bulunmaktadır.
- 04:45Veri Setinin Python'da Hazırlanması
- Veri seti Python'da "pd.read_csv" fonksiyonu ile okunarak "veri" değişkenine atanır.
- Veri setinde "id" sütunu silinir ve eksik gözlem değeri kontrol edilir.
- Bağımlı değişken olan "species" sütununun unique değerleri kontrol edildiğinde üç benzersiz kategori (setosa, versicolor ve virginica) olduğu görülür.
- 07:41Veri Ön İşleme
- Bağımlı değişkenin kategorik değerlerini sayısal değerlere dönüştürmek için LabelEncoder kullanılır.
- Bağımsız değişkenler "drop" fonksiyonu ile bağımlı değişken sütunundan ayrılır.
- Eğitim ve test veri setleri "train_test_split" fonksiyonu ile 0,20 test boyutu ve random state değeri 42 ile ayrılır.
- Standartlaştırma işlemi için "StandardScaler" kullanılarak bağımsız değişkenler dönüştürülür.
- 11:42Lojistik Regresyon Modelinin Kurulumu
- Lojistik regresyon modeli için random state atanarak model fit edilir.
- Model, eğitim data setinde y ve x değerleriyle fit edilir ve tahmin değerleri x test değerleriyle alınır.
- 12:22Model Başarısının Değerlendirilmesi
- Modelin başarı parametreleri için hata matrisi ve başarı skoru kullanılır.
- Hata matrisi, y test değerleri ve tahmin değerleri kullanılarak oluşturulur.
- Doğruluk başarı oranı (accuracy) hesaplanarak modelin performansı değerlendirilir.
- 14:11Cross Validation ile Model Değerlendirmesi
- Normal şartlarda yüzde yüz başarı puanı elde edildiğinde şüphelenilmesi gerekir.
- Cross validation yapısı kullanılarak modelin performansı test edilir.
- Iris data seti genellikle yüksek başarı puanı veren bir örnek yapısıdır.
- 14:51Cross Validation Uygulaması
- Cross validation skoru için model selection kısmına cross validation skoru eklenir.
- Test data seti üzerinden cross validation değerleri alınır ve ortalaması hesaplanır.
- Cross validation sonucunda 0,93 gibi bir başarı puanı elde edilir.