• Buradasın

    Regresyon ve Sınıflandırma Problemlerinde Performans Değerlendirme Ölçütleri

    youtube.com/watch?v=TpbtDp6brDQ

    Yapay zekadan makale özeti

    • Bu video, bir eğitmen tarafından sunulan eğitim dersi formatında olup, regresyon ve sınıflandırma problemlerinin performans değerlendirme ölçütlerini detaylı şekilde ele almaktadır.
    • Video üç ana bölümden oluşmaktadır: İlk bölümde regresyon problemlerinin performans değerlendirme ölçütleri (MAE, MSE, RMS, medyan mutlak hata ve R²) formüllerle açıklanmaktadır. İkinci bölümde sınıflandırma problemlerinde kullanılan hata matrisi, doğruluk, kesinlik, duyarlılık ve F1 skoru gibi ölçütler anlatılmaktadır. Son bölümde ise ROC eğrisi, AUC değeri ve eşik değeri kavramları açıklanmaktadır.
    • Videoda ayrıca kanser tespit örneği üzerinden performans ölçütleri hesaplanmakta, dengesiz veri setlerinde doğruluk skorunun gerçekçi olmayabileceği vurgulanmakta ve eşik değerlerinin sınıflandırma sonuçlarına etkisi doktorlarla karşılaştırılarak açıklanmaktadır.
    00:11Regresyon ve Sınıflandırma Problemlerinin Performans Değerlendirme Ölçütleri
    • Ders, regresyon ve sınıflandırma problemlerinin performans değerlendirme ölçütlerini ele alacaktır.
    • Önceki derslerde k en yakın komşu algoritması ve doğrusal regresyon teorik olarak anlatılmıştır.
    • Ders iki aşamadan oluşacak: önce regresyon problemlerinin, sonra sınıflandırma problemlerinin performans değerlendirme ölçütleri incelenecektir.
    01:05Regresyon Problemlerinin Performans Değerlendirme Ölçütleri
    • Regresyon problemlerinde ortalama mutlak hata, ortalama kare hata, ortalama kare hata karekökü, medya mutlaka hata ve belirleme katsayısı olmak üzere beş farklı performans değerlendirme ölçütü kullanılır.
    • Regresyon modellerinde amacımız veri noktalarına en uygun doğruyu çizmektir ve bu doğruya olan uzaklıkların minimum olması istenir.
    • Hata, gerçek değer (y) ile tahmin edilen değer (h) arasındaki fark olarak ifade edilir ve negatif uzaklık değerinden kurtulmak için mutlak değer veya kare alınabilir.
    04:15Ortalama Mutlak Hata ve Ortalama Kare Hata
    • Ortalama mutlak hata (MAE), hataların mutlak değerlerinin toplamının örnekleme bölünmesiyle hesaplanır.
    • Ortalama kare hata (MSE), hataların karelerinin toplamının örnekleme bölünmesiyle hesaplanır.
    • Ortalama kare hata karekökü (RMSE), MSE'nin karekökü alınarak hesaplanır ve farklı ölçülerdeki verileri karşılaştırmak için kullanılır.
    06:35Medya Mutlaka Hata ve Belirleme Katsayısı
    • Medya mutlaka hata, hataların mutlak değerlerinin medyanı olarak hesaplanır ve merkezi dağılım ölçütlerinden biridir.
    • Belirleme katsayısı (R-kare), 0 ile 1 arasında bir değer alır ve 1'e ne kadar yakınsa performans o kadar iyi olur.
    • Belirleme katsayısının formülü, hataların karelerinin toplamının, gerçek değerlerin ortalama değerlerinden farklarının karelerinin toplamına bölünmesiyle hesaplanır.
    09:44Hata Değerlerinin Değerlendirilmesi
    • Belirleme katsayısı 0 ile 1 arasında bir değer alırken, hata değerleri için belirli bir aralık belirtilmez.
    • Hata değerlerinin büyük veya küçük olması değil, hatayı ne kadar düşürebileceğimiz önemlidir.
    • Hatayı iterasyonlarla düşürdükten sonra, hatayı artık düşemediğimiz noktada durmamız gerekir ve bu nokta lokal veya global minimum olabilir.
    13:54Sınıflandırma Problemlerinde Performans Değerlendirme Ölçütleri
    • Sınıflandırma problemlerinde performans değerlendirme ölçütleri, hata maddesi adı verilen bir matris tarafından üretilir.
    • Hata maddesi, sınıflandırma problemindeki sınıf etiketlerine göre boyutlandırılır ve performans değerlendirme ölçütleri hesaplanırken kullanılır.
    • Hata maddesi (confusion matrix) k×k boyutunda bir matristir, k ise sınıf etiketlerinin sayısıdır.
    15:21Hata Maddesinin Yapısı ve İçeriği
    • Gösterilen örnekte, kanser ve kanser değil olmak üzere iki etiketli bir veri setinde toplam 5000 örneğe sahip bir hata maddesi bulunmaktadır.
    • Hata maddesinde dört hücre bulunur: Doğru Pozitif (TP), Doğru Negatif (TN), Yanlış Pozitif (FP) ve Yanlış Negatif (FN).
    • Veri setinde dengesiz dağılım vardır: 400 kanserli hasta ve 4600 kanser olmayan hasta bulunur.
    16:19Dengesiz Veri Setleri ve Önemi
    • Dengesiz veri setleri (imbalance dataset), makine öğrenmesinde üstesinden gelinmesi gereken problemlerden biridir.
    • Kanser olmayan hastaların yoğunluğu, modellerin "kanser değil" etiketine ağırlık vermesine neden olabilir.
    • Dengesiz veri setlerinde performansı daha yüksek elde etmek için özel yöntemler geliştirilmiştir.
    17:48Hata Maddesinin Değerleri
    • Doğru Pozitif (TP): Gerçekte kanser olan ve modelin de kanser olarak tahmin ettiği hasta sayısı (100).
    • Yanlış Negatif (FN): Gerçekte kanser olan ancak modelin kanser değil olarak tahmin ettiği hasta sayısı (303).
    • Yanlış Pozitif (FP): Gerçekte kanser olmayan ancak modelin kanser olarak tespit ettiği hasta sayısı (150).
    • Doğru Negatif (TN): Gerçekte kanser olmayan ve modelin de kanser değil olarak tahmin ettiği hasta sayısı (4450).
    19:50Performans Değerlendirme Ölçütleri
    • Doğruluk (Accuracy): Doğru pozitif ve doğru negatif örneklerin tüm örneklere oranı, veri setinde 0.90 (90%) olarak hesaplanmıştır.
    • Kesinlik (Precision): Pozitif olarak sınıflandırılan tüm örnekler arasında gerçekten doğru sınıflandırılanların oranı, veri setinde 0.40 olarak bulunmuştur.
    • Duyarlılık (Sensitivity/Recall): Doğru pozitifin doğru pozitif artı yanlış negatife oranı, veri setinde 0.25 olarak hesaplanmıştır.
    22:47Performans Değerlendirme Ölçütlerinin Önemi
    • Yanlış negatif (FN) değerinin düşük olması daha kritiktir çünkü kanser olan hastaların "kanser değil" olarak sınıflandırılması ciddi sonuçlara yol açabilir.
    • Yanlış pozitif (FP) değerinin düşük olması da önemlidir çünkü kanser olmayan hastaların "kanser" olarak sınıflandırılması psikolojik ve fiziksel zararlara neden olabilir.
    • F1 Skoru: Duyarlılık ve kesinlik değerlerini birleştiren bir performans ölçütüdür ve özellikle dengesiz veri setlerinin performansını daha net ortaya koymak için kullanılır.
    26:14ROC Eğrisi ve Performans Değerlendirme
    • ROC eğrisi, sınıflandırma performansını değerlendirmek için kullanılan bir grafiktir; x ekseninde yanlış pozitif oranı, y ekseninde doğru pozitif oranı gösterilir.
    • ROC eğrisinde arzulanan şey, AUC (eğri altında kalan alan) değerinin 1'e yakın olmasıdır; bu durum için doğru pozitif oranın 1'e, yanlış pozitif oranın 0'a yakın olması gerekir.
    • ROC eğrisindeki kesikli çizgiler eşik değeri (threshold) gösterir ve bu değer, sınıflandırdığınız örneklerin hangi sınıfa dahil olacağına etki eder.
    28:07Eşik Değeri ve Örnekler
    • Eşik değeri, bir doktorun hastanın kanserli olup olmadığını değerlendirmesindeki deneyimine benzer şekilde, sınıflandırma modelinde de karar verme yetkisini belirler.
    • Farklı doktorların (veya modellerin) eşik değerleri farklı olabilir; bu nedenle biri kanserli bulduğunda diğeri kanserli bulmayabilir.
    • ROC eğrisi, bir doktorun yüz farklı laboratuvar sonucuna verdiği yorumlar veya yüz farklı doktorun bir laboratuvar bulgusuna verdiği yorumlarla oluşturulabilir.
    32:15Sonuç ve Yorumlama
    • ROC eğrisi ve diğer performans ölçüleri kullanılarak modelin performansı hakkında bilgi edinilebilir ve yorumlar çıkarılabilir.
    • Sınıflandırma performansının değerlendirilmesi için matematiksel sonuçlar elde edilmesi kadar bu sonuçların yorumlanması da önemlidir.
    • Bu ders sınıflandırma performansının değerlendirme açısından incelenmesini içermektedir.

    Yanıtı değerlendir

  • Yazeka sinir ağı makaleleri veya videoları özetliyor