Yapay zekadan makale özeti
- Kısa
- Ayrıntılı
- Bu video, bir konuşmacının makine öğrenimi algoritmalarından karar ağaçlarını (decision trees) anlattığı eğitim içeriğidir.
- Video, karar ağaçlarının temel prensiplerini, görselleştirilmesini ve uygulamalarını detaylı şekilde ele almaktadır. İlk bölümde "yeni iş teklifini kabul etmeli miyim?" sorusu üzerinden örnek bir karar ağacı oluşturulurken, ikinci bölümde regresyon ve sınıflandırma için farklı yaklaşımlar, SVM hata fonksiyonu ve Gini impurity katsayısı kullanılarak dallanma stratejileri anlatılmaktadır.
- Videoda ayrıca aşırı öğrenme (overfitting) sorununa karşı budama (pruning) teknikleri, karar ağaçlarının avantajları ve dezavantajları da ele alınmaktadır. Video, bir sonraki bölümde Python kodlarıyla devam edeceğini belirterek sona ermektedir.
- Karar Ağaçları Nedir?
- Karar ağaçları (decision trees), machine learning'in önemli bir algoritmasıdır ve sürekli if ve else komutları kullanarak ağaç şeklinde oluşturulur.
- Karar ağaçları öğrenmesi ve anlatılması diğer algoritmalara göre daha kolaydır.
- Karar ağaçları hem regresyon hem de sınıflandırma problemleri için kullanılabilir.
- 00:26Karar Ağaçlarının Çalışma Prensibi
- Karar ağaçları, bir soruya cevap verirken if-else komutları kullanarak karar verir ve bu kararlar ağaç şeklinde görselleştirilir.
- Karar ağaçlarında yapraklar (leaf) nihai kararları, dallar ise soruları temsil eder.
- Ağaç temelli yöntemler yorumlama için basit ve kullanışlıdır.
- 02:19Algoritma Seçimi
- Algoritma seçimi sadece sınıflandırma veya regresyon ayrımı değil, veri setinin yapısına göre de yapılır.
- Öncelikle veri setinin classification mı yoksa regresyon problemi mi olduğu belirlenir.
- Veri setinin görsel olarak incelenmesi ve hangi algoritmanın daha iyi uyarlanacağı değerlendirilerek algoritma seçilir.
- 03:30Karar Ağaçlarının Uygulanması
- Tek boyutlu veri setlerinde karar ağaçları kolayca uygulanabilir ve veriler sınıflara ayrılabilir.
- Karar ağaçlarında sınırlar dikey veya yatay olabilir, ancak eğik sınırlar da oluşturulabilir.
- Regresyonda düşen gözlemlerin tahmini, bölgeye düşen gözlemlerin y değerlerinin ortalaması olarak yapılır.
- 06:43Regresyon Ağaçlarının Çalışma Prensibi
- Regresyon ağaçlarında hata kareleri (samsquare error) en aza indirmeye çalışılır.
- Sınır değerleri belirlerken de hata kareleri en düşük seviyede tutacak parametre ve sınır değerleri seçilir.
- Veri seti, farklı parametreler (örneğin years) ile ikiye ayrılır.
- 07:50Karar Ağaçları ve Hata Payları
- Karar ağaçlarında kırmızı çizgiler gerçek y değeri ve tahmin edilen y değerini gösterir, bu çizgilerin karşılık gelen hata payları (samsquare error) hesaplanır.
- Amacımız en düşük hata payına sahip olan çizgiyi seçmektir, örneğin y=4,50 sınırı çizildiğinde veri seti ikiye ayrılır.
- Algoritma, samsquare error'ları en düşüğe ayarlayacak şekilde iki tane sınır çizgisi çizer ve her sınır çizgisinde yeni bir dal oluşur.
- 09:04Aşırı Öğrenme ve Budama İşlemi
- Algoritmayı sonsuza kadar çalıştırırsak, tüm eğitim verileri tek tek kutulara ayrılmış olacak ve bu aşırı öğrenmeye (overfit) neden olur.
- Aşırı öğrenmeden kaçınmak için budama işlemi (pruning) yapılır, bu işlem için samsquare error'ın yanına bir ceza katsayısı (alfa) eklenir.
- Dal sayısı arttıkça alfa ile çarpılan ceza katsayısı eklenir ve bu sayede ağacın çok fazla dallanmasını önleyip daha basit bir algoritma oluşturulur.
- 10:12Sınıflandırma Ağaçları
- Sınıflandırma ağaçlarında regresyon ağaçlarından farklı olarak kategorik veriler için doğru/yanlış hataları doğrudan test edebiliriz.
- Sınıflandırma ağaçlarında sınırlandırma yöntemi hassas olmadığı için Gini indeksi kullanılır, bu indeks veri setindeki homojenliği ifade eder.
- Gini indeksi küçük olması, sınırlara ayırırken heterojenliği arttıran bir ölçüttür ve bu indeks düşük olan feature'lar ilk dallanma için tercih edilir.
- 12:26Gini İndeksi ve Örnekler
- Gini indeksi, bir feature'ın safsızlık değerini hesaplayarak karar ağaçlarında hangi feature'ın kullanılacağını belirler.
- Örneğin, kredi verilerinde yaş özelliği Gini indeksi açısından en iyi özellik olabilir çünkü orta yaş grubundaki kişilerin bankaya borcunu ödediği daha saf bir ayrım sağlar.
- Buz gibi dondurma sevip sevmeyeceğini tahmin etme örneğinde, soda ile başlayıp soda sevmeyen kişilerin daha heterojen bir şekilde ayrılması Gini indeksi açısından daha iyi bir sınır çizgisi oluşturur.
- 13:56Lineer Modeller ve Karşılaştırma
- Lineer modeller (lojistik regresyon, support vektör makinesi) kategorik verileri iki farklı alana ayırırken, karar ağaçları daha karmaşık sınır çizgileri çizer.
- Veri grubu karelere ve kutulara ayrılarak ifade edilebilirse, lineer modeller daha faydalı olabilir.
- Her algoritma için avantaj ve dezavantajlar vardır, hiçbir algoritma tam olarak mükemmel değildir ve farklı veri setleri için farklı algoritmalar tercih edilir.