Yapay zekadan makale özeti
- Kısa
- Ayrıntılı
- Bu video, Buse adlı üniversitede eğitim veren bir akademisyenin sunduğu derin öğrenme eğitim içeriğidir.
- Video, transfer öğrenme kavramından başlayarak VGGNet evrişimsel sinir ağının tarihçesini, mimari yapısını ve çalışma prensiplerini detaylı olarak anlatmaktadır. İçerikte VGG16 modelinin 16 evrişimsel katman ve 3 tam bağlantılı katmandan oluştuğu, 224x224 boyutunda RGB görüntülerle çalıştığı ve ImageNet veri setinde %94,70 doğruluk oranına ulaştığı açıklanmaktadır. Son bölümde ise PyTorch kütüphanesinde VGG modellerinin nasıl kullanılacağı adım adım gösterilmektedir.
- Video, akademik makalelerden alınan teknik bilgiler, RLU aktivasyon fonksiyonunun kullanımı ve modelin diğer derin öğrenme modellerine göre performansı gibi konuları da içermektedir. Konuşmacı, "minik minik minik minik video yayınları" yapacağını belirtmektedir.
- 00:05Derin Öğrenme ve Transfer Öğrenme
- Buse, derin öğrenme alanında eğitim içerikleri oluşturmaya devam ediyor ve bu videoda önceden eğitilmiş erişim sinir ağlarından biri olan VGGNet'i inceleyecek.
- Transfer öğrenme, daha önceden yayınlanmış veri setlerinin sinir ağlarında denenerek ağırlıklarının kaydedilmesi ve daha sonra kullanılabilmesi için ağırlıkların ve oluşturulmuş networklerin kullanılması temel alıyor.
- Transfer öğrenmede, hangi verilerin olduğu önemsiz olup, daha önceden eğitilmiş networkler kullanılarak farklı veri setleri için sınıflandırma yapılabilir.
- 03:11VGGNet'in Tanıtımı
- VGGNet, Visual Geometri Group (VGG) adlı ekip tarafından geliştirilmiş bir erişim sinir ağıdır.
- VGGNet, çoklu katmanlara sahip bir evrişimsel sinir ağıdır ve 16 ve 19 katmanlı versiyonları bulunmaktadır.
- VGGNet, erişim sinir ağlarının en temel özelliklerine dayanır ve diğer popüler erişim sinir ağları arasında LineNet ve AlexNet bulunmaktadır.
- 08:34VGGNet'in Mimarisi
- VGGNet, 224x224 boyutunda bir input image ile çalışır ve RGB kanallarından 64 kanala çıkarak derinsel anlamda featureların çıkarılmasını sağlar.
- Ağ, konvolüsyon katmanları ile görüntünün piksellerinden önemli featurelar çıkararak, en son flatten (düzleşme) katmanına kadar featurelar dağıtır.
- Flatten katmanında, featurelar birleştirilip 4096'lık bir matris oluşturulur ve böylece sınıf tahmini yapılır.
- 11:37VGG Ağının Yapısı
- VGG ağı 16 katmanı (13 evişim katmanı ve 3 fly-connected katman) ve 224x224 boyutunda RGB görüntü girişi gerektiriyor.
- Ağ, girdi görüntüsünden "kit fox" olasılığını %59,56 olarak hesaplıyor, ancak bu ihtimal düşük olduğu için optimize edilmesi veya daha fazla eğitime ihtiyaç olduğu düşünülüyor.
- CNN katmanlarında minimum 3x3 boyutunda filtreler kullanılıyor ve bu filtreler görüntü üzerinde gezdirilerek işlem yapılıyor.
- 13:06Aktivasyon Fonksiyonları ve Gizli Katmanlar
- VGG ağında AlexNet'in eğitim süresini kısaltan büyük yenilik olarak ReLU (Rectified Linear Unit) aktivasyon fonksiyonu kullanılıyor.
- ReLU fonksiyonu türevlenebilir ve -∞ ile +∞ arasında değer alıyor, ancak negatif değerlerde türevinde sorun yaşanabiliyor.
- VGG ağındaki tüm gizli katmanlar ReLU fonksiyonunu kullanıyor, bellek tüketimi ve eğitim süresini artırdığı için yerel yanıt normalleştirmesi kullanılmıyor.
- 15:28Fly-Connected Katmanlar ve Görüntü Boyutu Değişimi
- Gizli katmanlardan gelen fly-connected katmanında üç tam bağlantılı katman bulunuyor: ilk iki katman 496 kanal, üçüncü katman 1000 kanal.
- Görüntü boyutu 224x224'ten başlayıp 64x128, 256x512, 512x512, 7x7'ye kadar kademeli olarak küçülüyor.
- 512x512 katmanından sonra görüntü boyutu düzleşiyor ve fly-connected katmanına birebir dönüşüyor.
- 17:19VGG Ağının Performansı ve Özellikleri
- VGG mimarisi nesne tanıma için çok iyi çalışan bir model olmasına rağmen, katmanlarda daha derin bilgiler içerdiği için eğitim süresi bazen artabiliyor.
- VGG ağı Oxford Üniversitesi'nden Resterman ve Simonian tarafından önerilen, 16 katmanı olan ve "very deep large metro combination" anlamına gelen bir erişimli sinir ağı modeli.
- VGG 16 modeli ImageNet'te neredeyse %92,70 ilk beş test doğruluğuna ulaşıyor.
- 20:08VGG 19 Modeli
- VGG 19 modeli, VGG 16'ya göre üç katman daha fazla (19 katman) ve üç farklı evrişimsel katman içeriyor.
- VGG 19 modelinde de üç tane fly-connected katman bulunuyor ve en son katmanda soft max kullanılıyor.
- VGG 19 modeli, VGG 16'ya göre sadece üç katman daha fazla ve üç farklı evrişimsel katman içeriyor.
- 20:58VGG 16 Modelinin Kullanımı
- VGG 16 için import torch yapıp neural network functionall deyip sf deyip aşağıda kullanabilirsiniz.
- PyTorch'un hubında bu model otomatik olarak kullanılabilecek şekilde olduğu için daha kolay ve hızlı bir yöntemdir.
- PyTorch'un hubında VGG network için çekilen model dosyası bulunmaktadır.
- 21:40Modelin Yükleme ve Özellikleri
- PyTorch'un hubından model yüklemek için "import torch" ve "torch.vision.vgg.VGG11" komutları kullanılır.
- VGG 11, 13, 16 ve 19 katmanların modelleri çekilebilir.
- Modelin normalizasyon kısmı ortalama ve standart sapma değerlerine göre gerçekleştirilir.
- 22:22Modelin Kullanımı ve Kapanış
- Modelin en az 224 piksel genişliğinde olması beklenmektedir.
- Model sadece kullanılabilir, ayrıca evrimleştirilebilir, değerlendirilebilir ve eğitmeye hazırlanabilir.
- Konuşmacı minik video yayınları yapacağını belirterek videoyu sonlandırıyor.