• Buradasın

    Büyük Dil Modellerinin Çalışma Mantığı ve Embedding Kavramı

    youtube.com/watch?v=0EnSsT6HHck

    Yapay zekadan makale özeti

    • Bu video, bir konuşmacının yapay zeka modellerinin çalışma mantığını anlattığı eğitim içeriğidir.
    • Video, büyük dil modellerinin (ELEM) genel mimari yapısını ve çalışma prensiplerini açıklamaktadır. İlk bölümde tokenleme, embedding, normalizasyon, attention mekanizması ve multi-perceptron katmanları gibi temel kavramlar ele alınırken, ikinci bölümde boyut kavramı görsel olarak anlatılarak kelimelerin çok boyutlu uzaylarda vektörlerle temsil edilmesi ve bu vektörler arasındaki matematiksel işlemler gösterilmektedir.
    • Videoda özellikle Meta'nın 38 milyar parametreli modeli üzerinden örnekler verilmekte ve "king - man + woman = queen" gibi örneklerle kelimeler arasındaki benzerliklerin nasıl hesaplanabileceği açıklanmaktadır. Ayrıca, 496 boyutlu uzay kavramı ve 128.256 token için 4.960 boyutlu vektörlerle temsil edilme yöntemi detaylı olarak anlatılmaktadır.
    Yapay Zeka ve Büyük Dil Modelleri
    • Video, yapay zekanın nasıl çalıştığını ve matematiksel işlemlerden geçtiğini gösterecek.
    • Yapay zeka kavramı genellikle büyük dil modelleri (LSTM, BERT gibi) için kullanılır.
    • Bu modeller insan dilinde soruları anlayıp cevap verme yeteneğine sahiptir.
    01:17Derin Öğrenme Modellerinin Çalışma Prensibi
    • Derin öğrenme modelleri, bir cümlede bir sonraki kelimeyi tahmin etmeye çalışır.
    • Videoda Meta'nın 38 milyar parametrelik modeli kullanılmıştır.
    • Model, bir cümleyi girdi olarak alıp, tokenları (anlamlı parçaları) tahmin etmeye çalışır.
    02:43Modelin Genel Akışı
    • Model, girdi olarak alınan cümleyi embedding (gömülü) haline getirir.
    • Embedding edilen tokenlar normalizasyon işlemine tabi tutulur.
    • Modelde tekrarlanan bir katman bulunur ve bu katman sayısı modelden modele değişir (örneğin 32 defa tekrarlanabilir).
    04:37Attention Mekanizması
    • Modelde attention bloğu bulunur ve bu blok önemli bir rol oynar.
    • Google 2017 yılında "Attention is All You Need" adlı makale yayınlamış ve bu makale chat GPT gibi modellerin geliştirilmesine öncülük etmiştir.
    • Attention mekanizması, modellerin daha iyi sonuçlar çıkarmasını sağlar.
    06:21Token İşleme
    • Model, cümleyi tokenlara (anlamlı parçalara) böler.
    • Tokener modeli, her tokena özel bir token ID'si verir.
    • Tokenlar incoding yöntemiyle kodlanır ve sayısal ifadeye çevrilir.
    08:20Embedding Katmanı
    • Embedding layer, tokenları 496 boyutlu bir uzayda temsil eder.
    • Modelde 128.256 tane eşsiz kelime bulunur.
    • Tek boyutlu kodlama yerine çok boyutlu bir uzayda temsil etmek, kelimeler arasındaki anlamları daha iyi kurmamızı sağlar.
    10:40Boyutlu Uzay Kavramı
    • Tek boyutlu uzayda bir kelime (örneğin "virgül") x ekseninde 11, y ekseninde 40 olarak temsil edilebilir.
    • İki boyutlu uzayda aynı kelime (virgül) x ekseninde 11, y ekseninde 40 olarak, "ay" kelimesi ise x ekseninde 40, y ekseninde 40 olarak ifade edilebilir.
    • Üç boyutlu uzayda "ay" kelimesi x ekseninde 40, y ekseninde 40, z ekseninde -25 olarak temsil edilebilir.
    12:12Çok Boyutlu Uzay ve Embedding
    • Dördüncü ve beşinci boyutlar görselleştirilemez çünkü üç boyutlu bir dünyada yaşıyoruz.
    • Bir kelimeyi vektör içerisinde ne kadar temsil ediyorsanız o kadar boyutlu bir uzayda temsil etmiş oluyorsunuz.
    • Çok boyutlu uzaylarda (örneğin 200 boyutlu veya 4096 boyutlu) kelimeler arasında bağlantı kurulabilir ve matematiksel işlemler yapılabilir.
    13:44Embedding Örneği
    • "King" (kral) kelimesinden "man" (adam) kelimesini çıkardığımızda ve "woman" (kadın) kelimesini topladığımızda elde edilen vektör, "queen" (kraliçe) kelimesini ifade eden vektörle yakın benzerlik gösterir.
    • Bu çok boyutlu uzayda kelimeleri temsil ettiğimizde daha iyi kelimeler arasındaki bağlantıları kurabiliriz.
    • Embedding, 128.256 kelimeyi 4.096 boyutlu vektörlerle temsil ederek indeksleme yapar.
    15:09Büyük Dil Modelleri ve Parametreler
    • Büyük dil modellerinin amacı, matris içerisindeki sayıları ayarlayarak bir sonraki kelimeyi doğru tahmin etmeye yarayacak 8 milyar parametreyi bulmaktır.
    • Embedding layer'ında 128.256 boyutlu bir matris bulunur.
    • Bu matrisin içinde toplam 525 milyon 336 bin 576 tane parametre vardır.

    Yanıtı değerlendir

  • Yazeka sinir ağı makaleleri veya videoları özetliyor