Yapay zekadan makale özeti
- Kısa
- Ayrıntılı
- Bu video, Starlink yazılım danışmanlığı yapan bir konuşmacının Türkçe doğal dil işleme konusunda yaptığı kapsamlı bir eğitim sunumudur.
- Sunum, Türkçe'nin doğal dil işleme alanında düşük kaynaklı bir dil olmadığını vurgulayarak başlıyor ve morfolojik analiz, semantik veri yapısı, duygu analizi ve cümle çözümleme gibi temel konuları ele alıyor. Video, Dilbaz adlı açık kaynak kodlu morfolojik analiz sisteminin tanıtımıyla devam ediyor ve Türkçe'nin morfolojik yapısının diğer dillere göre farklılıklarını açıklıyor.
- Sunumda ayrıca kelime ağı tabanlı yapılar, anlam belirsizliği, meta veri kullanımı, anlamsal rol belirleme ve işaretleme süreçleri gibi teknik konular detaylı olarak anlatılıyor. Konuşmacı, Türk Dil Kurumu'nun sözlükleri ve Türkçe için üretilen veri bankalarının uluslararası standartlara uygun olduğunu vurgulayarak, Türkçe'nin doğal dil işleme alanında önemli bir katkıda bulunduğunu belirtiyor.
- 00:01Giriş ve Konu Tanıtımı
- Konuşmacı, Starlink yazılım danışmanlığı yaparken Türkçe doğal işleme konusunda da katkı sağlıyor.
- Konuşma, Türkçe doğal işleme nedir, neden artık düşük kaynaklı bir dil değil ve farklı alanlarda yapılan çalışmalar hakkında bilgi verecek.
- Konuşmacı, morfoloji, semantik, duygu analizi ve çözümleme alanlarında yapılan çalışmalar hakkında bilgi verecek.
- 00:43Doğal Dil İşleme Hakkında Genel Bilgi
- Doğal dil işleme, yapay zekanın bir alt dalı olup, doğal dilde üretilmiş bilgileri anlamak, işlemek ve yapay versiyonlarını üretmek amacıyla geliştirilmiştir.
- Doğal dil işlemede, farklı diller için farklı modeller geliştirilmesi gerekmektedir.
- İngilizce, bilim dili olduğu için genelde temel bir çalışma alanıdır, ancak diğer diller de kullanım sıklıklarına bağlı olarak çalışılmaktadır.
- 02:22Türkçe'nin Özellikleri ve Doğal Dil İşleme Çalışmaları
- Türkçe, sondan eklemeli bir dil olup, eklerin teorik olarak sınırı yoktur, pratikte ise yaklaşık beş-altı ek alabilmektedir.
- Türkçe'nin özne-nesne-yüklem şeklinde cümle yapısı, İngilizce, Fransızca, Almanca ve Çince gibi dillerdeki özne-yüklem-nesne yapısından farklıdır.
- Türkçe doğal dil işleme çalışmalarına 1990'larda sondan eklemelilik üzerine morfolojik analiz ve morfolojik belirsizlik giderme operasyonları ile başlanmıştır.
- 04:15Türkçe'nin Kaynak Durumu
- 2012 yılında Türkçe düşük kaynaklı bir dil olarak adlandırılıyordu ve sadece değiştiren bir morfolojik analizci, Türkçe kelime ağı ve metro ağaç bankası gibi sınırlı kaynaklar mevcuttu.
- Günümüzde Türkçe doğal dil işleme kaynakları oldukça zengin hale gelmiştir.
- Konuşmacı ve ekibi, morfoloji, semantik, duygu analizi ve çözümleme alanlarında katkı sağlamışlardır.
- 05:08Starlink Kütüphanesi
- Konuşmacı ve ekibi, doğal dil işleme kaynaklarını işleyecek bir kütüphane oluşturmuşlardır.
- Bu kütüphane, mikro servis mimarisi gibi ayrı ayrı paketler halinde olup, morfolojik analiz, semantik gibi farklı alanlarda ihtiyaç duyulan paketlerin tek başına kullanılabilmesini sağlamaktadır.
- Kütüphane, yedi farklı program dilini desteklemekte ve bu dillerde native olarak kullanılabilme özelliğine sahiptir.
- 06:43Morfoloji ve Türkçedeki Zorluklar
- Morfoloji, eklerin fonksiyonlarını ve içsel yapısını anlamaya çalışan bir bilim dalıdır.
- Her kelime genellikle bir veya daha fazla morfemden oluşur ve kök dahil edilirse morfemler belirli gramer fonksiyonları taşır.
- Türkçedeki bazı kelimeler (örneğin "batılılaştırmayanlardan mısınız") İngilizce'deki çok sayıda kelimeden meydana gelebilir, bu da çeviri sürecinde zorluklar yaratabilir.
- 08:00Dilbaz Morfolojik Analiz Sistemi
- Dilbaz, açık kaynak kodlu sözlü ve morfolojik kural motorunun son sürümleri internet üzerinde erişime açık bir yapıdır.
- Sistemin sözlüğü genişletilebilir ve köklerin sözlükte olması gerekmektedir.
- Sistem hızlı analiz yapabilmektedir ve yaklaşık yüz bin kelime saniyede analiz edebilmektedir.
- 09:19Kelime Ağı Tabanlı Morfolojik Analiz
- Dilbaz kelime ağı tabanlı bir morfolojik analizci olup, kelimelerin köklerinin aynı zamanda anlamsal olarak da bir yere ait olması gerekmektedir.
- Sistem, Türkçedeki sıradışı aktiviteler (fiil incelmesi, isim ses düşmesi gibi) konusunda iyi performans göstermektedir.
- Hız karşılaştırması yapılmış olup, sistem küçük, orta ve büyük derlemeleri (20 milyon kelime) yaklaşık yarım saat içinde analiz edebilmektedir.
- 11:21Yanlış Yazım Sözlüğü ve Türkçe Morfolojik Sözlüğü
- Dilbaz, 160 bin yanlış ve doğru yazım içeren geniş kapsamlı bir yanlış yazım sözlüğüne sahiptir.
- Bu sözlük otomatik değil, tamamıyla günlük kullanımlardan elde edilmiş ve gold standart olarak işaretlenmiş bir veritabanıdır.
- Türkçe Morfolojik Sözlüğü, yaklaşık 50 bin kök kelimenin eklerini ve köklerini elle tek tek belirleyerek oluşturulan bir meta veridir.
- 14:43Morfolojik Belirsizlik Giderme
- Morfolojik belirsizlik giderme problemi, bir kelimenin birden fazla morfolojik analizi olduğu durumlarda hangi analizin doğru olduğu konusundaki belirsizliktir.
- Örneğin "akın" kelimesi farklı köklerden (akmak, aktan, göz akını) gelerek farklı anlamlara sahip olabilir.
- Dilbaz, yaklaşık 600 bin kelimelik, elle işaretlenmiş ve morfolojik belirsizliği giderilmiş bir veri seti sunmaktadır.
- 15:57Semanti Morfolojik Analiz ve Kelime Ağı
- Semanti morfolojik analizin ardından semantiğe geçilir ve en çok kullanılan veri yapısı kelime ağıdır.
- Kelime ağı, kelime tabanlı değil anlam tabanlıdır; kelimelere değil, kelimelerin anlamlarına odaklanır.
- Literaller (anlamlar) bir araya gelerek aynı anlamdaki literaller oluşturur ve bu anlam kavramları birbirleri arasında eşanlamlılık, zıt anlamlılık gibi ilişkiler tanımlanabilir.
- 17:29Kelime Ağı Özellikleri
- Kelime ağı, ansiklopedik verileri de içerir; özel isimlere ait bilgiler gibi ek bilgiler eklenebilir.
- Türkçede oluşturulan kelime ağı yaklaşık 80 bin cins, 110 bin literaller ve 82 bin farklı kavrama sahiptir.
- Dil içi anlam ilişkileri (türetme ilişkisi, üst anlam ilişkisi, zıtlık gibi) kelime ağında önemli bir rol oynar ve kavramlar arasında hiyerarşi ağacı oluşturur.
- 19:53Türkçenin Geçmişini Anlamak
- Türkçenin geçmişini anlamak için TDK'nın bugüne kadar ürettiği 11 baskılı sözlükler kullanılmıştır.
- 1944'teki ilk Türkçe sözlükten 1998'e kadar olan dokuz baskının kavramları karşılaştırılmış ve zaman içinde kavramların değişimi incelenmiştir.
- Kelime ağı sayesinde Latin harfleri kullanılan tüm Türkçe dökümanları zamandan bağımsız olarak analiz edilebilmektedir.
- 22:12Anlam Verisi ve Meta Veri
- Meta veri tek başına anlam ifade etmez, ancak üzerine yeni veriler üretmek gerekiyor.
- Cümle içinde geçen kelimelerin (örneğin "yüz") hangi anlamda kullanıldığını belirlemek için kelimelerin olası tüm anlamlarına ihtiyaç vardır.
- İşaretlenmiş veri kaynakları (300-350 bin kelime civarında) oluşturulduktan sonra makine öğrenme yöntemleri ile anlam verisi giderebilir.
- 23:21Duygu Analizi
- Duygu analizi, verilen bir cümlenin duygu durumunu belirlemeyi amaçlar (örneğin "Bu kitabı beğenmedim" veya "Bu kitap çok yorucu").
- Duygu analizi için kelimelerin duygu durumlarını bilebilmek gerekir ve bunu yapmak için duygu sözlüğü gibi meta veri kullanılır.
- Kelimelerin birden çok anlamı olabilir; bazıları pozitif, bazıları negatif, bazıları nötr olabilir.
- 24:29Türkçe'de Duygu Kavramları
- Dilin büyük bir kısmı objektif kelimelerden oluşur (kitap, elma, silgi gibi).
- Türkçe'de pozitif ve negatif kelimeler toplamda yaklaşık %20'yi oluşturur ve Türkçe üç kat daha fazla negatif kavram kullanır.
- Pozitif ve negatif kelimeler daha detaylı analiz edilirken güçlü ve zayıf olarak işaretlenir (örneğin "mükemmel" güçlü pozitif, "güzel" ise daha zayıf pozitif).
- 25:33Duygu Analizi Uygulaması
- Duygu analizi gerçekleştirmek için cümlenin duygu durumunu belirtmek gerekir (pozitif, negatif veya nötr).
- Duygu sözlüğü kullanarak makine öğrenme yöntemleri ile çözüm bulunabilir.
- Bu konuda açık kaynaklı bir veri bankası (Turizm) mevcuttur.
- 26:02Çözümleme Problemi
- Çözümleme problemi daha üst seviye bir konudur.
- Anlatılan sistemler temel olarak kelime tabanlı sistemlerdir.
- 26:12Cümle Seviyesinde Çözümleme
- Cümle seviyesinde çözümleme iki kategoriye ayrılır: basit çözümleme ve derin çözümleme.
- Çözümleme için iki meta veri kullanılır: Propak ve Frame, bu veriler cümleleri analiz etmeyi sağlar.
- Örnek cümlede "Kerem Aysu'ya hediye veriyor" ifadesinde fiil (aksiyon), özne (ajan) ve tema (hediye) gibi temel semantik roller bulunur.
- 27:21Semantik Roller ve Frame Yapıları
- Semantik roller fiile bağlıdır ve her fiil için ayrı argümanlar vardır.
- Frame yapılarında fiiller kategorilerde gruplanır ve bir olay, durum veya ilişkiyi gösterir.
- Frame içindeki parçalar fiiller, isimler veya sıfatlar olabilir ve bunlar kelime ailelerinden çekilebilir.
- 30:35Türkçe için Yapılan Çalışmalar
- Türkçe için toplam 139 frame oluşturulmuş, 2500'den 18 bin fiil kullanılmıştır.
- Propak ve Frame verileri elde edildikten sonra anlamsal rol belirleme için işaretleme gerçekleştirilmiştir.
- Türkçe Propak ve Türkçe Frame iki ayrı veri seti olarak oluşturulmuş ve kullanıma açılmıştır.
- 31:39Derin Çözümleme ve Sintaks Ağaçları
- Derin çözümleme, cümleyi çok detaylı analiz etmeyi sağlar ve bunun için iki strateji kullanılır: konar ve sintaks ağaçları.
- Sintaks ağaçları, cümlenin doğrusal ve hiyerarşik yapısını aynı anda anlamanı sağlar.
- Türkçe için 15 kelimeden kısa olan 9 bin ağaç çevrilmiş ve toplam 25 bin ağacın bir bankası oluşturulmuştur.
- 33:34Bağlılık Analizi Ağaçları
- Bağlılık analizi ağaçları, konst. ağaçlar gibi bir cümleye bakış açısıdır ancak Türkçe gibi değişken yapısı vardır.
- Türkçe'de "Ali topu at" cümlesinin farklı şekillerde sıralanabilmesi (at topu al, topu Ali at) konst. ağaçlarda farklı pozisyon ağaçları gerektirirken, bağlılık analizinde tek bir ağaç yeterlidir.
- Bağlılık analizi, dünya genelinde dillerde ortak olarak yapılabilmesi için kurulmuş evrensel bir yapıdır ve yaklaşık yedi-sekiz yıldır kullanılmaktadır.
- 35:03Bağlılık Analizinin Özellikleri
- Bir kelimenin diğer kelime nitelemesi üzerine bağlı olduğu, her kelimenin bir kelime tarafından nitelendiği bir yapıdadır.
- Cümlede yan bağlılıklar da bulunur, örneğin "çok mutluyum dedi" cümlesinde "dedi" kelimesi "çok mutluyum" cümlecikini nitelemektedir.
- Bilimde nominal modifayörler gibi detaylar da bulunmaktadır.
- 35:39Türkçe'nin Bağlılık Analizindeki Yeri
- Türkçe'nin bağlılık ağaç bankaları üst seviyede olması önemli bir katkıdır.
- Türkçe, uluslararası yapıda İngilizce ile birlikte en çok ağaç bankası olan dildir ve kelime sayısı olarak onuncu sırada yer almaktadır (yaklaşık 740 bin kelime).
- Bu yapıda yaklaşık 130 farklı dil bulunmakta olup, her altı ayda bir yeni versiyon çıkarılmaktadır ve tüm bu bilgiler kitap üzerinden erişilebilir durumdadır.
- Türkçe'nin ilk beş ağaç bankası bu yapıda yer almaktadır ve kalitesi yıldızlama sistemi ile gösterilmektedir.