Bilgisayar Destekli Yandex Çeviri

2011 yılının başında Yandex, çeşitli metinleri İngilizce’den Türkçe’ye ve Türkçe’den İngilizce’ye çevirebilen bilgisayarlı destekli çeviri sistemi geliştirdi. Bu sistem sayesinde Türkçe konuşan ama İngilizce bilmeyen kullanıcılar çevirmene ihtiyaç duymadan İngilizce bir teknik kullanım kılavuzunda veya bir makalede neden söz edildiğini kolayca anlayabilir hale geldi.
Yabancı dillerin karmaşık kurallarını bilmeyen bilgisayar destekli Yandex Çeviri, önceden öğretilmiş dil kurallarına göre değil, üzerinde çalıştığı dilleri istatistiki yöntemlerle analiz ederek çeviri yapar. Bir yabancı dili “öğrenmek” için sistem işlemcisi, birbirinden farklı dillerde karşılığı olan yüzbinlerce metni birbiriyle karşılaştırır ve yaptığı hesaplamalar sonucunda metinlerde aynı anlamı taşıyan ifade ve kelimeleri bulur. Üzerinde çalışacağı metinleri ise çeşitli şirket, kurum ve kuruluşların farklı dillerdeki paralel internet sayfalarından veya internetteki çeşitli kaynaklardan alır. Dolayısıyla karşılaştırma için uygun olan belgelerin internet adreslerinin genellikle birbirinden çok farklı olmaması, özellikle analizin ilk aşamalarında işi kolaylaştırır: Örneğin çoğu zaman web sitelerinde bir kuruluşa ait, aynı anlama gelen, biri İngilizce biri Türkçe iki belgeyi birbirinden ayırt eden tek şe, İngilizce versiyonu için “en” veya “us”, Türkçe versiyonu için ise “tr” indekslerinin kullanılmış olmasıdır.
Analiz edilecek karşılıklı metinleri bulduktan sonra sistem, işini daha da kolaylaştırmak üzere metinlerde belli sırada bulunan ve dilde göreceli olarak daha seyrek kullanılan kelimelerden, rakamlardan ve özel işaretlerden oluşan özel bir “belirteç listesi” hazırlayarak çalışmaya devam eder.
Çevirinin kaliteli sonuçlanması farklı dillerde yüz milyonlarca ifade ve cümlenin analiz edilmesi ile mümkündür. Bu işlem çok fazla sabit disk alanı ve/veya rastgele erişim belleği gerektirir.. Dünyada çalışır durumdaki bilgisayar destekli çeviri sistemi sayısının hâlâ çok az olmasının nedeni de budur.

Dil Öğrenimi

Bilgisayar destekli Yandex Çeviri: (1) çeviri modeli, (2) dil modeli ve (3) dil şifre çözücüsü (decoder) olmak üzere üç bölümden oluşur.
Çeviri modeli, sistemin “bildiği” bir dilde bir sürü kelime, ifade ve cümleyle bunların diğer bir dilde her türlü karşılığının ve ,bu karşılıkların her birine dilde rastlanma sıklığı indeksinin belirlendiği bir tablodur. Böyle bir tablo her iki dil için farklı olur. İki dile özgü bir çeviri modeli önce birbirinin karşılıkları olan metinlerin bulunması, ardından cümlelerin ve son olarak da ifade ve kelimelerden oluşan özel anlam cetvellerinin hazırlanması olmak üzere üç aşamalı bir süreç sonucunda ortaya çıkar.
Konunun daha iyi anlaşılması için sistemin iki İngilizce cümle ve bunların Türkçe karşılıkları ile nasıl çalıştığını anlatalım. Örnek olarak İngiltere’nin başkenti Londra ile ilgili İngilizce ve Türkçe metinlerden şu iki cümleyi alabiliriz:
London stands on the river Thames” — “Londra, Thames nehri üzerinde duruyor
ve
Crossing the river by the Tower Bridge you can see the Tower of London” — “Kule Köprüsü üzerinden nehri geçerken Londra Kulesi’ni görebilirsiniz.”
Sistem sadece ilk iki cümleyi incelediğinde İngilizce cümledeki “London”, “stands” ve bütün diğer kelimelerin, Türkçe cümledeki “Londra”, “nehri”, “duruyor” gibi bütün sözcüklerin hemen hemen aynı olasılıkla birer karşılığı olabileceklerini düşünür. Diğer iki cümlede de “nehri” ile “river”ı saptayınca ilgili olasılık hesaplamaları sonucunda daha büyük olasılıkla bu iki sözcüğün birbirinin farklı dillerdeki karşılıkları olduğunu varsayabilir. İşte bu yöntemle yüzbinlerce farklı metinde, milyonlarca kelime ve ifade birbiriyle karşılaştırılır.
Çeviri sistemi, kelimelerin sadece teker teker değil, birbirini takip eden ikişer, üçer, dörder veya beşer kelimelik kombinasyonlarını da bu şekilde analiz eder. Yandex’in Türkçe-İngilizce çeviri modeli şu an 100 milyondan fazla kelime kombinasyonu ile çalışmaktadır.
Dil modeli, bilgisayarlı çeviri sisteminin diğer bir parçasıdır. Sistem bir dil modeli oluşturmak için ilgili dildeki yüzbinlerce metni inceleyerek kullanılan tüm kelime ve kombinasyonları içeren ve bunların kullanım sıklığının belirtildiği bir liste hazırlar. Bilgisayarlı sistemin, çevirinin yapılacağı dil hakkında bilgisi bu kadardır.

Çevirinin Hazırlanması

Sistemdeki çevirilerin hazırlanmasından sorumlu olan asıl kısım dil şifre çözücüsüdür. Çeviri modelinin sunduğu veritabanını inceleyen şifre çözücü, çevrilen dildeki her bir cümle için tüm mevcut çeviri seçeneklerini belirleyince bunları olasılık sıralamasına göre sıralar. Örneğin çevrilmesi gereken İngilizce cümle Shakespeare’in “Hamlet” trajedisindeki ünlü monologdan “To be or not to be” satırı olsun. Olasılık sıralaması sonuçlarına göre “Olup olmaması” kelime kombinasyonu en olası seçenek çıkarken doğru çeviri olan “Olmak ya da olmamak” seçeneği ikinci veya üçüncü sırada çıkar.
Varolan tüm kombinasyon seçenekleri dil şifre çözücüsü tarafından dil modeline uygun olarak incelenir. Dil modeli ise şifre çözücüye, “Olmak ya da olmamak” ifadesinin mevcut bağlamda varolan kaynaklarda daha sık kullanılan bir seçenek olduğunu gösterir. Sürecin sonunda dil şifre çözücüsü hem çeviri modelinin hazırladığı olasılık önceliği listesini hem de dil modelinin sunmuş olduğu kullanım sıklığı bilgilerini göz önünde bulundurarak bu iki unsurun en uygun kombinasyonunu tespit eder ve böylece en iyi çeviri sonucuna ulaşmaya çalışır.
Bilgisayar destekli Yandex Çeviri, sunulan metinlerin yanı sıra web sayfalarının tamamını da çevirebilir. Kullanıcı, ceviri.yandex.com.tr adresine giderek çevirmek istediği web sayfasının adresini yazabilir veya Yandex.com.tr’de listelenen arama sonuçlarında ilgili sayfa bağlantısının başında bulunan “Çevir” butonuna tıklayarak sisteme çeviriyi hazırlattırabilir. Sistemin kaynak dildeki (örneğin İngilizce) web sayfasını açmasının ardından tarayıcı, sayfanın HTML kodunu çözer ve metinleri paragraflar halinde çeviri sunucusuna (server) gönderir. Ardından kullanıcının bilgisayarında gördüğü metin yine paragraflar halinde hedef dile (Türkçe’ye) çevrilerek kullanıcının ekranına gelir.
Diğer bilgisayar destekli çeviri sistemleri, çevrilecek web sayfalarını, kullanıcının internet tarayıcısını aradan kaldırıp çeviri sunucularına bir bütün olarak gönderir. Bu işlem, kullanıcının ekranında gördüğü metnin aynısını her zaman alamayabilir. Örneğin kullanıcı üyesi olduğu bir sosyal ağ sayfasının çevirisini görmek istediğinde çeviri sisteminin web sunucusu, bu web sayfasında yetkili olmadığı için kullanıcının gördüğü sayfayı değil, ağın yetkilendirme sayfasını görür ve bunu çevirir. Bu tür çeviri sistemlerinden farklı olarak Yandex Çeviri, aşamalı çalışma yöntemi sayesinde kullanıcının ekranında gördüğü metnin daima aynısını alma avantajına sahip olur. Ayrıca çeviri işlemi paragraflar halinde ilerlediği için çevirinin tamamlanmasını beklemeye gerek kalmaz, hazırlanan çeviri ilk paragraftan başlayarak yeni parçalar hazırlandıkça okunabilir.

İstatistiğe Dayalı Çevirinin Gelişme Potansiyeli

İstatistiğe dayalı bilgisayar destekli çeviri sistemlerinin tartışılmaz bir avantajı, bu sistemlerin zaten sürekli gelişen bir olgu olan dil ile birlikte gelişebilmeleridir. Dilde yeni bir şey ortaya çıktığı zaman sistem bu değişiklikleri üzerinde çalıştığı yeni belgeler sayesinde görür. Yenilikler dilde ne kadar çabuk yayılırsa internette bulunan yeni yazılı metinlerde de o kadar çabuk ortaya çıkacaktır.
Çeviri kalitesini daha da arttırmak amacıyla sistemimiz sürekli geliştirilmektedir. Uygulanacak yeni yazılımlar önce “Bilingual Evaluation Understudy” (Çift Dilli Ön Değerlendirme) adlı özel bir algoritma ile test edilir. Test için özel seçilmiş metinler sistem tarafından çevrilerek örnek çevirilerle karşılaştırılır. Sistemin yeni incelediği web belgelerinden çıkardığı verilerle yapılan çeviriler eskisinden daha kötü kalitedeyse bu yeni veriler reddedilerek çeviriler düzeltilir.