Yandex, interneti nasıl indeksler?

Yandex web arama motoru, kullanıcılardan gelen sorguları internette ilgili dosyaları bularak yanıtlar. Fakat internette depolanan verilerin toplamının bir milyon terabayt ya da 1,000,000,000,000,000,000 bayt’a eşit olan exabayt’larla ölçümlendiği günümüzde, her sorgu için Yandex internetin tamamını baştan sona dek incelemek yerine, önceden “ev ödevini” yaparak sorguları yanıtlama işlemini hızlandırır.
Arama, Yandex’in “bildiği” her web sitesindeki bir kelimenin birer sayfa adresi ve o sayfadaki tam yerinin belirlendiği özel bir veritabanı üzerinde yapılır. Bir adres rehberi veya kitaptaki bir dizine benzeyen bu veritabanına “indeks” denir. Fakat sıradan bir dizinden farklı olarak, indeks sadece terimleri değil tüm dosyalardaki tüm kelimelerin birer adresini içerir ve adres rehberindeki bir kişinin normalde sadece bir adresi varken indeksteki her kelimenin birden çok adresi vardır.
Web arama işlemi iki aşamadan oluşur: 1. İnterneti gezen arama robotu ziyaret ettiği web sitelerinden aldığı kopyaları Yandex sunucularına aktarır. 2. Yandex’e sorgu gönderen kullanıcı, Yandex web arama motoru sunucularından yanıt alır.

Sorguları yanıtlamak için yapılan hazırlıklar

Aramanın yapılacağı veritabanının hazırlanması işlemine “indeksleme” denir. İndeksleme şu şekilde yapılır: “Arama robotu” isimli özel bir program düzenli olarak interneti gezer ve bulduğu dosyalardan birer kopya alıp onları analiz eder. Bu işlemin sonucu olarak web’in arama motoru sunucularındaki kopyası arama robotu tarafından surekli güncellenmiş olur.
Yandex’in, biri “ana arama robotu”, diğeri Orange isimli “hızlı arama robotu” olmak üzere, iki farklı robotu vardır. Ana arama robotu interneti bir bütün olarak indekslerken, hızlı arama robotu ise kısa süre (yani dakika veya saniyeler) önce web’e yüklenen yeni dosyaların indekse eklenmesinden sorumludur. Robotların ikisi de, iki ayrı kontrol listesine göre dosyaları indekse eklerler.
Arama robotu, daha önce ziyaret ettiği web sitelerinde yeni bağlantılar bulduğunda, bunları otomatik olarak kontrol listesine ekleyerek Yandex’in web indeksine yeni dosyalar ekler. Site sahipleri, Yandex.Webmaster servisi aracılığıyla Yandex arama robotuna web sistelerini bulmasında yardımcı olabilir ve sitenin güncellenme sıklığı gibi diğer önemli bilgileri de sağlayabilirler.
Arama robotunun bir parçası olan rota planlayıcısı, web sitelerinin arama motoru için önemli olan bağlantı popülerliği veya güncellenme sıklığı gibi çeşitli özelliklerini gözönünde bulundurarak, aramanın yapılacağı rotaları (başka bir deyişle kontrol edilecek sitelerin sıralamasını) belirleyince, robotun “örümcek” dediğimiz diğer bir parçası devreye girer. Belirlenmiş rotalara göre siteleri düzenli olarak kontrol eden örümcek, kontrol ettiği sitenin önce yerinde ve çalışır durumda olup olmadığına bakar ve kontrol sonuçları olumlu ise, kontrol listesindeki dosyalardan birer kopya alır. Bunun ardından kopyalama işleminin sonucunda elde edilen dosyaların türleri (yani html, pdf, swf gibi uzantıları), kullanılan karakter kodlamaları ve diğer özellikleri kontrol edilerek tüm bu veriler depoya gönderilir.
Depoya gönderilen her dosya içerdiği resimlerden ve HTML formatının öğelerinden arındırılır ve geriye kalan metindeki her kelimenin konumlarına dair ayrıntılı veriler indekse gönderilir. Depolanan belgenin aslı ise, robotun o dosyanın kaynak sitesine yapacağı bir sonraki ziyarete dek depoda kalır. Bu sistem sayesinde kullanıcılar, Yandex’in indekslediği belgeleri, bu belgelerin kaynak sitelerine geçici olarak ulaşılamasa bile Yandex web arama’da bulup okuyabilirler. Bir web sitesi ya da sitedeki bir dosya web’den tamamen kaldırılmış ya da yenilenmişse, Yandex de sitenin ya da dosyaların kopyalarını kendi sunucularından kaldırır ya da günceller.
Arama indeksi, belgelerin sunucularda kayıtlı kopyaları ve ayrıca tür, kodlama ve dillerine dair tüm bilgilerle birlikte bir bütün olarak, sürekli güncellenen arama veritabanını oluşturur. Fakat kullanıma sunulmadan önce bu veritabanının, spam, web sitelerinin kopyaları olan ayna siteler ve benzer gereksiz bilgilerden arındırıldıktan sonra, kullanıcılardan gelen sorguları yanıtlayan sunuculardan oluşan Temel Arama’ya aktarılmış olması gerekir.
Web dosyalarının ana arama robotunun deposundaki güncellenmiş sürümleri Temel Arama’ya paketler halinde birkaç günde bir gönderilir. Sunuculara ek yük sağlayan bu işlem, sunucu kullanımının önemli ölçüde azaldığı gece vakitlerinde yapılır. Güncellenmiş sürümler, arama kalitesini düşürmemek için, eski sürümlerin birçok kriter göz önünde tutularak karşılaştırılır ve karşılaştırma sonuçları uygunsa eski sürümler kaldırılarak yenileriyle değiştirilir.
Orange robotunun görevi, gerçek zamanlı olarak web’de yeni dosyalar aramak olup, Orange’nin rota planlayıcısı ve örümceği, web’deki özellikle yeni dosyalardan en fazla ilgi çekici olanlarını bulmak için ayarlanmışlardır. Orange’nin bulduğu her dosya hemen işlenerek Temel Arama’ya gönderilir. Orange’nin çalışma kriterlerine uyabilecek dosyalar web’de görece daha az olduğu için, Orange’nin arama veritabanı güncelleştirme işlemleri sunucuların gündüz yükleriyle bile yapılabilir.
Kısaca, Yandex’in web arama işlemi, (1) robotların web’de buldukları dosyalardan arama indeksinin oluşması ve (2) kullanıcılardan gelen sorgular için yanıtların önceden hazırlanmış arama indeksinde bulunması olmak üzere iki ana aşamadan oluşur.