Robotun Yandex'e ait olup olmadığı nasıl kontrol edilir
Bazen robotlar, uygun Kullanıcı aracısını belirterek kendilerini Yandex robotları olarak gizleyebilirler. Ters DNS sorgularına (ters DNS araması) dayalı bir kimlik kullanarak robotun taklit ettiği kişi olduğunu doğrulayabilirsiniz.
Bunu yapmak için aşağıdakileri yapmanız gerekir:
- İçin ilgilenen Kullanıcı aracısı IP adresini sunucunuzun günlüklerine göre belirleyin.
- IP adresine göre, ters DNS sorgusu kullanarak ana bilgisayarın etki alanı adını belirleyin.
- Ana bilgisayarın Yandex'e ait olup olmadığını kontrol edin. Tüm Yandex robotlarının isimleri ile bitiyor
yandex.ru
,yandex.net
veyayandex.com
. Ana bilgisayar adının farklı bir sonu varsa, bu robotun Yandex'e ait olmadığı anlamına gelir. - Aldığınız ismin doğruluğundan emin olun. Bunu yapmak için, ana bilgisayar adına karşılık gelen IP adresini almak için doğrudan bir DNS sorgusu (ileri DNS araması) kullanmanız gerekir. Bu, ters DNS isteğinde kullanılan IP adresiyle eşleşmelidir. IP adresleri eşleşmiyorsa, bu, alınan ana bilgisayar adının sahte olduğu anlamına gelir.
Sunucu günlüklerinde Yandex robotları
Bazı Yandex robotları belgeleri daha sonra indekslenmeleri için değil, diğer özel amaçlar için indirir. Site sahiplerinin kasıtsız olarak engellenmesini önlemek için, dosyanın sınırlayıcı yönergelerini dikkate almayabilirler robots.txt
keyfi robotlar için tasarlanmış (User-agent: *
).
Ayrıca kısıtlamaların kısmen göz ardı edilmesi robots.txt
Yandex şirketi ile bu sitelerin sahipleri arasında uygun bir anlaşma varsa, belirli siteler mümkündür.
Not
Böyle bir robot, Yandex'in ana robotunun erişemeyeceği bir belgeyi indirirse, bu belge asla dizine eklenmeyecek ve arama sonuçlarına ulaşmayacaktır.
Bu tür robotların siteye erişimini kısıtlamak için, özellikle onlar için yönergeler kullanın, örneğin:
User-agent: YandexCalendar
Disallow: /
User-agent: YandexMobileBot
Disallow: /private/*.txt$
Robotlar otonom bir ağ kullanıyor: AS13238 ve AS208722 ve sık sık değişen IP adresleri, bu nedenle listeleri açıklanmadı.
Robot eriştiğinde, sunucunuzun günlüklerinde Kullanıcı aracısı ve siteyi atlarken kullanılan tarayıcı sürümü görüntülenebilir. Örneğin, Mozilla/5.0 (uyumlu; YandexBot/3.0; +http://yandex.com/bots) AppleWebKit/537.36 (KHTML, Gecko gibi) Chrome/81.0.4044.268.
Not
Tarayıcının sürümü değişebilir, bu nedenle sunucu günlüklerinde Kullanıcı aracısı ararken belirli bir sürümü belirtmemenizi öneririz.
Kullanıcı aracısı dahil robotun tam adı |
Robotun amacı |
Belirtilen genel kuralları dikkate alır |
Mozilla/5.0 (compatible; YandexAccessibilityBot/3.0; +http://yandex.com/bots) |
Kullanıcılara erişilebilirliklerini doğrulamak için sayfaları indirir. Siteye maksimum erişim sıklığı saniyede 3 erişimdir. Robot görmezden geliyor Yandex Webmaster arayüzündeki yapılandırma. |
Hayır |
Mozilla/5.0 (compatible; YandexAdNet/1.0; +http://yandex.com/bots) |
Robot Yandex Reklam Ağı'nın. |
Evet |
Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots) |
Gönderilerin yorumlarını dizine ekleyen bir blog arama robotu. |
Evet |
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) |
Ana indeksleme robotu. |
Evet |
Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots) |
Sitelerin ana olmayan adreslerini belirleyen. |
Evet |
Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://yandex.com/bots) |
Robot Yandex Takvimi. Genellikle indekslemeye izin verilmeyen dizinlerde bulunan kullanıcıların inisiyatifiyle takvim dosyalarını indirir. |
Hayır |
Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots) |
İlgili reklamları seçmek için konularını netleştirmek için Yandex Reklam Ağının ortak sitelerinin içeriği hakkında bilgi indirir. |
Hayır |
Mozilla/5.0 (compatible; YandexDirectDyn/1.0; +http://yandex.com/bots) |
Dinamik afişler oluşturur. |
Hayır |
Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots) |
Arama sonuçlarında görüntülenmek üzere sitenin favicon dosyasını indirir. |
Hayır |
Mozilla/5.0 (compatible; YaDirectFetcher/1.0; Dyatel; +http://yandex.com/bots) |
Kullanılabilirliklerini doğrulamak ve konularını netleştirmek için reklam açılış sayfalarını indirir. Bu, arama sonuçlarına ve ortak sitelere reklam yerleştirmek için gereklidir. |
Hayır. Robot dosyayı kullanmıyor robots.txt, bu nedenle kendisi için belirlenen direktifleri göz ardı eder. |
Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) |
Görüntülenecek görüntüleri dizine ekler Yandex Resimlerinde. |
Evet |
Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots) |
Mobil hizmetlerin robotu. |
Evet |
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexMobileBot/3.0; +http://yandex.com/bots) |
Mobil cihazlara uygun düzene sahip sayfaları tanımlar. |
Hayır |
Mozilla/5.0 (compatible; YandexMarket/1.0; +http://yandex.com/bots) |
Robot Yandex Pazarı. |
Evet |
Mozilla/5.0 (compatible; YandexMarket/2.0; +http://yandex.com/bots) |
Hayır |
|
Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) |
Multimedya verilerini indeksler. |
Evet |
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots yabs01) |
Yandex Direct reklamlarının açılış sayfalarını kontrol etmek de dahil olmak üzere erişilebilirliklerini doğrulamak için site sayfalarını indirir. |
Hayır. Robot dosyayı kullanmıyor robots.txt, bu nedenle kendisi için belirlenen direktifleri göz ardı eder. |
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots) |
Robot Yandex Metrikleri. |
Hayır |
Mozilla/5.0 (compatible; YandexMetrika/3.0; +http://yandex.com/bots) |
Hayır |
|
Mozilla/5.0 (compatible; YandexMetrika/4.0; +http://yandex.com/bots) |
Robot Yandex Metrikleri. Site sayfalarını oynatmak için CSS stillerini indirir ve önbelleğe alır. Web Sitesinde. |
Hayır. Robot dosyayı kullanmıyor robots.txt, bu nedenle kendisi için belirlenen direktifleri göz ardı eder. |
Mozilla/5.0 (compatible; YandexMobileScreenShotBot/1.0; +http://yandex.com/bots) |
Mobil sayfanın anlık görüntüsünü alır. |
Hayır |
Mozilla/5.0 (compatible; YandexNews/4.0; +http://yandex.com/bots) |
Robot Yandex Haberleri. |
Evet |
Mozilla/5.0 (compatible; YandexOntoDB/1.0; +http://yandex.com/bots) |
Robot nesne yanıtının. |
Evet |
Mozilla/5.0 (compatible; YandexOntoDBAPI/1.0; +http://yandex.com/bots) |
Robot nesne yanıtının dinamik verileri indiren |
Hayır |
Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://yandex.com/bots) |
Form aracılığıyla mikro işaretlemeyi onaylarken sayfaya erişir Mikro işaretleme doğrulayıcı. |
Evet |
Mozilla/5.0 (compatible; YandexPartner/3.0; +http://yandex.com/bots) |
Yandex ortak sitelerinin içeriği hakkında bilgi indirir. |
Hayır |
Mozilla/5.0 (compatible; YandexRCA/1.0; +http://yandex.com/bots) |
Önizlemeleri oluşturmak için verileri toplar. |
Hayır |
Mozilla/5.0 (compatible; YandexRenderResourcesBot/1.0; +http://yandex.com/bots) |
Kaynakları yükler sayfa oluşturma JavaScript ile. İçindeki talimatları yok sayar robots.txt, Bu kaynakların barındırıldığı HTML sayfası Yandex robotu için mevcutsa. Robot, aşağıdaki durumlarda kaynaklara erişmiyor |
Hayır |
Mozilla/5.0 (compatible; YandexSearchShop/1.0; +http://yandex.com/bots) |
Genellikle indekslemeye izin verilmeyen dizinlerde bulunan ürün kataloglarının (kullanıcıların inisiyatifiyle) YML dosyalarını indirir. |
Hayır |
Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://yandex.com/bots) |
Olarak kullanılan sayfaların kullanılabilirliğini kontrol eder hızlı bağlantılar. |
Evet |
Mozilla/5.0 (compatible; YandexSpravBot/1.0; +http://yandex.com/bots) |
Robot Yandex İşletmeleri. |
Evet |
Mozilla/5.0 (compatible; YandexTurbo/1.0; +http://yandex.com/bots) |
Oluşturmak için oluşturulan RSS beslemesini atlar Turbo sayfaları. Siteye maksimum erişim sıklığı saniyede 3 erişimdir. Robot görmezden geliyor Yandex Webmaster arayüzündeki yapılandırma ve Tarama gecikmesi direktifine. |
Evet |
Mozilla/5.0 (compatible; YandexUserproxy; robot; +http://yandex.com/bots) |
Kullanıcıların Yandex hizmetlerindeki eylemlerini proxyler: düğmelere tıklamaya yanıt olarak istek gönderir, çevrimiçi çeviri için sayfaları indirir vb. |
Hayır |
Mozilla/5.0 (compatible; YandexVertis/3.0; +http://yandex.com/bots) |
Arama dikey robotu. |
Evet |
Mozilla/5.0 (compatible; YandexVerticals/1.0; +http://yandex.com/bots) |
Yandex Dikey Robotu: Araba. |
Evet |
Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots) |
Gösterilecek videoyu dizine ekler Yandex'i videoya göre aramada. |
Evet |
Mozilla/5.0 (compatible; YandexVideoParser/1.0; +http://yandex.com/bots) |
Gösterilecek videoyu dizine ekler Yandex'i videoya göre aramada. |
Hayır |
Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots) |
Robot Yandex Webmaster. |
Evet |
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z* Safari/537.36 (compatible; YandexScreenshotBot/3.0; +http://yandex.com/bots) |
Sayfanın anlık görüntüsünü alır. |
Hayır |
* W.X.Y.Z karakter kombinasyonu, kullanıcı aracısının kullandığı Chrome tarayıcı sürümünün yer tutucu etiketidir. Örneğin: 41.0.2272.96.
Sorular ve Cevaplar
Yandex robotları gibi davranan haydut robotlardan nasıl korunulur
Kendinizi Yandex robotları gibi davranan haydut robotlardan korumak istiyorsanız, yukarıda açıklandığı gibi ters DNS sorgularına dayalı filtrelemeyi kullanabilirsiniz. Böyle bir şema, Yandex'in iç ağlarındaki değişikliklere karşı dirençli olduğu için IP adreslerine dayalı erişim kontrolüne göre daha çok tercih edilmektedir.
Web sunucum ile robotunuz arasındaki trafik hacmi çok büyük. Sayfaları sıkıştırılmış biçimde indirmek için herhangi bir destek var mı?
Evet, var. Yandex arama motoru, her sayfa isteğinde şunları söylüyor: "Accept-Encoding: gzip,deflate"
. Bu, web sunucunuzu buna göre yapılandırarak, onunla robotumuz arasında aktarılan trafik miktarını azaltabileceğiniz anlamına gelir. Ancak akılda tutulmalıdır — içeriği sıkıştırılmış biçimde aktarmak sunucunuzun cpu'su üzerindeki yükü artırır ve yoğun yüklüyse sorunlar ortaya çıkabilir. Destekleyici gzip
ve deflate
, robot standardına bağlı kalıyor rfc2616
, bölüm 3.5.