• Buradasın

    Arama Motorları ve Veri Bilimi Eğitim Videosu

    youtube.com/watch?v=Ct0ZxrEHvQY

    Yapay zekadan makale özeti

    • Bu video, "Veri Bilimi" serisinin 41. bölümü olup, bir eğitmen tarafından sunulan kapsamlı bir eğitim içeriğidir. Eğitmen, daha önce "veri bilimcisi olma yolunda" serisinin 40. videosunu çektiğini belirtmektedir.
    • Video, arama motorlarının temel kavramlarını, çalışma prensiplerini ve bileşenlerini detaylı şekilde ele almaktadır. İçerikte arama motorlarının pazar payları, Google'ın dominasyonu, web crawling, indeksleme teknikleri, query optimizasyonu ve ranking gibi konular açıklanmaktadır. Ayrıca big data kavramları ve bilgi ağları gibi ileri seviye konular da ele alınmaktadır.
    • Video, arama motorlarının nasıl çalıştığını, web sitelerinin nasıl indekslendiğini ve farklı arama türlerini anlamak isteyenler için giriş seviyesinde bilgiler sunmaktadır. Map-Reduce modeli, deep web, scager algoritmaları, refresh algoritmaları, parcer algoritmaları, inverted indeks, meta search engine'ler ve semantik arama gibi teknik konular da örneklerle açıklanmaktadır.
    00:05Arama Motorları Hakkında Giriş
    • Bu video, veri bilimi serisinin 41. videosu olup arama motorlarını tanıtmayı amaçlamaktadır.
    • Arama motorları (search engine), web üzerinde arama yapan sistemlerdir ve bu videoda arama motorlarının bileşenleri ve çalışma mantığı anlatılacaktır.
    • Video, arama motorlarının pazar paylarını ve Google'ın domine eden konumunu göstermektedir.
    01:08Arama Motorlarının Pazar Payları
    • Google, dünya pazar payında yaklaşık %70'lik bir paya sahiptir.
    • Bing ikinci sırada, Yahoo ise üçüncü sırada yer almaktadır.
    • Çin'de çok kullanılan Baidu, dünya pazarında %7'lik bir paya sahiptir.
    01:55Google'ın Tarihi ve Önemi
    • Google, Princeton Üniversitesi'nde doktora öğrencilerinin hazırladığı bir arama motorundan başlamıştır.
    • Google, kendi algoritmalarını geliştirmiş ve bu sayede günümüzde domine eden bir konuma ulaşmıştır.
    • Google'ın literatürün oluşmasında ciddi emeği vardır ve çoğu kaynak Google'ın nasıl çalıştığı hakkında bilgi içerir.
    02:45Arama Motorlarının Bileşenleri
    • Arama motorlarının temel bileşenleri arasında web crawler (örümcek) bulunur, bu robotlar internet üzerinde dolaşarak web sayfalarını takip eder.
    • Crowl control, internet üzerindeki dolaşma süreçlerini takip eder ve birden fazla crowler kullanarak dünya çapında veri toplama yapar.
    • Toplanan veriler indexer tarafından indekslenir ve veritabanlarında saklanır, bu süreç büyük veri (big data) uygulamaları gerektirir.
    05:30Arama Motorlarının Çalışma Mantığı
    • Toplanan veriler üzerinde collection analistler tarafından işlenir ve daha sıkıştırılmış şekilde tutulur.
    • Query engine, kullanıcıların sorgularına cevap veren motorlardır ve ranking (sıralama) algoritmaları ile sayfalar sıralanır.
    • Kullanıcılar sadece sorgu arayüzünü görürken, arka planda sürekli interneti dolaşan örümcekler ve algoritmalar çalışır, sonuçlar daha önceden hazırlanmış veri kaynaklarından çekilir.
    06:50Web Crawler ve Arama Motorları Arasındaki Etkileşim
    • Web crawler'ın oluşturduğu bileşenler arasında robot.txt dosyası bulunur, bu dosya arama motorlarının hangi sayfaları indekslemesini istemediğini belirtir.
    • Sitemap.xml dosyası, arama motorlarının dolaşmasını istediği site haritasını gösterir.
    • Meta datalar, web sitelerinin dilini, karakter setini ve anahtar kelimelerini içerir, bu bilgiler arama motorları tarafından kullanılır.
    10:16Web Crawling ve Dağıtılmış Web Crawling
    • Web sayfalarının kaynak kodlarında (view source) metat etiketleri bulunur ve bunlar head kısmında yer alır.
    • Dağıtılmış web crawling, tek bir robot yerine birden fazla robotun paralel olarak çalışması ve birbirleriyle iletişim kurması durumudur.
    • Map radius, web sayfalarının parçalanarak birden fazla alanda bölünmesi işlemidir; örneğin bir milyon web sayfası on ayrı crawler'a verilerek her biri sayfayı indirip indexer algoritmasına verir.
    11:24Deep Web ve Web Crawling Teknikleri
    • Deep web (derin ağ), arama motorlarının ulaşamadığı kısımlardır; şifreli domainler, şirketlerin intranet'leri ve bilinmeyen domain isimleri bu kategoride yer alır.
    • Deep web, surface web'den çok daha derin olup, beşyüz misli derinlikte olduğu söylenir ve içinde gizli internet trafiği vardır.
    • Web crawling'ın bir parçası olan scaler'lar, crawling'ların ne kadar zamanda bir hangi sayfaya bakacağını belirler.
    13:17Web Crawling Optimizasyonu
    • Web sayfalarının refresh algoritmaları, crawling'ların ne kadar sıklıkla sayfayı kontrol etmesi gerektiğini belirler.
    • Çok hızlı veya çok yavaş crawling yapmak, gereksiz zaman kaybına neden olur; optimum noktayı bulmak önemli bir problemdir.
    • Web crawling'ın bir parçası olan parçalama algoritmaları, web sayfalarını parçalayıp anlamsız yerleri atarak anlamlı bilgileri alır.
    15:10Benzer Sayfaları Algılama ve Dinamik İçerik
    • Aynı sayfanın kopyalarının yakalanması arama motorları için ciddi bir problemdir; Google orijinal sayfanın üstünde kopyaları göstermez.
    • Benzer sayfaları algılamak için hashing algoritmaları kullanılır; örneğin SIMHash (benzerlik hash) algoritması benzer sayfaları bulur.
    • Dinamik içerik (örneğin reklamlar) her girişte değiştiği için, bu değişen kısımların algılanmaması önemli bir problemdir.
    17:34Arama Motorlarının İndeksleme Süreci
    • Indexer, crawled bilgilerin indekslenmesini sağlar ve inverts indexting (ters indeksleme) işlemi gerçekleştirir.
    • İndeksleme, sayfanın içindeki kelimeleri çıkartıp, kelimelerden hangi sayfalara ulaşılabileceğini tersten indekslemek için yapılır.
    • Arama motorlarının amacı, sorgu işlemini hızlandırmak ve anahtar kelimeleri öncelikle çıkartmaktır.
    19:18Meta Arama Motorları
    • Meta arama motorları, farklı arama motorlarına API'larla bağlanarak aramaları yaptırır ve sonuçları harmanlayarak gösterir.
    • Özel amaçlar için (örneğin tıp dünyası için) uzmanlaşmış meta arama motorları da mevcuttur.
    • Google gibi büyük arama motorları, API'larını kullanarak günlük belirli arama sayılarına kadar ücretsiz kullanım imkanı sunar.
    20:24Arama Motorlarının Çalışma Aşamaları
    • Arama motorları üç ana bölümden oluşur: web crawler, indexter ve searching.
    • Searching, kullanıcıların arama motorlarına bağlanarak arama yaptığı kısım olup, doğal dilde aramalara izin veren motorlar da vardır.
    • Query optimizeerlar, kullanıcıların karışık sorularını optimize ederek daha anlamlı sonuçlar elde etmeyi sağlar.
    21:11Sorgu Türleri ve Semantik Arama
    • Sorgular bilgi soruları, tanımlama soruları, yönlendirme soruları ve transaction soruları gibi farklı tiplere ayrılabilir.
    • Sosyal aramalar, kullanıcıların sosyal medya profillerine göre arkadaş çevrelerindeki kişileri getirir.
    • Semantik arama, web 3.0'da her kaynağın kendi içerikleriyle ilgili semantik bir gösterime tabi tutulmasını ve bu gösterimlerin birbiriyle ilişkilendirilmesini sağlar.
    23:29Ontoloji ve Sıralama
    • Ontoloji searchler, zamansal, konumsal gibi farklı ontolojileri kullanarak sorulara cevap verir.
    • Arama motorları, sayfaların birbiriyle ilişkili olma durumunu bulup nasıl sıralanacağını gösterir.
    24:36Arama Motoru Sorgu Optimizasyonu
    • Arama motorunda yapılan sorguda, optimizer gereksiz kelimeleri atarak sorguları optimize eder.
    • Her anahtar kelimenin geçtiği web sitelerinin kalitesi ve her anahtar kelime için dökümanın skoru gösterilir.
    • Skorlama yöntemleri arasında TF-IDF gibi farklı yöntemler bulunur ve bu skorlar toplanarak web sayfaları sıralanır.
    26:26Büyük Veri Kavramları
    • Büyük veri kavramları arasında volume (büyüklük), velocity (değişme hızı) ve value (bilginin değeri) bulunmaktadır.
    • İnanç ağları (belief networks) kavramı, farklı kaynaklardan gelen çelişkili bilgileri analiz etmeyi gerektirir.
    • Veri madenciliği ile ilgili precision (doğruluk) ve recall (hatırlama) gibi hesaplama yöntemleri bulunmaktadır.
    27:51Video Serisi Hakkında
    • Video, veri bilimcisi olma yolunda ilgi çekici konuları öne alarak giriş mahiyetinde hazırlanmıştır.
    • Daha detaylı videolar çekilecek ve gelen sorulara cevap verilecektir.
    • Sorular için sadeerenseker.com adresinden ulaşılabilir.

    Yanıtı değerlendir

  • Yazeka sinir ağı makaleleri veya videoları özetliyor