Yapay zekadan makale özeti
- Kısa
- Ayrıntılı
- Bu video, bir eğitmen tarafından sunulan web scraper kullanımını anlatan kapsamlı bir eğitim içeriğidir.
- Video, web scraper'ların ne olduğunu açıklayarak başlayıp, Chrome tarayıcısına kurulumunu göstermektedir. Ardından Hepsi Emlak ve Emlak2.com sitelerinden örnek veri çekme işlemleri adım adım anlatılmaktadır. Eğitim, selektör oluşturma, veri seçimi, verilerin tablo halinde kaydedilmesi, sayfa linklerini belirleme, multi-type seçeneği kullanımı ve Cloudflare gibi DDoS saldırılarına karşı koruma mekanizmalarından kaçınma yöntemlerini kapsamaktadır.
- Videoda ayrıca veri çekme işleminin kontrol aşaması, selector graph seçeneğinin kullanımı, veri çekme parametrelerinin ayarlanması ve son olarak verilerin Excel formatında düzenlenmesi ve CSV formatına dönüştürülmesi konuları da ele alınmaktadır. Bu eğitim, makine öğrenmesi ödevleri, araştırma raporları hazırlamak veya yapay zeka projelerinde veri çekmek isteyenler için faydalı bilgiler içermektedir.
- Web Scraper Nedir ve Kullanım Alanları
- Web scraper, apisi olmayan web sitelerinden veri çekmemize olanak sağlayan JavaScript botlarıdır.
- Bu botlar tarayıcı üzerinden eklenti olarak çalışabilir veya ekstra program indirmeniz gerekebilir.
- Web scraper verileri genellikle makine öğrenmesi ödevlerinde, araştırma ve rapor hazırlama işlemlerinde kullanılır.
- 00:57Web Scraper Kurulumu
- Web scraper kurmak için Chrome Web Mağazası'nda "web scraper" araması yapılabilir veya videonun açıklama kısmındaki link kullanılabilir.
- Scraper terimi Türkçe'de "kazıyıcı" anlamına gelir ve web sitelerinden verileri çekerek tablo haline indirip kullanabilmemize olanak sağlar.
- Chrome, Opera GX gibi farklı tarayıcılarda da aynı işlemleri gerçekleştirerek web scraper kurulabilir.
- 02:17Web Scraper Kullanımı
- Web scraper ile araştırma ödevi için ilan sayfası açılabilir, örneğin "hepsi emlak.com" üzerinden ilanlar çekilebilir.
- Seçilen web sitesinde gerekli veriler seçildikten sonra, mouse ile boş bir alana tıklayıp sağ tıklayarak "incele" seçeneği kullanılır.
- Web scraper'a tıklandığında açılan ekranda "create new step app" seçeneği ile yeni bir adım oluşturulur.
- 04:52Selektör Oluşturma
- Selektörler, web sitesindeki etiketleri seçmemize yarayan araçlardır.
- Selektör oluştururken isim ve type seçeneği belirlenir, bu örnekte "link" seçilmiştir.
- Select kısmına tıklandığında, mouse eventi ile HTML etiketleri içerisinde elementler seçilebilir ve "select" diyerek tüm veriler seçilir.
- 06:46Veri Düzenleme ve Kaydetme
- "Multi-type" seçeneği aktive edilmezse veriler tablo olarak algılanır ve kolonlara girilir.
- "Multi-type" seçeneği seçildiğinde veriler yeni satır olarak algılanır ve satırın içerisinde eklenir.
- İşlem tamamlandıktan sonra "save selector" diyerek selektör kaydedilir.
- 07:39Web Sayfasından Veri Çekme
- Web sitesinden veri çekmek için öncelikle link üzerine tıklanarak root ve loot klasörlerine erişilir.
- İlan sayfasında gerekli özellikleri çekmek için örnek bir video oluşturulması amaçlanır.
- Veri çekme işlemi için önce "Add New Selector" seçeneği kullanılarak yeni bir selektör oluşturulur.
- 08:40Selektör Oluşturma
- Selektörlerin türü text olarak belirlenir ve select kısmından ilgili etiket seçilir.
- PVC (parent) ve S (child) seçenekleri kullanılarak seçicinin büyüklüğü ayarlanabilir.
- Seçilen alanlar "Down Selection" ile belirlenir ve "Save Selector" ile kaydedilir.
- 09:46Farklı Veri Alanları İçin Selektörler
- İlan açıklama, ilan ili, ilan ilçesi, ilan türü, ilan oda sayısı ve ilan fiyatı gibi farklı veri alanları için selektörler oluşturulur.
- Türkçe ifadelerden kaçınılması tavsiye edilir çünkü makine öğrenmesinde sorun çıkarabilir.
- Tüm veriler kaydedildikten sonra data preview kısmında tablo örneği görüntülenir.
- 13:55Sayfa Geçişleri İçin Selektör
- Web sitesinde birden fazla sayfa olduğu için sadece bir sayfadan veri çekmek yerine diğer sayfalara geçiş yapılması gerekir.
- "Add New Selector" ile "Page" adında yeni bir selektör oluşturulur ve türü link olarak belirlenir.
- Sayfa geçişleri için linkler seçilir ve "Multi Type" seçeneği aktive edilerek tüm sayfalar otomatik olarak seçilir.
- 15:48Programın Çalışma Mantığı
- Program root'tan başlayarak iki dala ayrılır ve önce linkteki verileri çeker.
- Sayfalardaki verileri bitirdikten sonra diğer ifadeyi çalıştırır.
- Sayfaların içerisinde de linklerin bağlanması için edit kısmından PC seçeneği aktive edilir ve Ctrl tuşu ile tüm ifadeler seçilir.
- 16:57Selector Graph ile Veri Kontrolü
- Selector Graph seçeneği ile verilerin kontrol aşamasına geçiliyor.
- Root üzerine tıklandığında link ve pages olmak üzere iki farklı dal oluşuyor.
- Link kısmında oluşturulan tüm veri satırları ve kolon isimleri mevcut.
- 18:00Veri Çekme Sürecindeki Sorunlar
- Uygulamalar genellikle sürekli yeni sekme açıp kapattığı için bazı problemler yaşanabilir.
- Web sitelerinin DDoS saldırılarına karşı koruma sağlamak için Cloudflare gibi yazılımlar kullanılıyor.
- Bu yazılımlar, botların sürekli sunucu tarafından request göndermesi nedeniyle trafiği yoğunlaştırdığı için sıkıntılar çıkarabilir.
- 18:50Scraping Ayarları
- Scrape seçeneğine tıklayarak Cloudflare'dan kaçınmak için büyük sayılar vermek tavsiye ediliyor.
- Request interval, web sitesine istek gönderme milisaniyesini belirler (örneğin 2000 milisaniye = 2 saniyede bir istek).
- Page load, web sitesine girdikten sonra ilanı kaç saniye daha göstermek istediğini belirler (örneğin 2000 milisaniye = 2 saniye).
- 20:59Veri Çekme İşlemi
- Start scraping diyerek işlem başlatıldığında yeni bir sekme açılıyor ve ilanlar arasından gezerek veriler kaydediliyor.
- Refresh seçeneği ile çekilen veri sayısı görüntülenebiliyor.
- İşlem uzun sürebilir ve bot çalıştığına dair bir sıkıntı algılandığında her an ban yiyebilirsiniz.
- 24:15Veri İndirme
- Veri çekme işlemi tamamlandıktan sonra export data seçeneğine tıklanıyor.
- Excel veya CSV formatında indirme seçenekleri sunuluyor, Excel formatı daha kolay düzenleme için tavsiye ediliyor.
- Excel formatında indirilen veri tablo haline getirilmiş ve ilan fiyatı, ilan oda sayısı, ilan türü gibi bilgiler içeriyor.
- 26:19Veri Düzenleme İşlemi
- Düzenleme etkinleştirildikten sonra ilanlar üzerinden düzenleme yapılıyor.
- İlan ilçesi, ilan, ilan oda sayısı, ilan fiyatı ve ilan sayfası gibi veriler mevcut.
- Web scrap, link, pages sayfası ve ref gibi gereksiz veriler siliniyor.
- 27:20CSV Formatında Kaydetme
- Düzenlenen veriler CSV formatında kaydedilecek.
- Farklı kaydet sekmesinden "Emlak 2" türü seçiliyor ve UTF-8 formatında virgülle ayrılmış CSV formatı belirleniyor.
- Veriler masaüstüne "Hepsi Emlak" adıyla CSV formatında kaydediliyor.
- 28:06CSV Verilerinin Kullanımı
- Kaydedilen CSV dosyası doğrudan Notepad'den açılabiliyor.
- Bu veriler araştırma ödevleri veya yapay zeka ödevlerinde kullanılabilir.
- Video açıklamasında kullanılan eklentinin linki paylaşılacak ve aynı yöntemlerle farklı web sitelerinden de CSV formatında veri indirilebilir.