Yapay zekadan makale özeti
- Kısa
- Ayrıntılı
- Bu video, bir eğitmen tarafından sunulan Python programlama dersidir. Eğitmen, internetten veri çekme konusunu ele almaktadır.
- Videoda, IMDb'nin top 250 filmlerinden film isimlerini çekme işlemi adım adım gösterilmektedir. Eğitmen önce HTML bilgisi gerektirdiğini belirterek, tablo ve tr etiketlerinin nasıl kullanılacağını açıklar, ardından request ve BeautifulSoup kütüphanelerini kullanarak IMDb sayfasından tablo içeriğini çekme, tabloyu sınıflarına göre filtreleme ve tabloyu parçalama işlemleri kod örnekleriyle anlatır.
- Video, internetten veri çekme konusunda temel bilgiler edinmek isteyenler için faydalı olup, bir sonraki derste bu konunun devam edeceği belirtilmektedir.
- Python ile İnternetten Veri Çekme Dersi
- Bu derste IMDb'nin top 250 filmlerinden film isimlerini çekme işlemi yapılacak.
- İnternetten veri çekmek kolay bir işlem değil ve HTML bilgisi gerektiriyor.
- Derste tablolar ve tablodaki bileşenler gösterilecek, bu nedenle HTML'deki table ve tr etiketlerini bilmek gerekiyor.
- 01:19Site Kaynaklarının İncelenmesi
- Site kaynağını görüntüleyerek table etiketini bulmak gerekiyor.
- Tablo içinde her bir tr etiketi bir filmi gösteriyor ve film bilgileri (film adı, oyuncular, oylama gibi) bu etiketlerin içinde saklı.
- Her bir film için tr etiketi ile başlayıp biten kodlar bulunuyor.
- 04:23Kod Yazımı ve Kütüphane Kullanımı
- Kullanılacak kütüphaneler: request ve BeautifulSoup.
- URL tanımlanıp request sınıfından get ile sayfanın kaynağı alınıyor.
- BeautifulSoup başlatırken "html_parser" parametresi eklenmesi gerekiyor.
- 05:43Tablo Verisini Çekme
- Table etiketini bulmak için BeautifulSoup kullanılıyor.
- Sadece belirli bir class'a sahip table'ı almak için "class='chart-full-with'" parametresi kullanılıyor.
- Çekilen tablo verisi bir boyutlu bir liste olarak elde ediliyor.
- 07:53Tablo İçeriğini Parçalama
- Table etiketinin arasında üç tane content bulunuyor: colgroup, td ve tbody.
- Tablo içeriğini parçalamak için "contents" özelliği kullanılıyor.
- Tablo içindeki içeriklerin doğru sıralanması için "tbody" içeriği alınması gerekiyor.
- 11:33HTML Verisini İşleme
- Film tablosu, gelen verinin sıfırıncı indeksinin content'i olarak tanımlanıyor.
- Gelen verinin len eksi iki kadar indekse gitmek için "film tablosu" listesi oluşturuluyor.
- "t-body" etiketi ile sadece filmlerin olduğu tablo alınıyor.
- 12:38Film Etiketlerini Bulma
- Her bir filmi oluşturan "tr" etiketleri, filmlerin özelliklerini simgeliyor.
- "film tablosu" içinde "find all" fonksiyonu kullanılarak tüm "tr" etiketleri aranıyor.
- "for" döngüsü ile her bir "tr" etiketi (filmin bulunduğu satır) bastırılıyor.
- 14:33Film Başlıklarını Alma
- Film başlıkları için "title" class'ı aranıyor.
- "film başlıkları" listesi oluşturuluyor ve "find" fonksiyonu ile "td class=title" olan etiketler bulunuyor.
- Her bir film başlığı tek elemanlı bir liste olduğu için sıfırıncı elemanı alınarak film ismi elde ediliyor.
- 18:27Sonuç ve Kapanış
- 250 film ismi başarıyla alınmış durumda.
- Film puanları gibi diğer bilgileri kendi elinize bulmanız gerekiyor.
- Bir sonraki derste internetten veri çekme konusuna devam edilecek.