Buradasın

Python'da Pandas Kütüphanesi ve Veri Görselleştirme Eğitimi

youtube.com/watch?v=Ck5xQiUOp_s

Yapay zekadan makale özeti

Kısa
Ayrıntılı

Bu video, bir eğitmen tarafından sunulan dört günlük Python eğitim serisinin son gününü içeren kapsamlı bir eğitim içeriğidir. Eğitmen, Python'da veri analizi ve görselleştirme tekniklerini adım adım anlatmaktadır.
Video, Pandas kütüphanesinin kurulumu ve kullanımı ile başlayıp, CSV dosyalarının okunması, veri temizleme, DataFrame manipülasyonu, veri gruplama ve keplergl kütüphanesi ile harita görselleştirme tekniklerine kadar uzanan bir yapıya sahiptir. Eğitmen, tüm konuları deprem verileri üzerinden pratik örneklerle göstermekte ve son bölümde soru-cevap bölümüyle izleyicilerin sorularını yanıtlamaktadır.
Eğitimde ayrıca TÜİK ve Kaggle gibi veri kaynakları, Stack Overflow'un kod soruları için kullanımı ve Jupyter Notebook üzerinde çalışma teknikleri de ele alınmaktadır. Video, Python programlama diline yeni başlayanlar için temel bilgileri içermekte, aynı zamanda daha ileri seviye kullanıcılar için de veri görselleştirme teknikleri sunmaktadır.

00:00Pandas ve Geopandas Kütüphaneleri: Dördüncü ve son günün konusu pandas ve geopandas kütüphaneleridir.
Pandas, bilgisayara yerleşik gelmeyen, dışarıdan kurulması gereken bir pakettir.
Geopandas, interaktif bir şekilde dünya haritası üzerinden çeşitli senaryoları görselleştirmeye olanak sağlayan bir kütüphanedir.
00:47Kütüphaneleri Kurma: Pandas ve geopandas kütüphaneleri topluluk geliştirilen (community libraries) kütüphanelerdir.
Kütüphaneleri kurmak için "pip install paket_ismi" komutunu kullanabilirsiniz.
Kütüphane kurulumu sırasında, bağımlı olan diğer paketler de otomatik olarak kurulur.
03:30Pandas Kütüphanesini Kullanma: Pandas kütüphanesini kullanmak için "import pandas as pd" komutuyla yükleyebilirsiniz.
Pandas'ın ana veri tipi dataframe'dir ve tablo haline getirilmiş verilerle çalışmayı sağlar.
DataFrame, verileri tablo formatında gösterir ve otomatik olarak indeks oluşturur.
06:34DataFrame Oluşturma ve Kullanımı: Pandas, tablo halindeki verilerle çalışmak için oluşturulmuş bir pakettir.
DataFrame ile tablolar haline getirilen verilerde ortalama, toplam gibi istatistiksel işlemler yapılabilir.
Pandas, veri biliminde ham veriyi almak, temizlemek, analiz etmek ve görselleştirmek için kullanışlı bir araçtır.
09:17Veri Kaynakları: Ham veriyle oynamak isteyenler için TUİK Türkiye İstatistik Kurumu'nun açık kaynak verileri bulunmaktadır.
TUİK'den nüfus, hava kalitesi, atık su verileri gibi çeşitli veri setleri indirilebilir.
İndirilen veriler genellikle CSV formatında olup, bunları pandas ile dataframe'e çevirebilirsiniz.
10:19Veri Kaynakları ve İndirme: Cagle adlı açık kaynak sitesi, Netflix, Trump'ın tweetleri, COVID vaka sayıları gibi güncel konular için veri sunmaktadır.
Cagle'de arama kısmına "earthquake", "Turkey" veya "deprem" gibi anahtar kelimeler girerek, data sekmesinden veri indirilebilir.
Türkiye'deki depremler için veri indirildiğinde, yaklaşık 25.000 satıra sahip bir CSV dosyası elde edilir.
11:46Veriyi Python'a Yükleme: CSV dosyasını Python'da kullanmak için "read_csv" komutu kullanılır ve dosya adı ile çağrılır.
"df.head(5)" komutu ile verinin ilk beş satırı görüntülenebilir.
Veri çerçevesinde (DataFrame) otomatik olarak oluşturulan indeks kolonu ve boş hücreler (NaN) bulunur.
13:45CSV ve Excel Farkları: Excel dosyalarını yüklemek için "read_excel" komutu kullanılır ve Excel'de birden fazla tablo olabilir.
CSV dosyalarında tablo mimarisi yokken, Excel'de var olup, hangi tabloya erişileceğini belirtmek gerekir.
Jupyter Notebook veya Python dosyası ile aynı konumda olmayan dosyaları yüklemek için tam yol adresi verilmelidir.
15:58Veri Yükleme Parametreleri: CSV dosyalarında kolonlar virgül, iki nokta üst üste, noktalı virgül veya boru işareti gibi farklı ayırıcılarla ayrılıp olabilir.
"sep" parametresi ile hangi ayırıcı kullanıldığını belirtmek gerekir, varsayılan değer virgül olarak ayarlanmıştır.
"skiprows" parametresi ile üst veya alt kısımdaki gereksiz satırları atlamak, "names" parametresi ile kolon isimlerini değiştirmek mümkündür.
19:04Veri Temizleme: Analiz için gereksiz kolonları veri çerçevesinden çıkarmak işlem hızını artırır.
"drop" komutu kullanılarak istenmeyen kolonlar veri çerçevesinden kaldırılabilir.
20:11DataFrame'de Kolon Silme: DataFrame'de kolon silmek için "df.drop" fonksiyonu kullanılır ve silinecek kolonların isimleri "labels" argümanı içinde liste şeklinde belirtilir.
"axis=1" argümanı sütunları, "axis=0" ise satırları belirtir.
"inplace=True" argümanı, işlemi yapıldıktan sonra değişkeni tekrar atamadan kendisine kaydetmesini sağlar.
21:53DataFrame Bilgilerini Görüntüleme: Veri temizliği sonrası genel bakış için "df.info()" komutu kullanılır.
"info" komutu DataFrame'in tipini, toplam satır sayısını ve kolon isimlerini gösterir.
Her kolonda kaç tane boş olmayan satır olduğu ve her sütunda hangi veri tipinin tutulduğu bilgisi sunulur.
25:18DataFrame İndeksleme: DataFrame'de satırlara ulaşmak için köşeli parantez içinde indeks aralığı belirtilir.
Sütunlara ulaşmak için köşeli parantez içinde sütun ismi yazılır.
Hücreye ulaşmak için önce sütun ismi, sonra satır indeksi belirtilir.
28:07Boş Satırları Ayıklama: Boş satırları ayıklamak için "df.dropna" fonksiyonu kullanılır.
"subset" argümanı ile sadece belirli bir sütuna bakarak boş satırları düşürebilirsiniz.
"subset" kullanmadan tüm DataFrame'de boşluk içeren satırları düşürebilirsiniz.
29:47Hücre Manipülasyonu ve Matematiksel Operasyonlar: Derinlik sütunundaki değerleri bir artırmak için "df['derinlik'] = df['derinlik'] + 1" şeklinde kod kullanılabilir.
Bu işlem sonucunda ilk satırdaki 10 değeri 11, ikinci satırdaki 5.20 değeri 6.20'ye yükseltilir.
30:54String Tipindeki Operasyonlar: "Bölge" sütunundaki "bayraktar_izmit" ifadesindeki alt çizgiyi boşlukla değiştirmek için "replace" komutu kullanılabilir.
"df['bölge'] = df['bölge'].replace('_', ' ')" kodu ile alt çizgi boşluğa çevrilir ve "bayraktar izmit" şeklinde görünür.
31:55Fonksiyonlar ve Kolonlara Uygulama: Basit işlemlerden ziyade daha sofistike fonksiyonlar uygulamak için "map" komutu kullanılabilir.
"Tarih" kolonu string tipinde olduğundan (object), tarih tipine çevirmek için "datetime" modülü kullanılabilir.
Tarih fonksiyonu, verilen argümanın ilk dört hanesini yıl, beşinci ve yedinci indeksler arası kısmını ay, sekizinci indeksten sona kadar olan kısmını gün olarak alarak tarih tipinde bir obje döndürür.
33:35DataFrame'de Tarih Kolonu Manipülasyonu: Tarih kolonunun yeni değeri, tarih kolonunun eski değerine "tarihe çevir" fonksiyonu uygulanarak string formatından tarih formatına dönüştürülebilir.
DataFrame'lerde map ve lambda komutları kullanılırken, kolon ismi map parantezi içinde lambda x şeklinde kullanılır ve her hücreye fonksiyon uygulanarak veriler güncellenir.
Bu yöntem, hücre manipülasyonlarına gösterebileceğimiz sofistike değişimlerden biridir.
35:31Şartlı Seçiciler ve DataFrame Temizleme: DataFrame'lerde şartlı seçiciler kullanılarak, örneğin büyüklüğü sıfır olan depremler gibi eksik veya dikkate alınmaması gereken veriler dışarıda bırakılabilir.
Şartlı seçici uygulandığında, belirtilen şartı sağlayan satırlar true, sağlamayanlar false olarak işaretlenir.
Şartlı seçici uygulandıktan sonra reset_index(drop=True) metodu kullanılarak indeksler sıfırdan başlayacak şekilde yeniden düzenlenmelidir.
40:38Yeni Kolon Oluşturma ve Değer Atama: DataFrame'e yeni bir kolon ekleme için öncelikle aynı isimde başka bir kolon olmadığından emin olunmalı.
"loc" komutu kullanılarak, belirli bir şartı sağlayan satırların belirli bir kolonunun değerleri değiştirilebilir.
Değişikliklerin sırası önemlidir; önce belirtilen şartlar uygulanır ve ardından sonraki şartlar uygulanır.
43:36Veri Analizi ve İstatistiksel Bilgiler: DataFrame'deki belirli bir sütundaki değerlerin sayısını öğrenmek için "value_counts()" fonksiyonu kullanılabilir.
Örneğin, deprem büyüklüklerine göre "ciddiyet" sütunundaki "orta", "önemsiz" ve "ciddi" değerlerinin sayıları bu fonksiyon ile hesaplanabilir.
Bu yöntem sayesinde veri setine dair istatistiksel bilgilere ulaşılabilir.
44:26Pandas'ta Kümeleme (Aggregation) İşlemi: Kümeleme (aggregation) işlemi, verileri belirli kırılımlara göre gruplayıp istatistiksel değerler hesaplamak için kullanılır.
Pandas'ta "groupby" fonksiyonu kullanılarak veriler belirli sütunlara göre gruplanabilir ve "mean" fonksiyonu ile ortalama değerler hesaplanabilir.
Veri setinde Türkiye ve etrafındaki ülkelerin deprem verileri bulunmaktadır, ancak bazı ülkelerin ülke bilgisi boş olduğu için sadece Türkiye verileri görülebilmektedir.
46:04Kümeleme İşleminin Uygulamaları: Türkiye'deki depremlerin büyüklük ortalaması 4,14, derinlik ortalaması 15,80 kilometre ve mesafe ortalaması 3,21 olarak hesaplanmıştır.
Kümeleme işleminde toplama (sum) işlemi de yapılabilir, ancak bu veri seti için mantıklı bir uygulama değildir.
İki veya daha fazla kırılım kullanılarak (örneğin ülke ve şehir) daha detaylı gruplama yapılabilir.
48:07Kümeleme Sonuçlarının Sıralanması: Kümeleme sonucunda elde edilen veriler "nlargest" fonksiyonu ile en yüksek değerleri sıralanabilir.
Veri setinde Türkiye'de en yüksek ortalama büyüklük değerine sahip şehirler Trabzon (4,90), Iğdır (4,82) ve Karabük (4,80) olarak bulunmuştur.
Sonuçların daha anlamlı olması için bir şehirde en az beş defa deprem olması gibi ek koşullar eklenebilir.
50:40Grup By İşleminin Teknik Açıklaması: "groupby" fonksiyonu, verileri gruplayarak yeni bir veri tipi oluşturur ve bu veri tipi dataframe'e benzer bir yapıya sahiptir.
"groupby" sonrası köşeli parantez kullanılarak sütunlar seçilebilir ve ardından "mean" gibi istatistiksel fonksiyonlar uygulanabilir.
Programlama dünyasında birçok sorunun çözümü için internet kaynaklarına başvurmak ve kopyala-yapıştır yapmak yaygın bir uygulamadır.
54:20Veri Kaynakları ve Kullanımı: Konuşmacı, veri kaynakları olarak TUİK'in sayfası ve Kaggle sitesini gösteriyor.
Kaggle'da 2017-2019 arası Türkiye deprem verilerini bulmuş ve veri setlerini indirmiş.
Kaggle'da veri setlerini inceleyebilir, veri setinin şemasını ve istatistiklerini görebilirsiniz, ancak Google ya da Facebook hesabı gerekiyor.
56:08Stack Overflow Kullanımı: Stack Overflow'da soruları aramak için direkt siteye girip arama yapabilirsiniz.
Sorular genellikle üst kısımda, cevaplar ise alt kısımda gösterilir.
Cevapların yanında rating sistemi bulunur; insanlar çözümü beğendilerse artı, beğenmedilerse eksi verirler.
57:14Kepler GL Paketi Kurulumu: Kepler GL paketini kurmak için "pip install kepler gl" komutu kullanılır.
Yeni sürümlere yükseltmek için "pip install paket_ismi --upgrade" komutu kullanılabilir.
Kepler GL paketi, interaktif çalışma avantajı sunan ve az satırla çok iş yapan bir pakettir.
59:16Kepler GL Kullanımı: Kepler GL kullanmak için "from kepler.gl import kepler" komutu ile paket import edilir.
Harita objesi oluşturmak için "harita = kepler.Harita(büyüklük)" şeklinde bir değişken tanımlanır.
Haritada zoom yapabilir, üç boyuta çevirebilir ve enlem-boylam verilerini gösterebilirsiniz.
1:01:44Jupyter Notebook'da Kepler GL: Jupyter Notebook'da Kepler GL kullanmak için önce harita objesi oluşturulur.
Veriyi yüklemek için "with open('deprem.csv', 'r') as dosya:" komutu kullanılır.
Veriyi haritaya eklemek için "harita.add_data(data)" metodu kullanılır.
1:05:18Harita Veri Görselleştirme: Harita üzerinde Türkiye'yi göstermek için ilerlerken, veri setindeki enlem ve boylam kolonlarının isimlerini sistem anlayabilmek için doğru şekilde belirtmek gerekiyor.
Sol taraftaki ikona ile veri setinin içeriğini gözlemleyebilir ve verinin doğru olduğunu kontrol edebilirsiniz.
Görselleştirmeden önce katman (layer) eklemek gerekiyor ve katmana isim vermek avantaj sağlar.
1:06:40Gösterim Türleri ve Noktasal Gösterim: Harita üzerinde farklı gösterim türleri kullanılabilir, ancak her veri her gösterim için uygun değildir.
Deprem verisi için noktasal (point) gösterim uygun olup, enlem ve boylam kolonlarını seçerek deprem noktalarını haritaya yerleştirebilirsiniz.
Noktaların rengini, büyüklüğünü ve etiketlerini düzenleyebilir, ayrıca tool tip özelliği ile her noktada hangi değerlerin görüneceğini seçebilirsiniz.
1:10:13Filtreleme ve Harita Özelleştirme: Filtre sekmesi ile veri setinde interaktif filtreleme yapabilirsiniz, örneğin şehir bazlı filtreleme yapabilirsiniz.
Base map sekmesi ile arka plan haritanın görünümünü değiştirebilir, farklı harita tipleri seçebilir veya kendi map stilinizi ekleyebilirsiniz.
Label ve layer seçenekleri ile şehir isimlerini, yolları ve su alanlarını ön plana veya arka plana çıkarabilirsiniz.
1:12:47Alternatif Gösterim Türleri: Hexagon (altıgen) tabanlı gösterim yaparak bölgesel yoğunlukları görebilir ve renk skalalarını düzenleyebilirsiniz.
Elevation özelliği ile verileri üç boyutlu gösterime dönüştürebilir ve deprem adedine göre yükseklik ekleyebilirsiniz.
Heatmap'ler gibi farklı gösterim türleri de kullanılabilir.
1:15:17Veri Görselleştirme Soruları: CSP tipinde veri kullanmak zorunlu, liste ve dictionary tarzında bir veriye ihtiyaç vardır.
Lejant eklemek için "show legends" seçeneği kullanılabilir, ancak detaylı bir lejant sağlamaz.
Heat map gösterimi iki boyutlu olabilir ve fay hatlarını gözlemlemek için avantaj sağlar.
1:16:43Farklı Veri Gösterimleri: Arc tipi gösterim için başlangıç ve bitiş noktasının belli olduğu veriler gerekir, deprem verisi bu amaç için uygun değildir.
Bogota şehrindeki Uber taksi verileri (müşteri alma ve bırakma noktaları) farklı bir veri seti örneğidir.
Harita üzerindeki mevcut görünümü temizlemek için "current output" kısmından "clear" seçeneği kullanılabilir.
1:18:35Taksi Verilerini Görselleştirme: Bogota taksi verileri için haritada zoom yaparak şehir merkezindeki yoğunlukta ayırt edilebilir noktalar elde edilebilir.
Dışarıdan alınan veri setini kullanmak kolaydır, çünkü Jupyter'da hangi verinin hangi özellik için kullanılacağı belirlenmiştir.
Arc tipi gösterim için başlangıç ve bitiş konumlarının enlem ve boylam değerleri gerekir.
1:20:32Filtreleme ve Çoklu Harita Kullanımı: Veri setinden sadece spesifik bir kişinin, taksi tipinin veya sürüş süresinin verilerini görmek için filtreleme yapılabilir.
Line tipi gösterim, yay çizmek yerine çizgi üzerinden başlangıç ve bitiş noktalarını gösterir.
İki haritayı yan yana koyarak farklı analizler veya kıyaslamalar yapılabilir.
1:24:18Çıktı Alma ve Kapanış: Görselleri JPEG formatında çıktı almak için bir çözüm bulunamadı, ancak GitHub sayfasında dokümantasyon bulunabilir.
Cufflinks paketi sadece yedi satır kodla veriyi görselleştirmek için kullanışlı ve interaktif bir pakettir.
Cufflinks'te nüfus datası, trafik hareketleri ve yerel yükseltme kontrolü gibi farklı uygulamalar yapılabilmektedir.
1:27:20Soru Cevap ve Değerlendirme Süreci: Konuşmacı, soru sormak isteyenlerin Elif Hanım'ı beklemesini ve kendisinin araştıracağını belirtiyor.
Kulüp olarak katılımcıların kendilerini değerlendirebilecekleri bir anket bağlantısı paylaşılmış.
Konuşmacı, soru sorma fırsatı sunuyor ve sesli seslerin açılmasını istiyor.
1:28:36Eğitimin Özeti ve Teşekkür: Konuşmacı, katılımcılara ve sorulara teşekkür ediyor.
Dört aşamalı eğitimde sıfırdan Python'ın sunduğu elemanları ve malzemeleri kullanarak "yemek pişirme" benzetmesiyle çalışma yapıldığını anlatıyor.
İlk iki bölüm dil ile tanışıklığı artırmaya, üçüncü ve dördüncü bölüm ise vizyoner olma konusunda bilgi vermeye yönelik seçilmiş.
Konuşmacı, gösterilenlerin sadece bir kısmını olduğunu ve katılımcıların araştırmaya devam etmelerini öneriyor.

Python'da Pandas Kütüphanesi ve Veri Görselleştirme Eğitimi

Yapay zekadan makale özeti

Yanıtı değerlendir

Python'da Pandas kütüphanesi nedir?

Pandas veri görselleştirme nasıl yapılır?

Veri görselleştirme için hangi kütüphane kullanılır?