Yapay zekadan makale özeti
- Kısa
- Ayrıntılı
- Bu video, bir eğitmen tarafından sunulan veri madenciliği ve veri ön işleme konularını kapsayan kapsamlı bir eğitim dersidir.
- Ders, veri hazırlama ve ön işleme kavramlarıyla başlayıp, veri toplama yöntemlerini (gözlem, anket, web scraping vb.), veri seti kaynaklarını (UCI dataset), veri tiplerini (nominal, ordinal, interval, ratio) ve istatistiksel ölçümleri (merkezi eğilim ve dağılım ölçüleri) detaylı şekilde ele almaktadır. Jupyter Notebook ortamında uygulamalar gösterilerek teorik bilgiler somutlaştırılmaktadır.
- Video, veri bilimi ve makine öğrenimi öğrencileri için hazırlanmış olup, veri setlerinin nasıl indirileceği, Jupyter Notebook'a nasıl aktarılacağı, veri tiplerinin nasıl sınıflandırılacağı ve temel istatistiksel analizlerin nasıl yapılacağı konularında pratik bilgiler sunmaktadır. Ayrıca, veri dağılımlarını gösteren grafik türleri ve aykırı verilerin tespiti gibi konular da içermektedir.
- Veri Hazırlama ve Veri Ön İşleme Dersi
- Bu haftaki ders veri hazırlama ve veri ön işleme konularını içerecek.
- Önceki haftalarda dersin işleniş şekli ve kullanılacak programlar hakkında bilgi verilmişti.
- Veri madenciliğinde büyük bir zaman veri ön işleme için ayrılacak çünkü veriler analize hazır gelmeyecek.
- 01:24Veri Ön İşleme Süreci
- Veri ön işleme için öncelikle veriyi tanımlamak ve istatistiksel analizler yapmak gerekiyor.
- Veri ön işleme aşamasından sonra EDA (Exploratory Data Analysis) yani veriyi tanımlayıcı analiz yapılmalı.
- Veri madenciliğinde ilk adım veri toplama, sonra veri ön işleme ve son olarak analiz aşamasına geçilmesi gerekiyor.
- 02:41Veri Tanımı
- Veri, özelliklerden ve nesnelerden oluşan bir yapı olarak tanımlanabilir.
- Veri madenciliğinde veriler genellikle tablo şeklinde tutulur ve her satır bir veri girdisini temsil eder.
- Veri toplama süreci hem zor hem de pahalı bir süreç olabilir.
- 08:13Veri Kavramları
- Veri setindeki satırlar "nesne", "kayıt", "nokta", "durum", "örnek" veya "girdi" olarak adlandırılabilir.
- Veri setindeki sütunlar "özellik", "değişken", "karakteristik", "boyut" veya "alan" olarak adlandırılabilir.
- Veri madenciliğinde doğru kavramları kullanmak önemlidir, aksi halde anlaşmazlıklar yaşanabilir.
- 11:19Veri Toplama Yöntemleri
- Veri toplama için farklı yöntemler bulunmaktadır; gözlem, anket veya soru formları gibi.
- Sayısal bilimlerde genellikle gözlem verileri veya sensörlerden gelen veriler tercih edilirken, sosyal bilimlerde anket verileri kullanılır.
- Veri madenciliğinde veri toplamak, verilerin hazırlanması ve analize uygun hale getirilmesi önemli aşamalardır.
- 12:51Veri Kaynakları
- Veri madenciliğinde genellikle internetten veri setleri alınır ve bu veri setleri Kaggle, UCI gibi açık kaynak sayfalarından indirilebilir.
- İşyerlerindeki veriler genellikle veritabanlarında saklanır ve SQL kullanılarak ilişkisel veritabanlarından veri temin edilebilir.
- Web scraping (web kazımak) yöntemi ile internet sayfalarından verileri çekmek mümkündür ve bunun için Python'da BeautifulSoup veya Selenium gibi kütüphaneler kullanılabilir.
- 16:09Veri Formatları
- Toplanan veriler text, XML, JSON, Excel, CSV gibi farklı dosya formatlarında gelebilir.
- Veri madenciliğinde CSV dosyası tercih edilir çünkü daha standart ve çalışmayı kolaylaştırır.
- Excel dosyalarında Windows, Mac ortamları veya farklı ülkelerde farklı davranışlar sergileyebilmesi nedeniyle sorunlar yaşanabilir.
- 17:52Veri Kaynağının Önemi
- Verinin nereden toplandığı ve hangi güvenirlilikle toplandığı çok önemlidir.
- Veri kaynağının güvenilir olması ve sağlıklı veriler sunması gereklidir.
- Yanlış veriler üzerine yapılan analizler ve çıkarımlar yanlıştır, bu nedenle veri setlerindeki yanlışları elenmek önemlidir.
- 20:07Veri Seti Örneği
- Örnek bir veri seti alarak nasıl alınır ve bilgisayarda işlemeye hazır hale getirilir gösterilecektir.
- UCI dataset deposundan bir veri seti seçilip, verinin profiline gidilerek data folder'ın içerisindeki veriler gözlemlenecektir.
- İndirilen veri seti Jupyter Notebook üzerinde açılacaktır.
- 21:05UCI Veri Seti Deposu
- UCI dataset, 585 farklı veri setinin bulunduğu bir depodur.
- Bu veri setleri performans ödevleri, yüksek lisans veya doktora tezleri için kullanılabilir.
- Açık kaynak veri setleri olduğu için, üzerinde çok çalışma yapılmış ve algoritmalar bu veri setlerinde denenmiş ve geliştirilmiş.
- 22:47Veri Seti Özellikleri
- "Adult" veri seti, 1966-1996 yılları arasında yapılan nüfus sayımına dayanarak yıllık gelirlerin 50K'nın üzerinde olup olmadığını tahmin etmeye çalışmaktadır.
- Bu veri seti çok faktörlü (multivari) olup, 14 farklı özelliği ve 48.842 gözlem içeriyor.
- Veri setinde bazı özellikleri kategorik, bazıları ise sayısal (integer) olarak gösterilmektedir.
- 25:10Veri Setini İndirme ve Açma
- Veri setini kullanmak için "data folder" kısmından "adult.data" ve "adult.names" dosyalarını indirmek gerekiyor.
- "adult.data" dosyası virgülle ayrılmış değerlerden (comma separated values) oluşan bir veri setidir.
- "adult.names" dosyasında veri seti ile ilgili detaylı bilgiler, nasıl toplandığı, hangi algoritmaların uygulandığı gibi meta veriler bulunmaktadır.
- 29:02Veri Setini Python'da Kullanma
- Veri setindeki sütunlar, yaş (age), iş sınıfı (work class) gibi farklı özelliklerden oluşmaktadır.
- Veri setini Python'da kullanmak için Pandas kütüphanesini kullanabiliriz.
- Jupyter Notebook'da bir hücre çalışıyorken, diğer hücreleri çalıştıramayız, bu durumda hücrede bir yıldız işareti görünür.
- 31:15Veri Seti İşleme
- Veri seti başlangıçta sütun isimlerini doğru şekilde algılamıyor, bu yüzden sütun isimlerini manuel olarak belirtmek gerekiyor.
- Notepad Plus Plus kullanarak sütun isimlerini hızlıca düzenlemek için makro kaydedilebilir.
- Makro kaydedildikten sonra, aynı işlemi birden fazla kez tekrarlayabilirsiniz.
- 36:56Veri Seti Hazırlama
- Veri setinde sütun isimlerini belirttikten sonra, son sütunun (karar değişkeni) ismini de belirtmek gerekiyor.
- Veri seti düzgün şekilde yüklendikten sonra, eksik veriler gibi ön işleme adımlarına geçilebilir.
- Veri setlerini analiz ortamına aktarırken adım adım ilerlemek ve amaçları unutmamak önemlidir.
- 39:19Veri Tipleri
- Verilerin yapısına göre sınıflandırılabilir: müzik verisi, ses verisi, veritabanı verisi, zaman verisi gibi.
- Veriler yapısal (structured) ve yapısal olmayan (unstructured) olarak ikiye ayrılır; yapısal veriler üzerinde çalışmak daha kolaydır.
- E-posta verileri gibi hem yapısal hem yapısal olmayan veriler içeren karmaşık veri setleri de olabilir.
- 42:38Veri Madenciliğinde Veri İşleme
- Veri madenciliğinde veriler öncelikle düzgün bir formata getirilir, analiz edilir ve kategorize edilir.
- Verilerin sınıflandırma veya kümeleme gibi makine öğrenmesi işlemlerine hazır hale getirilmesi amaçlanır.
- Veriyi iyi anlamak ve makineye veya sunum yapılacak kişiyi iyi anlatmak, veri madenciliğinde önemli bir adımdır.
- 43:38Veri Tipleri
- Veri madenciliğinde dört temel veri tipi vardır: nominal, ordinal, interval ve ratio.
- Nominal verilerde sadece eşitlik veya eşitsizlik kontrol edilebilir, sayısal büyüklük-küçüklük ilişkisi yoktur (örneğin göz rengi).
- Ordinal verilerde sıralama ve büyüklük-küçüklük ilişkisi vardır, ancak nümerik olarak ifade edilmesi zordur (örneğin uzun, orta, kısa).
- 46:06Interval ve Ratio Verileri
- Interval verilerinde aralık (örneğin sıcaklık) ve toplama-çıkarma işlemleri yapılabilir, ancak çarpma-bölme yapılamaz.
- Ratio verilerinde tüm matematiksel işlemler yapılabilir ve sıfır noktası yokluk ifade eder (örneğin Kelvin sıcaklığı, yaş).
- Veri tipleri kategorik (nominal ve ordinal) ve nümerik (interval ve ratio) olarak ikiye ayrılır.
- 51:08Veri Dönüşümleri
- Nominal verilerde her bir değer başka bir değerle değiştirilebilir, ancak sayısal değerler niceliksel anlam taşımaz.
- Ordinal verilerde sıralama önemlidir, puanlandırma yaparken oransal ilişkiye dikkat edilmelidir (örneğin, iyi=3, orta=2, kötü=1 şeklinde).
- Interval verilerde dönüşüm yaparken önceki değerle bir katsayı çarpılıp sonra başka bir katsayı ile toplanır, çünkü oransallık yoktur.
- Ratio verilerde oransallık olduğundan, dönüşüm için sadece çarpım işlemi kullanılır (örneğin, metre ile feet dönüşümü).
- 53:44Veri Tiplerinin Sınıflandırılması
- Veri tipleri sürekli ve kesikli değişken olarak sınıflandırılabilir.
- Kesikli değişkenler sınırlı sayıda değer alabilirken, sürekli değişkenler sınırsız sayıda değer alabilir.
- Kesikli verilerde değerler ve sayıları belirliyken, sürekli verilerde küsürat değerleri alabildiği için tam olarak belirlenemez.
- Kesikli veriler (discrete) örneğin TC kimlik numaraları veya bankaya gelen müşteri sayısı gibi, sürekli veriler (continuous) ise metrik verilerdir.
- 55:30Temel İstatistiksel Hesaplamalar
- İstatistik, tanımlayıcı (descriptive) ve çıkarımsal (inferential) iki ana kategoriye ayrılır.
- Tanımlayıcı istatistikte örneklem ve ana kütle arasındaki çıkarım yapılmaz, sadece tanımlama yapılır.
- Ana kütle, gözlem yapılan tüm durumları içerirken, örneklem ana kütleden alınan bir grupdur.
- Temel istatistikte merkezi eğilim ölçüleri ve dağılım ölçüleri incelenir.
- 57:42Merkezi Eğilim Ölçüleri
- Merkezi eğilim ölçüleri, verinin nerede odaklandığını gösterir ve ortalama, medyan ve mod gibi ölçüleri içerir.
- Aritmetik ortalama, tüm sayıların toplamının sayı sayısına bölünmesiyle elde edilir.
- Ağırlıklı ortalama, her verinin ağırlığıyla çarpılıp toplam ağırlığa bölünmesiyle hesaplanır.
- Medyan, veriler sıralandığında ortadaki sayıdır; mod ise en fazla tekrar eden sayıdır.
- Diğer ortalamalar olarak harmonik ortalama ve geometrik ortalama da bulunmaktadır.
- 59:42Merkezi Eğilim Ölçülerinin Yetersizliği
- Sadece merkezi eğilim ölçüleri (ortalama, medyan, mod) incelenmesi yeterli değildir.
- Farklı veri serileri aynı merkezi eğilim değerlerine sahip olabilir (örneğin, 9,9,10,10,11 ve 0,10,10,20 serilerinin aritmetik ortalaması, modu ve medyanı aynıdır).
- Merkezi eğilim ölçüleri sadece verilerin odaklandığı noktayı gösterir, verilerin dağılımını tam olarak yansıtmaz.
- 1:01:30Dağılım Ölçüleri
- Dağılım ölçülerinde verilerin birbirine ne kadar yakın veya uzak olduğu incelenir.
- Aralıklar, çeyreklikler (kantiller) ve IQR (Q3-Q1) gibi ölçüler verinin dağılımını gösterir.
- Standart sapma da verinin dağılımını gösteren bir ölçüdür.
- 1:03:09Normal Dağılım
- En yaygın kullanılan dağılım normal dağılım (Gauss dağılımı, çan eğrisi) olup, doğal dağılım olarak da adlandırılır.
- Normal dağılımda artı/eksi üç sigma arasında kalan değerler yaklaşık %99,70'ye tekabül eder.
- Artı/eksi iki sigma arasında %95, artı/eksi bir sigma arasında ise %68'lik bir veri ile ilgileniyoruz.
- 1:05:14Grafikler
- Histogram (kutup grafiği) verilerin dağılımını gösterir ve kategorideki veri sayısını sütunlarla ifade eder.
- Dağılım grafiği (scatter plot) iki verinin birbirleriyle arasındaki ilişkiyi gösterir.
- Kutu grafiği (boxplot) bir veri setinin maksimum, minimum, medyan, çeyreklik değerlerini ve aykırı verileri gösterir.
- 1:07:36Kutu Grafiği Detayları
- Kutu grafiğinde aykırı veriler (outlier) yıldız veya nokta şeklinde gösterilir.
- Maksimum değer, minimum değer, çeyreklik değerler (Q1, Q3) ve medyan kutu grafiğinde belirli bir şekilde gösterilir.
- Minimumdan veya maksimumdan üç buçuk IQR oranında daha uzak olan veriler aykırı veri olarak kabul edilir.