Buradasın

R Programlama Dili Kapsamlı Eğitim Videosu

youtube.com/watch?v=_V8eKsto3Ug

Yapay zekadan makale özeti

Kısa
Ayrıntılı

Bu video, Barton Polson tarafından sunulan R programlama dili hakkında kapsamlı bir eğitim serisidir. Eğitmen, R'nin veri bilimindeki önemini ve temel kullanımını adım adım anlatmaktadır.
Video, R'nin kurulumu ve temel arayüzü ile başlayıp, veri görselleştirme teknikleri, istatistiksel analiz, veri manipülasyonu, veri okuma ve modelleme yöntemlerini içermektedir. Eğitim, temel grafik oluşturma (plot, histogram, scatterplot), veri yapıları (vector, matrix, array, data frame, list), faktör oluşturma, veri içe aktarma ve çeşitli modelleme teknikleri (hiyerarşik kümeleme, PCA, regresyon) gibi konuları kapsamaktadır.
Eğitim boyunca iris, mtcars ve us judge ratings gibi örnek veri setleri kullanılarak pratik uygulamalar gösterilmektedir. Video, R'de veri analizi yapmak isteyenler için temel bir rehber niteliğindedir ve son bölümde izleyicilere R ile ilgili daha fazla öğrenme için öneriler sunulmaktadır.

00:03R Dili Tanıtımı: R, veri biliminin dili olarak tanıtılmaktadır ve veri madenciliği uzmanlarının en çok kullandığı yazılım olarak anket sonuçlarında Python'dan %50 daha fazla tercih görmüştür.
R'nin önemli özellikleri arasında ücretsiz ve açık kaynak olması, vektör işlemleri için optimize olması ve geniş bir kullanıcı topluluğu bulunması bulunmaktadır.
R'de yaklaşık 9000 katkıda bulunan üçüncü taraf paketler mevcuttur ve "R'de hiçbir şey yapılamaz, sadece nasıl yapılabilir" prensibi uygulanmaktadır.
02:21R Kurulumu: R'yi kurmak için r-project.org adresinden indirme yapılabilir ve en kolay yöntem "Cloud" seçeneğidir.
Mac kullanıcıları için zipped uygulama dosyası, Windows kullanıcıları için "Base" dosyası indirilmelidir.
Kurs için gerekli dosyalar, video sayfasında bulunan "Download Files" bağlantısından indirilebilir ve bu dosyalar R script dosyaları ve veri dosyaları içerir.
04:33R Uygulamasının Kullanımı: R uygulamasında sol tarafta kaynak (script) penceresi, sağ tarafta ise konsol penceresi bulunmaktadır.
Kaynak penceresinde pound işareti, hashtag veya oktet işareti ile başlayan satırlar yorum satırlarıdır ve çalıştırılmaz.
Veri setleri yüklendikten sonra, iris veri seti gibi örnekler kullanılarak veri analizi yapılabilir ve görselleştirme komutları ile veriler görselleştirilebilir.
07:18RStudio Kullanımı: RStudio, R ile birlikte kullanılabilen bir yazılımdır ve farklı işletim sistemlerinde tutarlı komutlar sunarak çalışmayı kolaylaştırır.
RStudio'da tek bir arayüzde tüm bilgiler düzenlenir ve klavye ile kolayca gezinilebilir.
RStudio'da script penceresi, konsol penceresi, ortam penceresi ve grafikler penceresi bulunur ve bu pencereler kullanıcı tercihlerine göre düzenlenebilir.
10:52R Studio'da Temel İşlemler: R Studio'da plot penceresi artık yan tarafta görüntüleniyor ve klavye kısayolları ile kolayca hareket edilebiliyor.
R Studio'da temizlik yapmak için "rattle" paketi kullanılarak paketler temizlenebilir ve "rattle" komutu ile konsol temizlenebilir.
R Studio, R ile çalışmayı daha organize, verimli ve kolay hale getiriyor.
11:53R Paketleri: R'de paketler, analiz yaparken süper güçler sağlayan, yeni fonksiyonlar ekleyen yazılım paketleridir.
İki tür paket vardır: base paketler (R ile birlikte gelen ancak varsayılan olarak yüklenmeyen) ve katkıda bulunan (üçüncü parti) paketler.
Paketleri indirmek için CRAN (R Arşiv Ağı), Crantastic ve GitHub gibi kaynaklar kullanılabilir.
13:33Paket Kaynakları: CRAN (cran.r-project.org) resmi bir R sitesidir ve paketleri konu başlıklarına göre düzenler.
Crantastic (crantastic.org) en son güncellenen ve en popüler paketleri listeler.
GitHub'da "/trending/r" adresi üzerinden en sık indirilen R paketleri görüntülenebilir.
14:59Sık Kullanılan Paketler: Dplyr: Veri çerçevelerini manipüle etmek için kullanılır.
tidyR: Verileri temizlemek için kullanılır.
stringer: Metin bilgilerini işlemek için kullanılır.
lubridate: Tarih bilgilerini manipüle etmek için kullanılır.
httr: Web verilerini işlemek için kullanılır.
ggviz: Etkileşimli görselleştirmeler için kullanılır.
ggplot2: Grafik oluşturmak için kullanılır.
Shiny: Web sitelerine entegre edilebilen etkileşimli uygulamalar oluşturmak için kullanılır.
riodata: Veri içe aktarma ve dışa aktarma için kullanılır.
RMarkdown: Etkileşimli notlar ve zengin belgeler oluşturmak için kullanılır.
pacman: Paket yöneticisi olarak tüm paketleri tek seferde yüklemek için kullanılır.
16:21Paket Yönetimi: Paketleri yüklemek için "install.packages" komutu kullanılır.
Paketleri yüklemek için "require" veya "library" komutları kullanılabilir.
pacman ile tüm paketleri tek seferde yüklemek için "pacman --all" komutu kullanılabilir.
Paketleri kaldırmak için "pacman --unload" komutu kullanılabilir.
Base paketleri kaldırmak için "detach" komutu kullanılmalıdır.
19:17Temel Görselleştirme: İstatistiksel analizlerde temel grafikler, verilerin hızlı bir görsel izlenimi için önemlidir.
R'de temel grafik oluşturmak için "plot" komutu kullanılır.
"plot" komutu veri türlerine ve değişken sayısına göre otomatik olarak uyarlanır.
"plot" komutu için yardım almak için soru işareti ve komut adı kullanılır.
"plot" komutu ile kategorik veriler için üç çubuklu grafik oluşturulabilir.
21:49R'de Veri Görselleştirme: R'de "plot" komutu ile veri görselleştirme yapılabilir ve bu komut otomatik olarak verinin türünü (katmanlı veya niceliksel) tespit edebilir.
Niceliksel değişkenler için "plot" komutu otomatik olarak kutu grafiği (box plot) oluşturur ve farklı türler arasında güçlü ayrım gösterir.
İki niceliksel değişken için "plot" komutu, pozitif ilişki gösteren bir dağılım grafiği (scatter plot) oluşturur.
24:06Veri Görselleştirme Seçenekleri: Tüm veri seti için "plot" komutu, dört niceliksel değişken için bir matris şeklinde dağılım grafiği ve her tür için nokta grafiği oluşturur.
"plot" komutuna ek parametreler ekleyerek grafiklerin görünümünü özelleştirebilirsiniz, örneğin renk, nokta tipi ve eksen etiketleri.
"plot" komutu sadece verileri göstermekle kalmaz, formüller kullanarak matematiksel fonksiyonlar (cosinüs, üssel dağılım, normal dağılım) da çizebilir.
27:51Bar Grafikleri: Bar grafikleri, basit veri için en temel grafik türüdür ve analizlerde başlangıç noktası olarak kullanılabilir.
Bar grafikleri oluşturmak için "barplot" komutu kullanılabilir, ancak veri formatını düzenlemek gerekebilir.
"table" komutu ile veri özet tablosu oluşturulabilir ve bu tablo "barplot" komutuna verilerek doğru bir bar grafiği elde edilebilir.
32:13Histogram: Niceliksel değişkenler için en temel grafik türü histogramdır.
Histogram, veri ölçeklendirilmiş, ölçülmüş, aralıklı veya oranlı seviyede olduğunda kullanılır.
32:29Histogramlar ve Özellikleri: Histogramlar, verilerin dağılımını görselleştirmek için kullanılır ve dağılımın şekli, simetri, boşluklar ve aykırı değerler gibi özellikleri incelenir.
Histogramlar, verilerin dağılımını anlamak için önemli bir araçtır ve R programlama dilinde kolayca oluşturulabilir.
Iris veri seti, Edgar Anderson'ın (Fisher'ın) 1936'da yayınladığı ve 80 yıl önce geliştirilen bir veri setidir.
34:13R'de Histogram Oluşturma: R'de histogram oluşturmak için "hist" komutu kullanılır ve veri seti ile değişken adı belirtilir.
Histogramlar, verilerin dağılımını gösterir; x ekseninde değerler, y ekseninde ise frekans veya gözlem sayısı yer alır.
Farklı değişkenler için histogramlar incelendiğinde, bazı değişkenlerde (örneğin sepal genişliği) neredeyse mükemmel bir çan eğrisi görülürken, diğerlerinde (örneğin pedal uzunluğu) büyük boşluklar ve farklı dağılımlar tespit edilebilir.
36:04Gruplara Göre Histogramlar: Gruplara göre histogramlar oluşturmak için "par" parametresi kullanılır ve "c" ile belirtilen kombinasyon, kaç satır ve sütun olacağını belirler.
"hist" komutuna "filter" parametresi eklenerek belirli bir grup için histogram oluşturulabilir.
Bu yöntem, "küçük çoklu" olarak adlandırılır ve aynı ölçekteki farklı grupları karşılaştırmak için kullanılır.
39:45Scatterplotlar ve Özellikleri: Scatterplotlar, iki sayısal değişken arasındaki ilişkiyi görselleştirmek için kullanılır.
Scatterplotlarda incelenecek özellikler: doğrusal ilişki, heteroskedastiklik (yayılma), aykırı değerler ve korelasyondur.
"mtcars" veri seti, 1974'teki araç test verilerini içerir ve ağırlık ile kilometre başına yakıt tüketimi arasındaki ilişkiyi incelemek için kullanılabilir.
42:27Scatterplot Örneği: Scatterplot, iki sayısal değişken arasındaki ilişkiyi görselleştirmek için kullanılır ve her bir veri için bir nokta gösterilir.
"mtcars" veri setinde ağırlık ve kilometre başına yakıt tüketimi arasındaki ilişki incelendiğinde, ağırlık arttıkça yakıt tüketiminin azaldığı bir aşağı doğru eğimli çizgi görülür.
Veri setinde ağırlıkları 5 ton olan araçlar yaklaşık 10 kilometre/kilometre yakıt tüketirken, ağırlıkları 2 ton altındaki araçlar yaklaşık 30 kilometre/kilometre yakıt tüketir.
43:15Scatter Plot Özellikleri: Scatter plot'a renk, nokta karakteri, boyut ve renk gibi ek argümanlar eklenerek daha detaylı bir görsel oluşturulabilir.
Scatter plot, iki değişken arasındaki ilişkiyi görselleştirmek için en kolay yöntemdir, özellikle bu değişkenler niceliksel olduğunda.
Görselleştirme, analizin ilk adımında yapılması gereken bir adımdır ve sayısal veya istatistiksel çalışmaların giriş noktası olarak kullanılır.
44:48Overlaying Plot'lar: Overlaying plot'lar, bir grafiği başka bir grafiğin üzerine yerleştirmek anlamına gelir ve bu, Picasso'nun "Les Demoiselles d'Avignon" gibi farklı perspektifler sunmayı amaçlar.
Overlaying plot'lar, aynı alanda daha fazla bilgi yoğunluğu sağlayarak daha fazla bilgi ve anlayış sunar.
Overlaying plot'lar kullanırken, farklı grafiklerin birbirini tamamlayıcı ve destekleyici olması gerekir, rekabet etmemelidir.
46:45Histogram Örneği: "animal" paketi içindeki "lynxes" verisi, 1821-1934 yılları arasında Kanada'daki lynx yakalama verilerini içerir.
Histogram, verilerin dağılımını gösterir ve "hist" fonksiyonu kullanılarak oluşturulabilir.
Histogramda "bin" sayısı, "density" seçeneği ve renk gibi parametreler değiştirilebilir.
49:28Normal Dağılım ve Kernel Density: Histogramın normal dağılımla karşılaştırılması için "curve" fonksiyonu ve "dnorm" fonksiyonu kullanılabilir.
Kernel density estimators, normal dağılımdan farklı olarak parametrik olmayan ve verilerin dağılımını takip eden eğrilerdir.
Kernel density estimator'ların "adjust" parametresi değiştirilerek farklı görünümler elde edilebilir.
51:38Rug Plot ve İstatistiksel Özetleme: Rug plot, her veri noktasını gösteren dikey çizgilerle histogramın daha detaylı bir görselleştirmesidir.
R'de temel istatistiksel özetleme için "summary" fonksiyonu kullanılır.
Kategorik değişkenler için "summary" fonksiyonu, niceliksel değişkenler için ise "mean" gibi fonksiyonlar kullanılabilir.
54:27Veri Görselleştirme ve Özetleme: Boxplot grafiği, minimum değer, ilk çeyrek, medyan, ortalama, üçüncü çeyrek ve maksimum değer gibi temel istatistiksel değerleri göstererek verilerin yayılımını hızlıca değerlendirmemizi sağlar.
Medyan ve ortalama değerlerini karşılaştırarak verilerin simetrik olup olmadığını veya skewness (eğim) olup olmadığını anlayabiliriz.
"summary" fonksiyonu, veri setinin tüm değişkenlerini (sepal uzunluğu, sepal genişliği, petal uzunluğu, petal genişliği ve tür) özetleyerek çeyrekler, medyan, minimum ve maksimum değerler gibi temel istatistikleri sunar.
55:50Daha Detaylı İstatistiksel Analiz: "describe" fonksiyonu, "psyc" paketinden gelen ve daha detaylı istatistiksel analizler sağlayan bir araçtır.
"describe" fonksiyonu, örnek boyutu, ortalama, standart sapma, medyan, on yüzde trimlenmiş ortalama, medyan mutlak sapma, minimum ve maksimum değerler, aralık, eğim, kurtosis ve standart hatalar gibi daha fazla istatistiksel bilgiyi sunar.
Grafiksel özetlemeler sonrası "describe" fonksiyonu kullanılarak verilerin daha detaylı analizi yapılabilir.
56:50"describe" Fonksiyonunun Kullanımı: "describe" fonksiyonunu kullanabilmek için önce "psyc" paketini yüklemek gerekir.
"describe" fonksiyonu sadece sayısal değişkenler için kullanılır, kategorik değişkenler için uygun değildir.
"describe" fonksiyonu, veri setinin tüm değişkenlerini özetleyerek daha detaylı istatistiksel bilgileri sunar.
1:00:19Veri Setinde Belirli Örnekleri Seçme: R'de veri setinde belirli örnekleri seçmek için kategorik değişkenler, sayısal değişkenler veya her ikisi de kullanılabilir.
Kategorik değişkenler için örnek seçmek için, örneğin "species" değişkeninin belirli bir değere eşit olduğu durumları seçebilirsiniz.
Sayısal değişkenler için örnek seçmek için, örneğin "sepal length" değişkeninin belirli bir değere eşit veya küçük olduğu durumları seçebilirsiniz.
1:03:51Çoklu Seçiciler ve Yeni Veri Seti Oluşturma: Birden fazla seçici kullanarak, örneğin "species" değişkeninin "virginica" olduğu ve "sepal length" değişkeninin 5.5'ten küçük olduğu durumları seçebilirsiniz.
Sık kullanılan örnek grupları için yeni bir veri seti oluşturabilirsiniz.
Yeni veri seti oluşturmak için, örneğin "iris" veri setinden "species" değişkeninin "satosa" olduğu ve tüm sütunları içeren bir alt veri seti oluşturabilirsiniz.
1:05:25Subsample Kullanımı: R'de yeni bir veri nesnesi olan "isotosa" adında bir veri çerçevesi oluşturuldu.
Subsample, veri çerçevesinin sadece 50 vaka içeren bir alt kümesidir.
Subsample, veri analizinde daha odaklı bir bakış açısı sağlar ve analizleri destekler.
1:06:15Veri Formatları: Veri formatları iki ana kategoriye ayrılır: veri türleri ve veri yapıları.
Veri türleri arasında sayısal (integer, double), karakter (R'de string yerine karakter), mantıksal (true/false), karmaşık sayılar ve "raw" bulunur.
Veri yapıları arasında vektör, matris, dizi, veri çerçevesi ve liste yer alır.
1:07:30Veri Yapıları: Vektör, bir veya daha fazla aynı veri tipindeki sayıdan oluşan bir dizi olup, R'de temel veri nesnesidir.
Matris, iki boyutlu bir veri yapısıdır ve tüm sütunlar aynı uzunlukta olmalıdır.
Dizi, matrisin üç veya daha fazla boyutlu versiyonudur.
Veri çerçevesi, iki boyutlu bir koleksiyon olup farklı veri türlerini (karakter, sayısal, mantıksal) aynı uzunlukta içerebilir.
Liste, en esnek veri formatıdır ve farklı veri türlerini, uzunlukları ve yapıları içerebilir.
1:09:49Veri Türleri ve Örnekler: Veri biliminde "coercion" (veri türünü değiştirme) işlemi önemlidir.
R'de sayısal veriler varsayılan olarak çift hassaslıkta (double) tutulur.
Karakter verileri çift tırnak içinde yazılır ve R'de "string" yerine "karakter" olarak adlandırılır.
Mantıksal veriler "true" veya "false" olarak tutulur ve R'de "boolean" olarak adlandırılır.
Vektör, bir veya daha fazla aynı veri tipindeki sayıdan oluşan bir dizi olup, R'de temel veri nesnesidir.
Matris, iki boyutlu bir veri yapısıdır ve tüm sütunlar aynı uzunlukta olmalıdır.
Dizi, matrisin üç veya daha fazla boyutlu versiyonudur.
Veri çerçevesi, iki boyutlu bir koleksiyon olup farklı veri türlerini (karakter, sayısal, mantıksal) aynı uzunlukta içerebilir.
Liste, en esnek veri formatıdır ve farklı veri türlerini, uzunlukları ve yapıları içerebilir.
1:15:32Veri Yapıları ve Oluşturma: Kolon operatörü kullanılarak 1'den 24'e kadar sayılar oluşturulup, üç boyutlu bir dizi oluşturulabilir.
Veri çerçevesi, aynı uzunlukta ancak farklı türlerdeki vektörleri birleştirebilir.
Cbind fonksiyonu kullanıldığında, veri türleri en genel format olan karaktere dönüştürülür, bu nedenle as.data.frame fonksiyonu kullanılarak veri türleri korunabilir.
1:17:28Liste ve Veri Türleri: Liste, farklı veri türlerini (numeric, character, logical) içeren bir yapıdır.
List içinde başka bir liste oluşturulabilir, ancak bu durumda aynı veriler tekrarlanır.
Veri türleri farklı amaçlarla coerced (dönüştürülebilir) olabilir.
1:18:42Veri Türlerinin Coerced Edilmesi: Otomatik coerced, verilerin en az kısıtlayıcı veri türüne dönüştürülmesidir.
Coerced2 fonksiyonu kullanılarak belirli bir veri türüne dönüştürme yapılabilir.
As.integer ve as.numeric fonksiyonları ile sayısal değerler integer veya double olarak dönüştürülebilir.
1:20:24Matris ve Veri Çerçevesi: Matris, veri çerçevesine dönüştürülebilir, ancak bu dönüşüm veri yapısını değiştirir.
Veri çerçevesi, matrislere göre daha fazla fonksiyona sahiptir.
Veri çerçevesi, verileri daha düzenli bir şekilde listeler ve değişken isimleri otomatik olarak atanır.
1:21:45Faktörler: Faktörler, kategorileri ve bu kategorilerin isimlerini belirten bir veri türüdür.
Faktör, bir vektörün belirli değerlerini ve sıralamasını ifade eder.
Faktörler, sayısal değerler yerine metin etiketleri kullanılarak tanımlanabilir.
1:26:16Faktörler ve Veri Yapısı: Faktörler üç seviyeli olabilir ve değerler altında sayılarla gösterilebilir, bu SPSS gibi programlarda olduğu gibi.
Faktörlerin sırası değiştirilebilir ve bu durumda, R otomatik olarak değerlerin sıralamasını gösterir.
Faktörler sayısal olarak kodlanır ancak etiketler atanabilir ve bu özellikle deneysel araştırmalarda önemli bir avantaj sağlar.
1:28:35Veri Girişi Yöntemleri: R'de veri girişi için manuel olarak veri yazma (ad hoc veri) yapılabilir.
Veri girişi için kolon operatörü, seq (sıra), c (birleştirme), scan ve rep gibi farklı yöntemler kullanılabilir.
R'de atama operatörü olarak <- kullanılır ve bu operatör genellikle Google Style Guide'da önerilir.
1:30:16Veri Girişi Fonksiyonları: Kolon operatörü, iki sayı arasında kolon işareti kullanarak belirli bir aralıkta değerler oluşturur.
seq fonksiyonu, belirli bir aralıkta ve adımla sayılar oluşturur.
c fonksiyonu, farklı değerlerden oluşan bir veri nesnesi oluşturur.
scan fonksiyonu, kullanıcıdan canlı veri girişi yapmasını sağlar.
rep fonksiyonu, belirli bir değeri tekrarlar veya bir seti tekrarlar.
1:34:20Veri İçe Aktarma: R'de veri içe aktarma için CSV, metin, Excel ve JSON gibi farklı dosya formatları kullanılabilir.
Rio paketi, R'in tüm içe aktarma fonksiyonlarını tek bir basit araç içinde toplar ve tutarlı bir syntax sunar.
Örnek olarak, Mozart, Beethoven ve Bach'ın Google Trend'deki popülerliğini gösteren üç farklı veri seti (CSV, metin ve Excel) kullanılabilir.
1:36:55Excel Dosyalarını R'de Okuma: R'de Excel dosyalarını okumak için resmi R dokümantasyonuna başvurulabilir.
R dokümantasyonuna göre Excel 2007 formatındaki dosyaları okumak daha iyi, ancak Excel'de veri tab-delimited veya comma-separated formatında dışa aktarılmalı ve R'de read.delim veya read.csv ile okunmalıdır.
Rio paketi kullanılarak Excel, CSV ve metin dosyaları kolayca R'de okunabilir.
1:38:18Rio Paketinin Kullanımı: Rio paketi ile CSV dosyası import edilirken sadece "import" komutu ve dosya yolu yeterlidir.
Rio paketi ile metin dosyaları ve Excel dosyaları da kolayca okunabilir.
R'de "View" komutu ile veri çerçeveleri görüntülenebilir ve veriler sıralanabilir.
1:40:49R'de Dosya Okuma Komutları: R'de metin dosyalarını okumak için read.table komutu kullanılabilir ve tab-delimited format için separator parametresi belirtilmelidir.
CSV dosyaları için read.csv komutu kullanılabilir ve delimiter parametresi belirtmeye gerek yoktur.
Rio paketi, dosyaları otomatik olarak doğru formatta okuyarak analizlere başlamayı kolaylaştırır.
1:42:31Hiyerarşik Kümeleme: Hiyerarşik kümeleme, verileri benzer gruplara ayırma yöntemidir ve "like with like" prensibine dayanır.
Kümeleme için farklı yaklaşımlar vardır: hiyerarşik yaklaşım, belirli sayıda grup belirleme ve divisive/agglomerative yöntemler.
Bu derste euclidean mesafe ölçüsü, hiyerarşik kümeleme ve divisive yöntem kullanılarak kümeleme yapılacaktır.
1:44:18Kümeleme Örneği: Kümeleme için "mt cars" veri seti kullanılacaktır, bu veri seti 1974'teki motor trend araba testlerini içerir.
Veri setinden sadece önemli değişkenler seçilerek yeni bir veri çerçevesi oluşturulmuştur.
Kümeleme işlemi için "pipes" yöntemi kullanılarak hclust fonksiyonu ile kümeleme yapılmış ve sonuçlar dendrogram şeklinde gösterilmiştir.
1:47:18Hiyerarşik Kümeleme: Honda Civic ve Toyota Corolla gibi benzer araçlar bir arada kümelenirken, Fiat 128 ve Fiat X19 gibi farklı araçlar da bir arada kümelenir.
Ferrari Dino ve Lotus Europa gibi farklı araçlar bir arada kümelenirken, Lincoln Continental, Cadillac Fleetwood ve Chrysler Imperial gibi büyük Amerikan araçları da bir arada kümelenir.
Maserati Bora, diğer araçlardan farklı olarak ayrı bir kümeye yerleştirilir çünkü o dönemde çok farklı bir tür araba olarak görülür.
1:48:13Kümeleme Sonuçlarının Görselleştirilmesi: Kümeleme sonuçlarını daha kolay anlamak için kümelere farklı renkli kutular eklenebilir.
Hornet 4 Drive, Valiant, Mercedes-Benz 450 SL/C, Dodge Challenger ve Javelin gibi araçlar bir kümeye, büyük V8 Amerikan araçları ise başka bir kümeye yerleştirilir.
Maserati Bora, Ford Pantera ile benzer özelliklere sahip olsa da, kümeleme sonuçlarına göre ayrı bir kümeye yerleştirilir.
1:49:14Kümeleme Uygulamasının Kullanım Alanları: Kümeleme, market analizinde, izleyici kitlesini anlamakta ve benzer düşüncelere sahip grupları tespit etmek için kullanılabilir.
R'de varsayılan ayarlarla kümeleme yapmak oldukça kolaydır ve veri setindeki düzenlilikleri, tutarlılıkları ve gruplamaları görmek için kullanılır.
1:49:37Boyut Azaltma ve PCA: Boyut azaltma, veri setindeki gereksiz gürültü ve yardımcı olmayan değişkenleri azaltarak daha anlamlı sonuçlar elde etmeyi amaçlar.
Boyut azaltma, üç boyutlu bir fotoğrafı iki boyutlu gölgelerine benzetmek gibi düşünülebilir; gölgeler iki boyutlu olsa da, üç boyutlu fotoğrafın önemli bilgilerini korur.
Boyut azaltma için en yaygın yöntem, PCA (Principal Component Analysis) olarak bilinen bir yöntemdir.
1:50:45PCA'nın Matematiksel Temeli: PCA, iki değişkenli bir veri setinde, değişkenler arasında güçlü bir doğrusal ilişki olduğunda uygulanır.
Veri setinde bir doğrusal ilişki çizilir ve her veri noktasının bu doğruna olan dikme uzaklıkları ölçülür.
Veri noktaları, bu dikme uzaklıklarına göre doğruna kaydırılır ve sonra döndürülerek daha basit bir boyutta gösterilir.
1:51:45PCA'nın Avantajları: PCA, iki boyutlu bir veri setini bir boyutlu bir veri setine dönüştürür ancak önemli bilgileri korur.
Boyut azaltma, analizi ve yorumlamayı kolaylaştırır ve daha güvenilir hale getirir.
Daha az boyutlu veri seti, verileri daha iyi anlamak ve analiz etmek için daha kolay bir araçtır.
1:52:23R'de PCA Uygulaması: R'de PCA uygulamak için öncelikle gerekli paketler yüklenir ve veri seti seçilir.
Veri setinden gereksiz değişkenler çıkarılarak daha az boyutlu bir veri seti oluşturulur.
PCA işlemi için "prcomp" fonksiyonu kullanılır ve veri seti, merkezleme ve ölçeklendirme seçenekleriyle birlikte bu fonksiyona verilir.
1:54:43PCA Sonuçlarının Değerlendirilmesi: PCA sonuçları, oluşturulan bileşen sayısını ve her bileşenin standart sapma değerlerini gösterir.
Scree plot kullanılarak, hangi bileşenlerin veri setindeki varyansı ne kadar açıkladığını görebilirsiniz.
Biplot (iki boyutlu grafik) kullanılarak, en önemli bileşenler (örneğin ilk iki bileşen) görsel olarak gösterilebilir.
1:57:53Biplot Analizi: Biplot, ilk ve ikinci ana bileşeni gösteren, değişkenlerin katkılarını kırmızı çizgilerle gösteren ve her vaka için isim bilgisi içeren bir grafiktir.
Hiyerarşik kümeleme analizinde Maserati Bora'nın farklı olduğu gibi, biplot analizinde de büyük, ağır ve yavaş araçlar bir yönde, küçük, verimli ve hızlı araçlar diğer yönde yer alır.
Biplot analizi, verilerin büyük ve küçük, yavaş ve hızlı olarak sınıflandırılmasını sağlayarak sonraki analizlere yönlendirme yapar.
1:59:18Regresyon Analizi: Regresyon, "e pluribus unum" (birden fazla değişkenden bir değişken elde etme) prensibine dayanan, birçok değişken kullanarak bir sonuç değişkenini tahmin etme yöntemidir.
Regresyon, birçok versiyon ve adaptasyona sahip olup, veri analizinde esnek ve güçlü bir araçtır.
Regresyon analizinde, veri seti bir "data" nesnesine aktarılır ve değişken grupları tanımlanır.
1:01:26R'de Regresyon Uygulaması: Regresyon analizinde, tüm tahmin edici değişkenler bir "x" matrisi olarak, sonuç değişkeni ise "y" olarak tanımlanır.
Simultaneous entry (aynı anda tüm değişkenleri kullanma) yöntemi, "lm" fonksiyonu ile uygulanır ve sonuçlar "reg" nesnesi olarak saklanır.
Regresyon sonuçları, değişkenlerin katsayıları, standart hataları, t-test değerleri ve olasılık değerleri ile birlikte gösterilir.
2:04:53Regresyon Sonuçlarının Değerlendirilmesi: Regresyon analizinde "R-kare" değeri, değişkenlerin birlikte sonuç değişkenini ne kadar iyi tahmin ettiğini gösterir.
ANOVA tablosu, kalıntılar ve güven aralıkları gibi ek analiz verileri de elde edilebilir.
Kalıntıların histogramı, modelin tahminlerinin doğruluğunu görsel olarak değerlendirmek için kullanılabilir.
2:06:35Farklı Regresyon Yöntemleri: R'de farklı regresyon yöntemleri kullanılabilir: stepwise regresyon, stage-wise regresyon, en kısa açı regresyonu ve en az mutlak değer küçültme ve seçim operatörü (Lasso).
Farklı regresyon yöntemlerinin karşılaştırılması, "r2.comp" fonksiyonu ile yapılabilir.
R, farklı regresyon yöntemlerini sunarak, veri analizinde farklı yaklaşımlar yapma imkanı sağlar.
2:08:28R Eğitiminin Sonu ve Sonraki Adımlar: R'de bazı özelliklerin var olduğunu ve teorik olarak basit bir şekilde uygulanabileceğini belirtiyor.
R'de daha fazla öğrenmek isteyenler için Datalab'da ek kurslar mevcut.
Python, veri biliminde popüler bir programlama dili olup, genel amaçlı bir dil olarak R ile benzer işlevler sunuyor.
2:09:20Veri Görselleştirme ve Makine Öğrenimi: Veri görselleştirme konusunda pratik yapmak önemlidir çünkü R'de kaliteli görsel tasarımlar oluşturmak ayrı bir beceri gerektirir.
Makine öğrenimi, büyük veri kümelerini işlemek ve tahminler yapmak için kullanılan bir yöntemdir.
Makine öğrenimi hem R hem de Python'da ve Datalab'daki diğer mekanizmalarla gerçekleştirilebilir.
2:10:00Ek Kaynaklar ve Kapanış: Yıllık R Kullanıcı Konferansı (R User Conference) ve yerel R kullanıcı grupları (Rugs) bulunmaktadır.
Resmi bir R Günü bulunmamakta, ancak 19 Eylül'de uluslararası bir R Günü kutlanabilir.
Konuşmacı, izleyicilere teşekkür ederek "mutlu hesaplama" dilekleriyle kapanıyor.

R Programlama Dili Kapsamlı Eğitim Videosu

Yapay zekadan makale özeti

Yanıtı değerlendir

R programlama dili öğrenmek zor mu?

R ile veri analizi eğitimi ne kadar sürer?

R'da kapsamlı eğitim nedir?