Yapay zekadan makale özeti
- Kısa
- Ayrıntılı
- Bu video, bir eğitmen tarafından sunulan Python programlama dilinde regresyon analizi konulu bir eğitim içeriğidir. Eğitmen, Caner Erdem'in sayfasından da faydalanmaktadır.
- Video, regresyonun temel kavramlarını açıklayarak başlıyor ve Python'da basit ve çoklu regresyon analizlerinin nasıl yapılacağını adım adım gösteriyor. İçerikte sklearn, matplotlib ve pandas gibi gerekli kütüphanelerin yüklenmesi, veri setinin işlenmesi, regresyon modelinin oluşturulması ve sonuçların yorumlanması detaylı olarak anlatılıyor.
- Eğitimde matematik notlarını etkileyen faktörleri analiz eden bir örnek ve diyabet verisi kullanılarak yapılan bir örnek üzerinden regresyon analizi gösteriliyor. Ayrıca R-kare, ortalama mutlak hata, karesel hata ve RMS gibi istatistiksel değerlerin anlamları açıklanıyor ve katsayıların p değerleri ile anlamlılık seviyeleri değerlendiriliyor.
- 00:01Regresyon Analizi Tanıtımı
- Video, Python ile veri bilimi serisinin ikinci konusu olan regresyon analizini ele alıyor.
- Regresyon analizi ikiye ayrılır: basit regresyon ve çoklu regresyon.
- Basit regresyon y = a + bx formülüyle tanımlanırken, çoklu regresyon y = a + b₁x₁ + b₂x₂ + ... + bₙxₙ şeklinde n tane bağımsız değişken içerir.
- 01:10Regresyon Analizinin Amacı
- Regresyondaki amacımız a katsayısını ve b katsayılarını hesaplamak ve bunların anlamlı olup olmadığını test etmektir.
- Videoda önce basit regresyon, sonra çoklu regresyon örnekleri gösterilecektir.
- Caner Erdem tarafından örnek örnek Python koduyla anlatılan basit regresyon uygulaması paylaşılacaktır.
- 02:12Basit Regresyon Uygulaması
- Basit regresyon için Caner Erdem tarafından anlatılan veri seti kullanılacaktır.
- Veri seti bir x ve bir y değişkenden oluşmakta ve CSV formatında virgüllerle ayrılmış değerler şeklinde yazılmıştır.
- Python kodu çalıştırıldığında, veriler grafik şeklinde gösterilir ve regresyon doğrusu oluşturulur.
- 03:37Regresyon Modelinin Analizi
- Regresyon doğrusunun a değeri sabit değerdir, b değeri ise doğrunun eğimidir ve her bir birim x'in artışında y'nin ne kadar arttığını gösterir.
- Regresyon analizi için sklearn kütüphanesi kullanılır ve "sklearn" yerine "sklearn.linear_model" şeklinde çağrılmalıdır.
- Matplotlib, pandas ve numpy kütüphaneleri de regresyon analizi için gereklidir.
- 06:05Veri Hazırlığı ve Model Oluşturma
- Veri setinde boş değerler varsa, bu değerler ortalama değerle doldurulmalıdır.
- Veri setinde tanımlayıcı istatistikler görüntülenir ve minmaxscaler ile normalizasyon yapılır.
- Regresyon modeli oluşturulduktan sonra, intersept (a) değeri ve coefficient (b) değeri yazdırılır.
- 08:52Regresyon Modelinin Değerlendirilmesi
- R kare değeri, x değişkeninin y'deki değişkenliğin yüzde kaç açıkladığını gösterir.
- R kare değeri %83 olduğunda, x'in y değişkeni üzerindeki etkisinin oldukça önemli olduğu anlaşılır.
- Ortalama mutlak hata, ortalama karesel hata ve RMS (root mean squared error) değerleri de modelin performansını değerlendirmek için kullanılır.
- 09:45Çoklu Regresyon
- Çoklu regresyon, birden fazla x değerinin olduğu durumda regresyon analizidir.
- Çoklu regresyon için "sklearn.linear_model" kütüphanesi kullanılır.
- Çoklu regresyon için farklı bir Excel dosyası (student_mat.csv) kullanılacaktır.
- 10:41Çoklu Regresyon Örneği
- Veri setinde G1, G2, G3 notları bulunuyor ve sadece G3 notunun nelerden etkilendiğini bulmaya çalışılıyor.
- G3 notunu etkileyen bağımsız değişkenler: G1 notu, G2 notu, study time (çalışma süresi), errors (hatalar) ve absence (devamsızlık).
- Veri seti 396 veri içeriyor ve bu veriler model oluşturmak için %80, test için %10 olarak ayrılıyor.
- 12:30Model Oluşturma ve Değerlendirme
- Lineer regresyon modeli oluşturulup, x değişkenlerinin katsayıları ve sabit a değeri yazdırılıyor.
- R-kare skoru kullanılarak modelin açıklayıcı gücü %81 olarak hesaplanıyor.
- Test verileri ile gerçek değerler karşılaştırılarak modelin performansı değerlendiriliyor.
- 16:07İkinci Çoklu Regresyon Örneği
- İkinci örnekte statsmodel kütüphanesi kullanılarak çoklu regresyon yapılıyor.
- Hazır veri seti olarak bulunan diyabet verisi kullanılıyor, bu veri setinde vücut indeksi, serum kolesterol gibi bağımsız değişkenler ve bir yıl sonraki diyabet ilerleme durumunu gösteren target değişkeni bulunuyor.
- Statsmodel kütüphanesi ile regresyon modeli oluşturulup, p değerleri ve anlamlılık seviyeleri değerlendiriliyor.
- 20:44P Değerleri ve Anlamlılık
- P değeri 0,01'den küçükse model anlamlı olarak kabul ediliyor.
- P değeri 0,05'ten küçükse model %95 anlamlı olarak değerlendiriliyor.
- Diyabet verisinde yaş değişkeni anlamlı değilken, diğer bağımsız değişkenler anlamlı olarak bulunuyor.
- 22:53Çoklu Regresyon Analizi
- G2 notu, stay time (çalışma zamanı), hataları ve devamsızlık değişkenleri kullanılarak çoklu regresyon analizi yapılmaktadır.
- SM modeli kullanılarak regresyon özet tablosu oluşturulmuş ve Darwin-Watson katsayısı da gösterilmiştir.
- Regresyon modelinin anlamlılığı %82-83 oranında açıklanmaktadır.
- 23:47Regresyon Katsayıları ve Anlamlılık Değerleri
- G1 notu (G1 notu) G3 notunu anlamlı şekilde etkiliyor, katsayısı 0,15 ve p değeri 0,08'dir.
- G2 notu da anlamlı bir şekilde etkiliyor.
- Çalışma zamanı katsayısı -0,17 olmasına rağmen p değeri 0,01'den küçük olmadığı için anlamlı değildir.
- 25:04Diğer Değişkenlerin Etkisi
- Hatalar katsayısı negatif olmasına rağmen p değeri 0,05'ten küçük olmadığı için anlamlı değildir.
- Devamsızlık anlamlı bir şekilde etkiliyor, katsayısı 0,03'tür.
- Regresyon konusu iki farklı yöntem kullanılarak tamamlanmış ve Caner Erdin'in sayfasından faydalanılmıştır.