• Buradasın

    Maaşlar Üzerinden Cinsiyet Eşitsizliği ve Makine Öğrenmesi Analizi

    youtube.com/watch?v=i1oDyH3yZl8

    Yapay zekadan makale özeti

    • Bu video, Aysu adlı bir konuşmacının sunduğu veri bilimi eğitim içeriğidir. Aysu, maaşlar üzerinden cinsiyet eşitsizliğini analiz ederek makine öğrenmesi modeli oluşturma sürecini anlatmaktadır.
    • Video, iki ana bölümden oluşmaktadır. İlk bölümde maaşlar üzerinden cinsiyet eşitsizliği analizi yapılarak veri setinin hazırlanması, kategorik ve numerik sütunların incelenmesi, iş tercihleri, eğitim seviyeleri ve maaş farklılıklarının görselleştirilmesi gösterilmektedir. İkinci bölümde ise kategorik verilerin integer'a dönüştürülmesi, korelasyon analizi ve farklı makine öğrenmesi modellerinin (lineer regresyon, random forest, gradient boosting regression, support vector regression, adaboost) doğruluk oranlarının karşılaştırılması yapılmaktadır.
    • Videoda ayrıca yaş, performans değerlendirmesi, kıdem, basebay, bonus ve total pay gibi faktörlerin maaşlar üzerindeki etkileri incelenmekte ve gradient boosting regression'in en yüksek doğruluk oranını elde ettiği belirtilmektedir.
    00:04Veri Analizi Çalışmasının Tanıtımı
    • Aysu, maaşlar üzerinden cinsiyet eşitsizliği olup olmadığını anlamaya çalışacak bir veri analizi çalışması yapacak.
    • Çalışmanın ikinci aşamasında makine öğrenmesi modelleriyle maaş tahmini yapılacak.
    00:18Veri Setinin Hazırlanması
    • Gerekli kütüphaneler kurulup, web seti notebook'a yıkılıyor ve ilk beş ve son beş satır görüntüleniyor.
    • Sütunların içeriği ve tipleri info metoduyla kontrol ediliyor, boş değerler ve tekrarlayan satırlar tespit ediliyor.
    • Ödemeler, baseway ve bonus sütunları toplanarak total pay sütunu oluşturuluyor.
    00:59Kategorik ve Numerik Sütunların İncelenmesi
    • Veri setinin shape'i incelenerek sütunlar kategorik (iş, cinsiyet, eğitim, departman) ve numerik (yaş, performans değerlendirmesi, kıdem, basebay, bonus, total pay) olarak bölünüyor.
    • Kategorik sütunlardaki unique değerler kontrol ediliyor: işlerde grafik tasarımcı, yazılım mühendisi, depo sorumlusu, IT satış sorumlusu, sürücü, finansal analiz, pazarlama sorumlusu, veribilimci ve müdürü; cinsiyetlerde kadın ve erkek; eğitim seviyelerinde üniversite, doktora, master, lise; departmanlarda ise farklı kategoriler bulunuyor.
    • Kategorik sütunlardaki unique değerler sayılıyor: işlerde en çok pazarlama sorumlusu, en az müdür; cinsiyetlerde erkeklerin bir tık daha fazla yoğunlukta olduğu görülüyor.
    02:05Cinsiyetlere Göre İş Tercihleri
    • Cinsiyetlere göre iş tercihleri inceleniyor: kadınlar en az müdür ve yazılım mühendisi iken erkekler pazarlama sorumlusu tercih ediyor.
    • Bu bilgiler heat map ile görselleştiriliyor: kadınlarda en çok pazarlama sorumlusu, erkeklerde en az; erkeklerde en fazla yazılım mühendisliği, kadınlar ise az tercih ediyor.
    • Departman tercihlerinde erkeklerde en çok operasyon, kadınlarda ise satış departmanı tercih ediliyor.
    02:51Eğitim Dağılımı ve Maaş Karşılaştırması
    • Cinsiyetler bazında eğitim dağılımı inceleniyor: kadınların çoğunluğu lise mezunu iken erkeklerin master mezunu.
    • Cinsiyetlerle basebay, bonus ve total pay karşılaştırılıyor: total pay, basebay ve bonuslar arasında erkekler kadınlardan daha fazla maaş alıyor.
    • İş başlığı ve cinsiyet olarak ortalama maaşlar tablo haline getiriliyor ve barplotla görselleştiriliyor: en yüksek maaşların müdürlerde, en düşük maaşların pazarlama sorumlularında olduğu görülüyor.
    04:31Meslek Bazında Maaş Analizi
    • Sadece total pay değil, basebay ve bonus ile de veri gruplaması yapılarak heat map ile gösteriliyor.
    • Her meslekte ve her cinsiyette en yüksek maaş alanlar bir dataframe haline getiriliyor ve çizgi grafiğine dökülüyor.
    • En yüksek maaşlarda en büyük farklar yazılım mühendisi ve IT departmanında görünüyor, minimum maaşlar için ise kadın ve erkek arasında çok büyük fark olmadığı görülüyor.
    06:01Meslek Bazında Ortalama Maaşlar
    • Yaş, performans değerlendirmesi, kıdem, basebay, bonus ve total pay'in her meslek için genel ortalamaları bulmak için bir fonksiyon yazılıyor.
    • Total pay üstünden bakıldığında grafik tasarımcılar da kadınlar daha fazla maaş almış, yazılım mühendisinde erkekler çok daha fazla maaş almış.
    • IT departmanında, satış sorumlularında, sürücüde, finansal analiste kadınlar küçük farkla önde, pazarlamada erkekler daha üstte, veri biliminde kadınlar daha yüksek maaş almış ama performans değerlendirmesi ve kıdemleri erkeklerden daha yüksek.
    07:31Eğitim Seviyesi ve Maaş İlişkisi
    • Eğitim seviyesinin maaşlar üstündeki etkisi inceleniyor: lise mezunlarında erkekler beşbin gibi daha yüksek maaş alıyor, üniversitede bu fark oniki bine çıkıyor.
    • Master ve doktorada bu fark küçülüyor, çizgi grafiğiyle gösterildiğinde erkeklerin maaş miktarı her eğitim seviyesinde daha yüksek.
    • Her meslekte, her eğitim seviyesinde ve cinsiyetlere göre ortalama maaşlar bulunuyor ve cinsiyetsiz bir şekilde eğitimin maaş üstündeki etkisi görselleştiriliyor.
    09:11Kıdem ve Maaş İlişkisi
    • Kıdemin maaşlar üstündeki etkisi inceleniyor: kıdem seviyesi arttıkça maaş da düzenli bir şekilde artmış.
    • Her meslekte, her kıdem seviyesinde cinsiyetlere göre ortalama maaş verisi elde ediliyor ve cinsiyetten bağımsız kıdem seviyesinin maaşları etkisi görselleştiriliyor.
    • Genel olarak cinsiyetlerin arasında maaş farkı olmasına rağmen çoğunlukta kıdem seviyesi arttıkça maaşın arttığı gözlemleniyor.
    11:06Performans Değerlendirmesi ve Maaş İlişkisi
    • Performans değerlendirmesinin maaşlara etkisi inceleniyor: kadın ve erkeğe göre ortalama maaşlar tablo haline getiriliyor ve çizgi grafiğine dökülüyor.
    • Performans değerlendirmesinin maaşlara çok büyük bir etkisi yok, düzenli bir şekilde bir artış veya azalış hiçbir meslekte görüntülenmemiş.
    • Her meslekte maaşlar çok dalgalı ilerliyor, genel olarak performans değerlendirmesine göre bir artış ve azalış olmamış.
    12:10Veri Setinin İncelenmesi
    • Veri setinde genel ortalamada erkeklerin maaşı daha yüksek, ancak meslekler bazında kadınların da ortalamasının daha yüksek olduğu meslekler gözlemlenmiştir.
    • Veri setindeki dağılım, erkeklerin fazla olmasıyla da alakalı olabilir.
    12:51Veri Hazırlama ve Korelasyon Analizi
    • Kategorik veriler integer'a çevrilmek için label encoder kullanılmış ve boş veriler kontrol edilmiştir.
    • Total pay üzerinden çalışıldığı için base pay ve bonus sütunları düşürülmüş, korelasyon heat map'i oluşturulmuştur.
    • Total pay üzerinden yaş ve kıdemin en çok etkiye sahip olduğu, cinsiyetin ise çok büyük bir etkisi olmadığı görülmüştür.
    13:44Makine Öğrenmesi Modelleri ve Doğruluk Oranları
    • Lineer regresyon modeli kullanıldığında doğruluk oranı %64 çıkmıştır.
    • Random forest regresyon modeli için grid search kullanılarak en iyi parametreler bulunmuş ve doğruluk oranı %75 çıkmıştır.
    • Gradient boosting regression modeli en yüksek doğruluk oranını (%84) elde etmiştir.
    • Support vektör regresyon modeli %57 doğruluk oranı vermiş, bu nedenle gradient boosting regression ile kombine edilmiş ve doğruluk oranı %77 çıkmıştır.
    • Adaboost modeli %60 doğruluk oranı vermiş, ancak bu oran çok iyi sayılmamıştır.
    • Modellerin doğruluk oranları karşılaştırıldığında en yüksek gradient boosting regression, ardından support vektör regresyon ve gradient boosting regression kombinasyonu, ardından random forest gelmiştir.

    Yanıtı değerlendir

  • Yazeka sinir ağı makaleleri veya videoları özetliyor