• Buradasın

    Veri Madenciliği Eğitim Videosu: Veri Hazırlama ve Dönüşüm

    youtube.com/watch?v=7rKepb65mro

    Yapay zekadan makale özeti

    • Bu video, bir konuşmacı tarafından sunulan veri madenciliği konusunda eğitim içeriği içeren bir ders formatındadır.
    • Video, veri madenciliğinin temel aşamalarından olan veri hazırlama sürecini kapsamlı şekilde ele almaktadır. İlk bölümde veri hazırlamanın önemi, temel değişken tipleri ve veri hazırlama aşamaları (veri temizleme, birleştirme, indirgeme, dönüştürme, kayıp veri ve aykırı değer) anlatılırken, ikinci bölümde veri indirgeme yöntemleri ve veri dönüşümünde kullanılan teknikler (düzeltme, bir araya getirme, genelleme, normalleştirme ve özellik oluşturma) detaylandırılmaktadır.
    • Videoda özellikle normalleştirme yöntemleri (en küçük, en büyük normalleştirme, Z skoru normalleştirme ve ondalık ölçekleme) ve veri sıkıştırma, büyük sayıların indirgenmesi gibi teknikler hakkında kapsamlı bilgiler sunulmaktadır.
    00:01Veri Madenciliği ve Veri Hazırlama
    • Veri madenciliği, farklı kaynaklardan gelen verilerin birbiriyle uyumlu olması gereken bir süreçtir.
    • Bu ünitede veri madenciliğinin ilk aşamalarından olan verinin hazırlanması konusu işlenecektir.
    • Veri madenciliğinde veri, veri dosyalarından, veri tabanı yönetim sistemlerinden veya uydu üzerinden gelebilir.
    01:34Veri Hazırlama Amacı
    • Veri hazırlama, ham verinin analize hazır duruma getirilmesi amacıyla yapılan işlemler bütünüdür.
    • Veri hazırlama amacının amacı, ham verinin yapısında bulunan hataları ortadan kaldırmak ve farklı kaynaklardan gelen verinin bütünlüğünü sağlamaktır.
    • Veri hazırlamada kullanılan işlemler veri madenciliği çıktı kalitesini artırıcı yönde olacaktır.
    02:21Temel Değişken Tipleri
    • Veri madenciliğinde, canlı-cansız varlıklar veya olayların sahip oldukları ve birbirlerinden ayırt edilmesine yardımcı olan değişkenler "özellik" olarak adlandırılır.
    • İlgili özelliğe ilişkin bilgi edinilmek istenen varlıklar veya olaylar "nesne" olarak adlandırılır ve veri seti tablosunda satırlarda yer alır.
    • Ölçme, birimlerin sahip olduğu özelliklerinin derecesinin belirlenerek sonuçların sayısal olarak ifade edilmesidir.
    03:36Ölçekler ve Değişken Tipleri
    • Ölçek, ölçmeye konulan özelliklerin sınıflanması, sıralanması, derecelendirilmesi veya miktar ve derecelerin belirlenmesi için uyulması gereken kuralları belirleyen ölçme aracıdır.
    • Sınıflayıcı ölçek, gözlem değerlerinin tek tek nitel kategori ya da sınıflara atanması sonucu oluşan ölçektir (örneğin cinsiyet değişkenindeki kadın-erkek sınıflaması).
    • İsimsel değişkenler sayısal formda olabilir ancak matematiksel hesaplama için uygun değildir (örneğin cinsiyet 1 ve 2 olarak ifade edilebilir).
    04:46Diğer Değişken Tipleri
    • İkili değişkenler, sadece iki şekilde ortaya çıkan değişkenlerdir (örneğin erkek ve kadın).
    • Ordinal değişkenler, isimsel değişken tipine benzer olmakla birlikte, değişkenin almış olduğu değer derecesi bakımından sıraya dizilmesinde önemlilik gösterir (örneğin akademik ünvanların düzey bakımından derecelendirmesi).
    • Tam sayılı değişkenler, almış oldukları değerlerin tam sayılar ile ifade edildiği değişkenlerdir (örneğin markette satılan ekmek sayısı).
    06:02Nicel Değişken Tipleri
    • Aralıklı ölçeklendirilmiş değişken, sıra gösteren değişkenin tüm özelliklerini içermekle birlikte birimler arasında özellik farklarının matematiksel olarak belirlenebildiği bir değişkendir (örneğin hava sıcaklığı ölçümü).
    • Oranlı ölçeklendirilmiş değişkenler, aralıklı ölçeklendirilmiş değişkenlere benzer olmakla beraber, başlangıç noktası tüm ölçüm araçlarında aynı anlamı taşır ve yokluğu ifade eder (örneğin kilogram veya gram).
    • Değişken tipleri özelliklerine göre kategorik (isimsel, ikili, sıra gösteren) ve sürekli (tam sayılı, aralıklı, ölçeklendirilmiş, oranlı ölçeklendirilmiş) değişkenler olarak iki grupta toplanabilir.
    08:24Veri Temizleme ve Gürültülü Veri
    • Veri temizleme aşaması, veri kalitesi problemlerini fark etme, doğrulama ve veri yapısındaki eksikliklerin giderilmesi işlemidir.
    • Eksik veri, veri içerisindeki bazı özel değerlerin boş olmasıdır ve anket yanıtlarının eksik olması, veri girişi hataları veya her özelliğin her nesneye uygulanamaması gibi nedenlerden kaynaklanabilir.
    • Gürültülü veri, veri veriş içerisinde beklenen değerlerden sapan aykırı değerler veya hatalardır ve bölmeleme, kümeleme, bilgisayar ile insan denetiminin iyileştirilmesi ve regresyon yöntemlerinden yararlanılarak giderilebilir.
    10:11Tutarsız Veri ve Veri Birleştirme
    • Tutarsız veri, verinin veritabanına kayıt işlemleri esnasında ortaya çıkan hatalardır ve dış veri kaynaklarının kullanılarak elle düzeltilebilir.
    • Veri birleştirme, çoklu kaynaklardan gelen verinin uygun bir veri ambarında birleştirilmesi işlemidir.
    • Veri birleştirme aşamasında şema birleştirmesi, fazla veri sorunları ve veri değeri karmaşasının belirlenmesi ve çözümlenmesi olmak üzere üç temel konu öne plana çıkar.
    10:59Veri İndirgeme Yöntemleri
    • Büyük veri kümelerinin madenciliği uzun zaman aldığından, verilerin olduğu gibi analiz edilmesi pratik değildir.
    • Veri indirgeme yöntemleri, veri küpleri birleştirme, boyut indirgeme, veri sıkıştırma ve büyük sayıların indirgenmesi gibi yöntemlerle daha küçük hacimlere indirgenmiş veri kümeleri oluşturmak için kullanılır.
    • Bazı durumlarda, orijinal veri kümelerindeki özellikler gerekli bilgiyi içerse de veri madenciliği algoritmaları için uygun yapıda olmayabilir.
    11:49Veri Dönüşümleri
    • Sinir algoritmalarını temel alan metotlar sadece 0, 1 değerleri ile çalışabildiği için standart ölçü birimleri ölçülmüş değişkenlerin gerekli dönüşümü yapılmalıdır.
    • Veri dönüşümünde verilerin veri madenciliği için uygun formlara dönüştürülmesi, düzeltme, bir araya getirme, genelleme, normalleştirme ve özellik oluşturma işlemleri gerçekleştirilir.
    • Normalleştirme veya standartlaştırma en çok kullanılan dönüştürme işlemidir ve en büyük-en küçük normalleştirme, Z skoru normalleştirme ve ondalık ölçekleme yöntemleri kullanılır.
    12:30Normalleştirme Yöntemleri
    • En büyük normalleştirme yöntemi, değişkenin aldığı değerlerin en küçük değerden farkının, en büyük değer ile en küçük değer arasındaki farka oranı şeklinde uygulanır.
    • Z skor normalleştirme yöntemi, değişkenin aldığı değerlerin aritmetik ortalamasından farkının, değişkenin standart sapmasına oranı şeklinde uygulanır.
    • Ondalık ölçekleme yöntemi, değişkenin aldığı değerlerin dönüşümü sonucunda elde edilecek değerlerin mutlak değerinin en büyüğünün birden küçük olmasını sağlayacak bir j tam sayı değeri ile onun kuvvetine oranı şeklinde uygulanır.

    Yanıtı değerlendir

  • Yazeka sinir ağı makaleleri veya videoları özetliyor