• Yapay zekadan makale özeti

    • Bu video, Yıldız Teknik Üniversitesi'nde Yazılım Kalitesi Araştırma Laboratuvarı ve Indiana Üniversitesi'nde Data to Insight Araştırma Merkezi ile çalışan bir uzmanın TÜBİTAK daveti kapsamında yaptığı sunumudur.
    • Sunum, büyük veri ve veri kalitesi konularını kapsamlı şekilde ele almaktadır. İlk bölümde büyük verinin üç temel özelliği (hacim, hız, çeşitlilik) ve veri kalitesinin önemi anlatılırken, ikinci bölümde veri provenansı kavramı ve Open Providence modeli gibi spesifikasyonlar açıklanmaktadır. Ayrıca, veri kalitesini etkileyen faktörler ve veri kalitesi yönetimi için gerekli disiplinler detaylı şekilde sunulmaktadır.
    • Sunumda Türkiye'deki büyük veri kullanımının biyoloji, sağlık, atmosfer bilimleri ve coğrafi bilimler gibi farklı alanlardaki uygulamaları da ele alınmakta ve veri analizi sürecinin doğrulanması, veri paylaşımını artırmak ve veri güvenilirliğini sağlamak için veri provenansı yönetiminin önemi vurgulanmaktadır.
    Giriş ve Büyük Veri Özellikleri
    • Konuşmacı, büyük veri ve veri kalitesi üzerine TÜBİTAK destekli bir projeden bahsedecek.
    • Büyük verinin üç önemli özelliği hacim, hız ve çeşitlilik olarak belirtilmiştir.
    • Büyük veri üzerinde gerçek değere sahip bilgiyi çıkarmak için verinin kaliteli olması gerekir.
    01:30Veri Kalitesinin Önemi
    • Veri kalitesi, verinin doğruluğu ve gerçekliği gibi yeni bir boyutla karşılaşmamızı sağlar.
    • Büyük veri içerisinde birçok belirsizlikle karşılaşıldığı için veri kalitesini nasıl sağlayabileceğimiz önemlidir.
    • Eğitim Araştırma Laboratuvarı'nın 2013 yılında yaptığı çalışmada uçuş ve hisse senedi verileri incelenmiştir.
    03:17Veri Kalitesi Örneği
    • Hisse senedi verisi ve uçuş verisi farklı kaynaklardan toplanmış ve en yaygın kullanılan öğeler tespit edilmiştir.
    • Hisse senedi verisi içinde %83 oranında, uçuş verileri içerisinde %93 oranında tutarsızlık görülmüştür.
    • Hisse senedi verisi için tutarsızlıkların önemli bir bölümünün veri değerlerine atanan değerlerdeki semantik belirsizliklerden kaynaklandığı, uçuş verilerinde ise hatalı veri girişinden kaynaklandığı tespit edilmiştir.
    05:59Dünyadaki Veri Kalitesi Durumu
    • Büyük veri üzerinde yapılan projelerin temizliğinin proje süresi ve bütçesinin %30'u ile %80'ini aldığı görülmektedir.
    • Kurumsal şirketlerde hatalı veri oranının %1 ile %5 arasında değiştiği, bazı şirketlerde ise %30'un üzerine çıktığı raporlanmıştır.
    • XML dökümanlarının üçte birinin referans üst verisi olan XML şemalarına uygun olduğu ve tüm XML dökümanlarının sadece %14'ünün uygun XML formatında olduğu görülmüştür.
    07:59Veri Kalitesini Etkileyen Faktörler
    • Veri kalitesini etkileyen faktörler arasında verinin doğruluğu, güncelliği, tutarlılığı, tamlığı, tekrarlılığı, bütünlüğü ve izlenebilirliği bulunmaktadır.
    • Geçtiğimiz yıllarda verinin hız, hacim ve çeşitlilik faktörlerini dikkate alan algoritmalar üretildi.
    • Veri kalitesi yönetimi sağlamak için temel disiplinler arasında data kalite yönetimi, bilginin yaşam döngüsünün kayıt altına alınması ve yönetilmesi, security ve privacy konuları bulunmaktadır.
    10:41Veri Kalitesi Yönetimi ve Destekleyici Disiplinler
    • Veri kalitesi yönetimi sağlamak için veri mimarisine, metadata üst veri yönetimi ve loglama gibi destekleyici disiplinler gereklidir.
    • Veri kalitesi yönetimi sağlamak için kurumda gerçek olması gereken politikalar ve yönetim farkındalığı önemlidir.
    • Veri güdümlü araştırmayı destekleyen fon destekleyicileri tarafından veri kalitesi konusu özellikle vurgulanmaktadır ve Horizon 2020 çağrısında veri kalitesi değerlendirilmesi ve geliştirilmesi büyük veri ile ilgili bir çağrı olarak belirtilmiştir.
    12:49Türkiye'de Büyük Veri ve Veri Türleri
    • Türkiye'de büyük veri farklı kurumlar tarafından oluşturuluyor ve biyoloji, sağlık, atmosfer bilimleri, coğrafi bilimler gibi alanlarda kullanılıyor.
    • Büyük veri iki kategoriye ayrılıyor: sensörlerden gelen gözlemsel veriler ve bu veriler üzerinde uygulanan modellerin oluşturduğu simülasyon verileri.
    • Büyük veri analizleri sonucunda oluşan nihai ürünler paylaşılmakta ve bu verilerin ileriye yönelik muhafazası sağlanmaya çalışılıyor.
    14:03Veri Muhafazası ve Veri Provenansı
    • Eskiden veri üretilip dağıtılıp arşivlenirken, verinin ileriye yönelik kullanılabilmesi için meta veriler ekleniyordu.
    • Günümüzde büyük veri ortamındaki belirsizlikten dolayı veri temizleme, ayrıştırma ve özetleme gibi kararlar alınıyor, bu nedenle verinin ileriye yönelik saklanması için veri provenansı (veri kökü) yöntemi kullanılıyor.
    • Veri provenansı, ham verinin kaynağından nihai ürün haline gelene kadarki tüm yaşam döngüsünün kayıt altına alınmasıdır.
    15:59Veri Provenansının Faydaları
    • Veri provenansı, veri analizi sürecinin doğrulanmasını sağlayarak güven yaratıyor ve büyük veri teknolojilerindeki hataları yakalayabiliyor.
    • Güven yaratan bir veri provenansı ile veri paylaşımı artıyor, telif hakları belli oluyor ve yasal süreçler destekleniyor.
    • Veri provenansı, verinin kalitesini ve güvenilirliğini artırıyor.
    16:51Veri Provenansı Spesifikasyonları ve Uygulamaları
    • Veri provenansı için yaygın kullanılan Open Provenance Model (OPM) spesifikasyonu kullanılıyor.
    • OPM ile verinin yaşam döngüsü içindeki tüm olaylar kayıt altına alınıyor: veri toplanması, ham veri oluşturulması, veri temizliği, büyük veri işleme ortamına girişi ve yayın.
    • İklim verisi üzerinde yapılan bir çalışmada, iklim verisinin iş süreci içerisinde işlenip analizler yapıldığı bir iş süreç yönetim sistemiyle entegre edilmiş ve açık kaynaklı bir veri provenansı elde edilmiştir.

    Yanıtı değerlendir

  • Yazeka sinir ağı makaleleri veya videoları özetliyor