• Yapay zekadan makale özeti

    • Bu video, Ali Hürriyatoğlu tarafından sunulan bir eğitim sunumudur. Ali Hürriyatoğlu, bilgisayar mühendisi olup dil veya metin analizi ile uğraşan, Koç Üniversitesi'nde Avrupa Birliği projesi kapsamında çalışan ve sosyal bilimler öğrencilerine eğitim veren bir akademisyendir.
    • Sunum, nitel veri analizi sürecinde araştırmacıların ihtiyaçlarını ve yazılımın bu süreçteki rolünü ele almaktadır. Video, veri toplama, hazırlama ve analiz aşamalarını üç adım olarak bölerek anlatmakta, Python programlama dilini ve Pandas kütüphanesini kullanarak veri analizinde otomasyonun nasıl kolaylaştırılabileceğini açıklamaktadır.
    • Eğitimde ayrıca Jupyter Notebook gibi programlama ortamlarının avantajları, veri toplama yöntemleri (API, JSON, XML), anahtar kelime seçimi, örneklem alma teknikleri, veri temizleme, filtreleme, görselleştirme ve topik analizi gibi temel adımlar örneklerle gösterilmektedir. Linux ve Mac komutları kullanarak veri dosyalarının incelenmesi, meta bilgilerin edinilmesi ve veri temizleme teknikleri de sunumun içeriğinde yer almaktadır.
    Konuşmacının Tanıtımı
    • Ali Hürriyatoğlu, bilgisayar mühendisi olup dil veya metin analizi ile uğraşıyor.
    • Yüksek lisans ve doktora eğitimini bu alanlarda tamamlamış, bir buçuk yıl Hollanda'da istatistik ofisinde çalışmış.
    • Koç Üniversitesi'nde Avrupa Birliği projesi kapsamında dört yıldır çalışmakta ve Türkiye'nin hesaplamalı sosyal bilimlerdeki kapasitesini artırmayı amaçlayan eğitimler düzenliyor.
    01:29Sunumun Amacı
    • Nitel veri analizindeki temel mesele anlam üretmek, fotoğraflar, ses kayıtları ve metinler gibi verilerin içindeki bilgileri anlamaya çalışmak.
    • Sunum, nitel veri analizinde yazılım ve programlamanın rolünü, veri toplama, hazırlama ve analiz aşamalarında nasıl yardımcı olabileceğini anlatacak.
    • Araştırmacılara nasıl yardımcı olunabileceğini, veri toplama, analiz ve görselleştirme konularında hangi araçların kullanılacağını ele alacak.
    05:12Yazılım ve Programlama
    • Yazılım, her yerde bir ses kayıt cihazında bile sesi nasıl kaydedileceğini belirten prosedürler ve komutlar dizisidir.
    • Yazılım kural demektir ve her adımı en ince ayrıntısına kadar öngörülebilir hale getirir.
    • Programlama, bilgisayara veya veriye komut verebilme durumudur ve bu komutlar tekrar tekrar kullanılabilir.
    10:31Programlama Avantajları
    • Programlama dilleri platform bağımsızdır, Windows, Linux gibi farklı sistemlerde çalışabilir.
    • Programlama öğrenmek, yeni yazılım aramak yerine mevcut kodları ve prosedürleri paylaşabilen diğer araştırmacılardan faydalanmayı sağlar.
    • Yazılım dünyasında her şey en ince ayrıntısına kadar tanımlanmış olması gerekir, belirsiz noktalar varsa ya bilinmeyen bir şey var ya da doğru iş yapılmıyor.
    13:15Python ve Pandas Kütüphanesi
    • Python, veri işleri için en çok kullanılan programlama dillerinden biridir ve insan diline (İngilizce) yakındır.
    • Pandas, on yıllık bir kütüphane olup neredeyse hayal edilebilecek bütün veri formatlarını destekler.
    • Yeni veri formatları çıkarsa, pandas destekleyicileri bunu hemen entegre ederler.
    14:11Veri Analizi ve Jupyter Notebook
    • Jupyter Notebook, verileri nasıl erişebileceğinizi ve hangi işlemleri uygulayabileceğinizi gösteren komutlar dizisi sunar.
    • Jupyter Notebook'ta tarayıcıda programlama yapabilir ve dökümantasyonu verinin nereden geldiğini bir arada tutabilirsiniz.
    • Bu ortam hem kendiniz hem paylaştığınız kişiler için açık bir sunum ortamı sağlar.
    15:09Veri İşleme Teknikleri
    • Büyük dosyaları satır satır okuyabilir, Excel dosyalarını açmadan sadece ilk on satırı veya belirli sütunları yönetebilirsiniz.
    • Veri analizi için en önemlisi verinin nasıl, nereden ve ne kadar toplandığıdır.
    • Günümüz online dünyasında açabildiğiniz her şey otomatik işlenebilir, örneğin 20 yıllık haber arşivlerini indirip analiz edebilirsiniz.
    17:35Veri Toplama ve İşleme
    • Otomatik indirme yaparken robot.txt dosyalarına bakmanız gerekir, bazı web ortamları otomatik işlemeyi engelleyebilir.
    • Pandas, R gibi kütüphaneler verileri alabilir ve işleyebilir, text, fotoğraf gibi farklı veri türlerini ayrı şekillerde odaklayabilirsiniz.
    • JSON, XML gibi dosya formatları makinelerin programlama ortamından tutarlı bir yapısı olduğu için veriyi işleyebildiği formatlardır.
    19:37Veri Toplama Kaynakları
    • Twitter, Facebook haber arşivleri API olarak JSON, XML veya R formatında sunulur.
    • Twitter'dan bir gün içerisinde 10-15 milyon tweet indirilebilir, araştırmacılar için büyük veri kaynakları sunar.
    • Veri toplarken anahtar kelimeler kullanmak önemlidir, ancak verinin geldiği yerde eş anlamlılar veya birbirinin yerine kullanılan kelimeler olabilir.
    20:50Word Embedding ve Veri Analizi
    • Word embedding tekniği, beraber geçen ve aynı bağlamlarda geçen kelimeleri daha yakın bir şekilde temsil etmeye başlar.
    • Bu teknik sayesinde milyonlarca dökümandan anahtar kelime listeleri çıkarılabilir ve kelimelerin varyasyonları tespit edilebilir.
    • Semantik anlamsal bağlamda pek çok ilişki otomatik olarak toplanabilir ve üstünden geçilebilir.
    22:16Makine Öğrenmesi ve Veri Sınıflandırması
    • Büyük veri arşivlerinde anahtar kelime kullanmak zorunda değilsiniz, rastgele örneklem alıp okuyabileceğiniz kadarını alabilirsiniz.
    • Sınıflandırılmış veri elde edildiğinde makine öğrenmesiyle bu deseni makineye öğretebilirsiniz.
    • Derin öğrenme modelleri (RNN gibi) video ve text için de kullanılabilir, verinin az olması sorun değil.
    24:17Örneklem Seçimi ve Veri Analizi Araçları
    • Büyük veri kümelerinde rastgele örneklem seçmek önemlidir, örneğin 1000'den 10'luk örneklemler alınabilir.
    • Johnson divergence yöntemi, döküman kümesi arasındaki ilişkiyi bulan ve ne kadar benzer olduklarını gösteren bir yöntemdir.
    • Her veri tipi için araçlar vardır: metin verisi için string processing ve regular expressions, ses kaydı için Google Docs, fotoğraf için özel araçlar, PDF için programlama ortamı.
    28:18Veri Analizi ve Görselleştirme
    • Konuşmacı, ilgi alanlarını analiz ederek hangi konuların en çok geçtiğini ve tekrar edip etmediğini inceliyor.
    • Veri kümesinde 152 doktora öğrencisi bulunuyor ve bu sayı toplam verinin üçte birini oluşturuyor.
    • Pandas kütüphanesi kullanılarak veri filtreleniyor ve farklı ilgi metinleri topiklere bölünerek özet bilgi elde ediliyor.
    30:04Görselleştirme ve Dikkat Edilmesi Gerekenler
    • Veri analizinde tek bir analiz ve görselleştirme yeterli değil, farklı açılardan bakıldığında farklı görünümler oluşabilir.
    • Harita görselleştirmelerinde popülasyon etkisi nedeniyle bazı şehirler (örneğin İstanbul) daha parlak görünür, bu nedenle verilerin normalize edilmesi gerekiyor.
    • Renk seçimi görselleştirmede çok önemlidir ve programlama dilleri varsayılan ayarlar sunsa da bu ayarlar değiştirilebilir.
    31:27İleri Analiz Yöntemleri
    • Veri temizlendikten ve analiz edilecek kodlar tespit edildikten sonra istatistik yöntemleri kullanılabilir.
    • Görselleştirme konusunda özelleşmiş yazılımlar (örneğin MaxQDA) kullanılabilir, ancak bu yazılımlar da karar verme sorumluluğunu kullanıcıya bırakır.
    • Veri analizinde dikkat edilmesi gereken noktalar: verinin nerede üretilmiş olduğu, örneklemin temsil edici olup olmadığı ve ne zaman toplandığı.
    33:12Sosyal Konut Projesi ve Programlama Önemi
    • Konuşmacı, sosyal konut projesi kapsamında eğitim, yaz okulu ve yüksek lisans programları düzenlediklerini belirtiyor.
    • Bilgisayar kullanmayı öğrenmek artık vazgeçilmez bir beceri haline gelmiş, programlamayı öğrenmek ise araştırmacılar için ciddi bir entellektüel uğraştır.
    • Programlama, fikir sahibi olmayı ve akıl yürütmeyi sağlar, bu da öngörülerin gelişmesine katkı sağlar.
    34:50Veri Temizleme ve Görselleştirme Örneği
    • Veri dosyasında ilk altı satır meta bilgi içerir ve bu bilgiler okunarak verinin hangi satırlardan başladığı tespit edilebilir.
    • Linux ve Mac komutları kullanılarak dosyada kaç satır ve kelime olduğu, belirli filtrelerle veri filtrelenmesi yapılabilir.
    • Veri temizliğinde küçük harf farklılıkları ve farklı yazım biçimleri dikkate alınmalı, bu sayede veri kümesi daha düzenli hale getirilebilir.
    39:48Topiklerin Tespiti ve Görselleştirilmesi
    • Topiklerin tespiti zor bir konu olabilir, farklı yöntemlerle denenebilir.
    • Topikler tespit edildikten sonra her konu için en spesifik ve temsil edici girdiler görülebilir.
    • Topikler görselleştirildiğinde birbirinden ne kadar uzak olduğu ve hangi kelimeleri içerdiği hakkında bilgi edinilebilir.

    Yanıtı değerlendir

  • Yazeka sinir ağı makaleleri veya videoları özetliyor