Yapay zekadan makale özeti
- Kısa
- Ayrıntılı
- Bu video, Şadi Evren Şeker tarafından sunulan interaktif bir eğitim dersi formatındadır. Şadi Evren Şeker, Şehir Üniversitesi'nde çalışan bir akademisyen ve "Bilgisayar Kavramları" YouTube kanalının sahibidir.
- Sunumda büyük veri, veri madenciliği, veri bilimi ve ilgili teknolojiler detaylı olarak ele alınmaktadır. Video, büyük verinin tanımı (5V: hacim, hız, doğruluk, çeşitlilik, değer), veri madenciliğinin aşamaları (tanişleme, tahmin, önerici), NoSQL teknolojileri, streaming data mining ve veri güvenliği gibi konuları kapsamaktadır. Ayrıca Web 1.0, Web 2.0 ve Web 3.0 gibi internet evrimi, semantic web ve IoT gibi teknolojik gelişmeler de anlatılmaktadır.
- Sunumda ayrıca veri ambarı (data warehouse), ETL işlemlerinin önemi, veri analizi süreçleri ve modern teknolojilerin (MapReduce, NoSQL) büyük veri işlemedeki rolü örneklerle açıklanmaktadır. Türkiye'deki büyük veri uygulamaları, sosyal medya platformlarındaki içerik sahipliği tartışmaları ve teknolojinin bilişim sektöründeki iş imkanlarına etkileri de tartışılan konular arasındadır.
- 00:13Sunumun Tanıtımı
- Konuşmacı Şadi Evren Şeker, büyük veri konusunu ele alacak.
- Konuşmacı, konuları açarak katılımcıların sorularına göre içeriği belirlemelerine izin verecek.
- Şadi Evren Şeker, Şehir Üniversitesi'nde akademik görevde bulunuyor ve "Bilgisayar Kavramları" adlı bir YouTube kanalı ve web sitesi sahibi.
- 02:39Büyük Veri Kavramı
- Büyük veri, veri madenciliği, veri bilimi, veri yönetimi ve veri sahipliği gibi kavramlar analytics kelimesi altında birleştirildi.
- Analytics, bilgisayar bilimleri ile ilgili hemen hemen her şeyi büyük veri çatısı altında kapsayan yeni bir trend olarak görülüyor.
- Büyük veri, verinin tasarlanması, sahipliği ve yönetimi gibi pek çok konuyu içine alıyor.
- 03:29Büyük Veri Pazarı
- IBM, Huawei, Microsoft, Google gibi tüm büyük firmalar büyük veri teknolojisi üzerine yatırım yapıyor.
- Türkiye'de büyük firmaların hepsinin gündeminde büyük veri var, ancak henüz tamamen verilerini büyük veriye taşıyabilmiş bir firma yok.
- SAP gibi ERP çözümleri kullanan firmalar, SAP'nin in-memory teknolojisi sayesinde büyük veriye geçiş yapabiliyor.
- 05:05Büyük Veri Teknolojisinin Gelişimi
- Büyük veri teknolojisi, 2003-2004 yıllarında sosyal ağların yayılmasıyla birlikte Yahoo tarafından başlatıldı.
- Arama motorlarında en büyük problem, çok fazla veriyi diskte saklayıp RAM'e yüklemek yerine, RAM'de tutabilmek ve anlık olarak veriye ulaşabilmek.
- NoSQL teknolojisi, SQL'in aksine veritabanı yönetim sistemlerinin alternatifi olarak ortaya çıktı ve R dilini kullanarak istatistiksel komutlar verilebiliyor.
- 07:33Veri Madenciliği ve Veritabanları
- Zaman serisi analizi yaparken hazır moving average'ı kullanabilirsiniz, ancak her platform kendi kütüphanelerine uygun şekilde yeniden modifiye ediyor.
- Data mining kavramı, KDD (Knowledge and Data Discovery) adı verilen daha geniş bir kavramın içinde yer alıyor ve ön işleme, verinin görselleştirilmesi gibi konuları da içeriyor.
- Büyük veri alanında en önemli kavramlardan biri veritabanları olup, bu konuyla uğraşan herkes bu teoriyi bilmek zorunda.
- 08:28Yapay Zeka ve Veri Madenciliği
- Yapay zekanın altında makine öğrenmesi bulunuyor ve data mining'in içinde genellikle istatistiksel modelleme ile makine öğrenmesi birbirine benzer kabul ediliyor.
- Regresyon analizi istatistiğin altındadır, kn ve cammons gibi algoritmalar ise machine learning'in altında yer alıyor.
- Pattern recognition (örüntü tanıma) istatistiksel modelleme ve makine öğrenmesinin kesişiminde, ikisinden de beslenen bir alandır.
- 09:06Akıcı Veri Madenciliği
- Data mining alanında streaming data mining (akan veri madenciliği) konusu, verinin sürekli değiştiği dinamik ortamlarda çalışmaktadır.
- Twitter gibi platformlarda veri sürekli akıyor ve yeni veri geliyor, bu nedenle işleme hızı çok önemlidir.
- Klasik data mining'de sınıflandırma problemlerinde sınıflar sabittirken, streaming data mining'de sınıflar sürekli değişebilir.
- 10:18Web Evrimi
- Web 1.0, internetin ilk çıktığı dönemde sadece statik web siteleri olan dönemdir.
- Web 2.0, 2002-2003 yıllarında sosyal ağların hayatımıza girdiği ve dinamik web sitelerine geçişin yaşandığı dönemdir.
- Web 3.0, makine merkezli olarak tasarlanan bir web modelidir, Web 1.0 bilgi merkezli, Web 2.0 ise insan merkezli olarak tasarlanmıştır.
- 11:33Semantic Web ve IoT Kavramları
- Semantic Web (anlam bilimsel ağ), kavramlar arasında bir bağlantı kurarak zamansal uyumsuzlukları anlayabilmeyi sağlayan bir sistemdir.
- IoT (Internet of Things), cihazların ve makinaların internete doğrudan bağlanarak kendi aralarında iletişim kurabildiği bir ağdır.
- 3D yazıcılar, evde ihtiyaç duyulan nesnelerin modelini indirip yazıcıdan bastırılarak kullanılabilmesini sağlayacak bir teknolojidir.
- 13:04Web Teknolojileri ve Veri Ambarı
- Web teknolojileri arasında geçişler olmakla birlikte, XML, Flash gibi teknolojiler hayatımızdan kalkmaktadır.
- Veri ambarı (data warehouse), farklı veri kaynaklarını tek bir yapıda toplayarak verimli sorgu yapılmasını sağlayan bir sistemdir.
- ETL (Extract, Transform, Load) işlemleri, farklı formatlardaki verileri aynı standartta toplamayı sağlar.
- 14:53Veri Yönetimi ve SQL
- 1990'larda SQL yazabilen kişiler çok iyi para kazanabiliyordu, ancak günümüzde SQL çok daha kolay öğrenilebilir bir dil haline gelmiştir.
- Yöneticiler artık sadece rutin raporlar değil, daha karmaşık ve esnek sorguları hızlıca almak istemektedir.
- SQL'de karmaşık sorgular yazmak zor olsa da, iş zekası araçları sayesinde yöneticiler bu sorguları basit bir şekilde alabilmektedir.
- 16:25OLAP ve Büyük Veri
- OLAP (Online Analytical Processing) yapısı, karmaşık sorguları hızlıca çalıştırmayı sağlayan bir veri tabanı modelidir.
- Büyük veri, verilerin veri ambarına dönüştürülmesini değil, unstructured (düzenli olmayan) olarak bırakılmasını önermektedir.
- Büyük veri teknolojilerinde "schema on read" prensibi uygulanır, yani veri okunurken belli bir şemaya sokulur.
- 18:15Veri Madenciliğinin Aşamaları
- Veri madenciliğinde üç farklı aşamadan geçilir: descriptive, predictive ve prescriptive.
- Descriptive aşamada eldeki veriden anlam çıkarılır, örneğin hangi iki ürünü birlikte satmanın daha etkili olacağı gibi sorulardan cevap aranır.
- Predictive aşamada tahminler yapılır, örneğin önümüzdeki ay ne kadar satış olacağını veya eksik verileri tamamlamayı hedefler.
- 20:59Prescriptive Veri Madenciliği
- Prescriptive (buyrukçu) veri madenciliği şu anki trendtir ve pazarlama sektöründe en üst teknolojide kullanılır.
- Bu yaklaşım, veri analizi sonucunda doğrudan karar verme imkanı sunar, örneğin şube açma konusunda öneriler sunar.
- Büyük veri tanımı için beş V yaklaşımı kabul edilir: hacim (volume), hız (velocity), güvenilirlik (veracity), çeşitlilik (variety) ve değer (value).
- 23:48Büyük Veri ve Map Reduce
- Map Reduce, büyük veri işleme için kullanılan bir teknolojidir ve paralel programlama prensibine dayanır.
- Büyük veri teknolojileri, veriyi birden fazla işlemciye dağıtarak işler ve sonuçları birleştirir.
- NoSQL teknolojisi, veri büyüdükçe kutuyu büyütme yerine yanına yeni kutular koyarak devam etme prensibine dayanır.
- 27:03NoSQL Teknolojisinin Avantajları ve Dezavantajları
- NoSQL teknolojisi, veriyi farklı yerlerde dağıtabilme ve işletebilmeyi sağlar, bu sayede büyük veri sorunlarını çözebilir.
- NoSQL'in en büyük dezavantajı transaction garantisi vermemesidir, bu nedenle sosyal ağlar ve arama motorları için uygun olabilir.
- Facebook gibi platformlarda paylaşımınızın görülme garantisi %5-30 civarında olup, %100 garantisi NoSQL teknolojisinin dağıtık yapısı nedeniyle sağlanamaz.
- 28:34Büyük Verinin Farklı Uygulamaları
- Büyük veri, farklı amaçlar için farklı sonuçlar çıkarmakta kullanılabilmektedir.
- İstanbul haritası örneğinde, tweet atılan noktalar büyük veri kullanılarak işaretlenmiş olup, bu bir uydu veya hava görüntüsü değildir.
- Büyük veri, sosyal ağlarda kullanıcı aramaları gibi farklı amaçlar için kullanılabilmektedir.
- 31:18Data Mining Çalışmaları
- Twitter'da akan tweetler üzerinde "sentimental polarity" (duygusal kutupsallık) analizi yapılarak tweetlerin olumlu veya olumsuz olduğu belirlenebilir.
- Obama konuşma örneğinde, konuşma sırasında atılan tweetler anlık olarak analiz edilip, eyaletlere göre olumlu/olumsuz dağılımı harita üzerinde gösterilebilir.
- Facebook, kullanıcılarına olumlu veya olumsuz tweetler göstererek paylaşım davranışlarını etkileme deneyleri yapmıştır.
- 33:59Veri Güvenliği ve Bulut Teknolojisi
- Verinin her aşamasında güvenliğiyle ilgili problemler vardır; network kartı, işlemci ve yazılım seviyelerinde güvenlik zafiyetleri oluşabilir.
- Bulut teknolojisi ile ilgili en büyük direnç, verinin başka bir yerde saklanması ve erişilebilirlik garantisi verememesidir.
- NoSQL teknolojileri (MongoDB, CassandraDB, HDFS) güvenlik modülleri içerir ve veri şifreleme gibi çözümler sunulmaktadır.
- 37:02Facebook Hesabı ve İçerik Sahipliği
- Facebook hesabının sahipliği konusunda mahkeme görülmesi durumları yaşanmış, Sony'nin bir oyun hesabının satılıp satılamayacağı konusunda mahkemeye başvurduğu örneği verilmiştir.
- Son kullanıcı sözleşmesinde hesabın ve yüklenen içeriklerin sahipliği belirtilmektedir.
- Facebook ve Instagram'da yüklenen içeriklerin kullanıcıların değil, platformların sahibi olduğu belirtilmiştir.
- 38:23Yönetim Bilişim Sistemleri ve Dijital İşletme
- Yönetim bilişim sistemleri ve dijital işletme iki farklı trend olarak tanımlanmıştır.
- Her iki trend de ana akım olarak devam etmektedir.
- Türkiye'de bu alanlara daha çok ilgi gösterilmemesi, ancak Amerika'da ciddi iş pozisyonları olduğu belirtilmiştir.
- 39:52Teknolojinin Merkezi İyileşmesi
- Teknoloji merkezi iyileşiyor, bazı teknolojiler merkezileşebilirken bazıları yerinde olmak zorundadır.
- Sistem yöneticilerinin her firmada gerek kalmayacak, tek bir merkezde toplanacağı öngörülmektedir.
- Yazılım çözümleri farklı problemlere uygulanabilir hale gelecek ve daha kolay uygulanabilir olacak.
- 41:37Kariyer Yapmak İçin Öneriler
- DBA, sistem yöneticisi, güvenlik yöneticisi gibi pozisyonlar için kariyer planları ve eğitim sistemleri sunulabilir.
- Big Data ile ilgili henüz standart bir sertifikasyon veya eğitim planı yoktur, farklı firmalar farklı boyutlardan işe bakmaktadır.
- Bu alana girmek isteyenlerin en iyi yapabileceği şey veritabanı üzerine çalışmak ve piyasa tecrübesi edinmektedir.
- 43:37Eğitim ve Teknoloji
- Farklı organizasyonlar ve şirketler tarafından geliştirilen araçlar, ortak yapıları gerçekleştirecek şekilde tasarlanmaktadır.
- Üniversitede veritabanı temelleri öğretilirken, bu temel üzerine farklı teknolojileri öğrenmek daha kolay olacaktır.
- Büyük veri alanında yedekleme (backup) konusu en kolay konulardan biridir ve kopyalama yöntemi hala devam etmektedir.
- 45:55Etik Sorunlar
- Akıllı saatler gibi cihazlarla kişisel verilerin toplanması ve bunların gelecekteki sağlık sigortası gibi alanlarda kullanılması etik sorunlara yol açmaktadır.
- Kişisel verilerin toplanması ve kullanılması konusunda endişeler bulunmaktadır.
- Güvenlik (privacy) kavramı farklı ülkelerde farklı anlaşımlara sahiptir, örneğin Türkiye'de ve Amerika'da privacy kavramları farklıdır.
- 46:38Gizlilik ve Kültürel Farklılıklar
- Bir devletin terör örgütlerini bulabilmek için vatandaşların verilerine erişim hakkı konusu Türkiye'de evet cevabı alırken, Amerika'da büyük bir çoğunluk hayır diyor çünkü kültür farklılığı var.
- Amerika'da silah edinme hakkı vardır ve bu hak insanların bir gün devlete karşı kendilerini koruyabilecekleri için vardır.
- Gizlilik kavramı teknik mühendisler için muğlak olabilir, ancak aslında kültür, sosyal yapılar ve politika gibi farklı alanlara girer.
- 47:19Gizliliğin Teknik ve Kültürel Boyutları
- Gizlilik teknolojik olarak garanti edilebilir, verilerin kimsenin görmeyeceği şekilde saklanabileceği ve seçim sistemleri gibi uygulamalarla sağlanabileceği gösterilmiştir.
- Ancak teknik olarak sağlanabilse de kültürel nedenlerle (örneğin güven eksikliği) insanların bu sistemlere güvenmemesi mümkündür.
- Angry Birds oyunu örneğinde NSA'nın isteği üzerine arka kapı (backdoor) konulmuş ve oyunu oynayan kişilerin telefonlardaki tüm bilgileri toplanabiliyordu.
- 48:23Biyolojik Veriler ve Kanunlar
- Biyolojik verilerle ilgili Türkiye'de Avrupa Birliği entegrasyonu ile ilgili kanunlar geçmiştir.
- Kanunlar sayesinde ileride bu tür verilerin toplanması engellenmeye çalışılacaktır.
- Kanunların çıkması genellikle önce suçun işlenmesi ve sonra o suçla ilgili bir kanun yapılmasıyla gerçekleşir.
- 49:20Sosyal Ağlar ve Veri Toplama
- Sosyal ağlar henüz yeni bir teknoloji olup, 2012-2013 yıllarında 10-13 yaşındaki çocuklar bile kullanmaya başlamıştır.
- Facebook gibi platformlarda her gün dünyaya 1 milyon kişi daha ekleniyor ve sahte profiller de bu platformlarda bulunmaktadır.
- Yapay zeka ve istatistiksel yöntemlerle sahte profillerin tespiti yapılabilmekte, ancak her zaman yüzde yüz başarı elde edilemez.
- 50:44Big Data ve Örnekleme
- Rice testi (pirinç testi) adı verilen istatistiksel yöntemlerde, tüm veriyi sorgulamak yerine örnekleme yapılarak tahminler yapılır.
- Big data ile örnekleme (sampling) yöntemi yıkılmıştır, çünkü artık tüm veri işlenebilir durumda olduğu için anında tüm veriden sonuca ulaşılabilmektedir.
- Bill Gates gibi kişiler internet kullanımını artırmaya çalışıyor çünkü kullanıcı sayısı arttıkça hem iyi hem de kötü anlamda etkiler oluşmaktadır.
- 52:24İnternet Erişimi ve Enerji
- Google, internet erişimini artırmak için internet balonları gibi teknolojiler geliştirmektedir.
- Bill Gates'in şu anki dertlerinden biri de enerjidir, çünkü internete bağlanmak için elektrik gereklidir.