• Buradasın

    Azure Synapse Analytics ve Sanallaştırma Eğitimi

    youtube.com/watch?v=Cpgtr026dnE

    Yapay zekadan makale özeti

    • Bu video, Abdullah İsi tarafından sunulan bir eğitim etkinliğidir. Abdullah, Devkos Bilişim'de çözüm mimarı olarak görev yapmaktadır.
    • Video, Azure Synapse Analytics (eski adıyla SQL Data Warehouse) platformunda sanallaştırma tekniklerini kapsamlı şekilde ele almaktadır. İçerik, sanallaştırmanın temel prensiplerinden başlayarak, Polybase engine'in görevleri, ETL yaklaşımı, Massive Parallel Processing ve Spark mimarilerini birleştiren Synapse'in yapısı, workspace oluşturma, veri okuma, view ve external table oluşturma, join işlemleri ve sorgu sonuçlarını diske kaydetme tekniklerini adım adım göstermektedir.
    • Eğitim, teorik bilgilerin yanı sıra Azure portal üzerinden pratik demo'lar içermektedir. JSON ve CSV dosyalarının nasıl okunacağı, open rowset fonksiyonunun kullanımı, serverless SQL pool ve Apache Spark pool oluşturma, veritabanı yönetimi ve veri işleme için kanallaştırma yöntemi gibi konular detaylı olarak anlatılmaktadır. Ayrıca, meta veri ve disk veri arasındaki farklar, view oluşturma ve join işlemleri gibi ileri seviye teknikler de gösterilmektedir.
    00:02Azure Snaps ve Sanallaştırma Tanıtımı
    • Bu akşam Azure Snaps üzerinde sanallaştırma konusu ele alınacak.
    • Sanallaştırma hem lokal hem de bulut ortamında yapılabilmektedir.
    • Konuşmacı Abdullah, Devkos Bilişim'de çözüm mimarı olarak görev yapmaktadır.
    00:49Etkinlik Bilgileri
    • 13 Ocak'tan 1 Nisan'a kadar her Çarşamba saat 9'da veri teknolojileri ile ilgili etkinlikler düzenlenmektedir.
    • Mart ayında yayınlanan etkinlik planında Power BI, makine öğrenimi, R-scriptler çalıştırma, notebooklar ve açık oturumlar bulunmaktadır.
    • Bu etkinlik grubu son olup, talepler oluşursa yeni etkinlikler düzenlenecektir.
    01:40Etkinlik İçeriği
    • Önce veri sanallaştırmanın ne olduğu anlatılacak.
    • Veri sanallaştırması Azure Snaps üzerinde veya SQL Server üzerinde PolyBase Engine ile yapılacaktır.
    • PolyBase Engine'de sanallaştırma yapılabilmekte ve bu bir sağlamlaştırma teknolojisi olarak nitelendirilmektedir.
    02:40Sanallaştırma Tanımı ve PolyBase
    • Sanallaştırma, veriyi taşımadan ve formatını bilmeye gerek kalmadan kullanıcılara tablo şeklinde sunabilme imkanıdır.
    • Bu işlem için PolyBase Create Table komutları kullanılmaktadır.
    • PolyBase Engine, Microsoft'un daha önce Appliance'da bulunan bir teknolojidir ve 2016 ile beraber lokalde kullanılabilir hale gelmiştir.
    03:48Azure Synapse Tanıtımı
    • Azure Synapse, önce SQL Data Warehouse olarak isimlendirilmiş, Spark ve çeşitli geliştirmelerle büyüyüp Snap olarak adlandırılmıştır.
    • Snap, farklı formatlardaki ve kaynaklardaki verileri eski el içerisinde dışarı çıkmadan sorgulamayı sağlayan bir araçtır.
    • Snap, ilişkisel veritabanları, data platformları ekosistemleri ve disklerdeki verilere erişim sağlar.
    05:02ETL Yaklaşımı
    • Geleneksel zeka çalışmalarında kaynaklardan veri alınıp dönüştürülerek veri ambarlarına taşınırken, büyük veri dünyasında ETL (Extract, Load, Transform) yaklaşımı tercih edilir.
    • ETL yaklaşımında veri kaynaktan alınır, hedefe yüklenir ve ihtiyaç duyulduğunda sadece o kadar veri dönüştürülür.
    • Veri göllerinde "SMR" (Schema Read) yaklaşımı kullanılırken, veri ambarlarında "SWR" (Schema Write) yaklaşımı tercih edilir.
    06:15Snap'in Çalışma Mantığı
    • Snap'te veriler önce kopyalanır, sonra Polybase engine ile diskteki datalara bağlanır ve metadata saklanır.
    • Formatlarla ilgili değişiklik yapılmadan, yeni dosyalar geldiğinde veya silinen dosyalar için gerçek zamanlı olarak son halini görebilirsiniz.
    • Elde edilen bilgiler gruplandırılıp işe yarar hale getirildikten sonra, fiziksel olarak depolanarak daha performanslı hale getirilir.
    07:57Modern Veri Ambarı Tasarım Yaklaşımı
    • Modern iş zekası yaklaşımı, büyük veri dünyasında çok farklı kaynaklarda ve formatlarda gelen verileri işlemek için kullanılır.
    • Araştırmaya göre firmaların ilgilendiren verilerin sadece %20'si tablo formatında, geriye kalan %80'i JSON, XML, resim veya video gibi formatlarda olabilir.
    • Bu formatlardaki verileri okumak için modern teknikler uygulanmalı ve veri ambarındaki bilgilerle harmanlanarak analitik ortam oluşturulmalıdır.
    09:20Snap'in Mimarisi
    • Snap iki farklı mimari kullanır: Massive Paralel Prosesi mimarisi ve dağıtık mimari.
    • Massive Paralel Prosesi mimarisi, lokaldeki Azure SQL Data Warehouse'un mirası olup, tek bir bilgisayar üzerinde çalışır ve işleri parçalara bölerek performans sağlar.
    • Dağıtık mimaride master makine (driver) ve slave makineler (executor) bulunur, gönderilen işlemler master tarafından alınıp dağıtılır.
    11:19Snap'in Entegrasyon Özellikleri
    • Snap'in SQL Pool tarafı Azure süreçlerine bağlanıp oradaki datayı okuyabilir ve paralel okuma ile yüksek performans elde edilebilir.
    • Spark tarafından disk okunabilir veya Sparkpool'dan SQL Pool'daki tablolara erişim sağlanabilir.
    • Python, Scala, Java gibi farklı dillerle çalışma imkanı sunar.
    13:02Azure Snaps Workspace Oluşturma
    • Snaps Analytics'te ilk olarak bir workspace (çalışma alanı) oluşturulur ve burada SQL pool veya Spark pool oluşturulabilir.
    • Workspace ismi belirlendikten sonra lokasyon olarak genellikle Nord (Kuzey Avrupa) tercih edilir çünkü West'e göre daha hızlıdır.
    • Snaps arka tarafta data lake'lerle çalışır ve bir data lake oluşturulduktan sonra içerisinde bir container (konteyner) oluşturulur.
    13:50Güvenlik ve Ayarlar
    • Azure disklerine data lake'e erişmek için hem kullanıcı hem de servis için data kontrolü tür rolü atanır.
    • Network ve güvenlik ayarları yapılabilir, kullanıcı adı ve şifre belirlenir.
    • Arka tarafta şifreleme uygulanır ve kendi key'iniz de kullanılabilir.
    15:00Workspace Özellikleri
    • Workspace oluşturulduğunda varsayılan olarak bir serverless SQL pool gelir, ayrıca Spark pool da oluşturulabilir.
    • Power BI entegre olabilir ve data faktörü kullanılabilir durumda.
    • İlk oluşturulan serverless SQL pool düşük ücrete sahip olup, ortak bir havuz kullanır ve denemeler için kullanılır, production için uygun değildir.
    17:12Veri İşleme Yöntemi
    • Azure disklerine JSON ve CSV dosyaları atılacak, JSON dosyalarında rüzgar tribini bilgileri, CSV dosyasında tribünlerin şehir bilgileri bulunmaktadır.
    • Veriler diskten kanallaştırma yöntemiyle okunacak ve SQL pool'da sorguların sonucu diske kaydedilebilir.
    • Büyük veri işlemede bu yöntem tercih edilir çünkü transformation adımı ciddi yük bindirir, ekstra kaynaklar gerektirir ve uzun sürebilir.
    19:24Veri Erişim Yöntemleri
    • Azure disklerindeki dosyalara erişmek için "open rowset" fonksiyonu kullanılabilir, dosyanın yolunu ve formatını belirterek sorgu çekilebilir.
    • Her seferinde dosyayı okumak zahmetli olduğu için bir external table oluşturulabilir, böylece veri çekmek daha kolay olur.
    • Dosyaya sağ tıklayıp script seçeneği ile doğrudan çalıştırılabilir.
    20:36SQL Pool ve Spark Pool Oluşturma
    • Snaps workspace'de aktif olan SQL pool'a endpoint kullanılarak bağlanılabilir.
    • SQL pool'a yeni veritabanı oluşturulabilir, isim ve kapasite belirtilerek.
    • Spark pool oluşturmak için "new apache spark pool" seçeneği kullanılır, makine sayısı ve otomatik ölçeklendirme ayarları yapılabilir.
    23:08Snaps Studio Kullanımı
    • Snaps Studio'da sol taraftaki hap kısmından data bölümünde tüm database'ler görüntülenebilir.
    • Serverless veritabanı oluşturulabilir, ancak serverless pool'da tablo oluşturmak ve veri basmak gibi kısıtlamalar vardır.
    • Link bölümünden oluşturulan diski görüntüleyebilir ve içine dosya atabilirsiniz.
    25:30Veritabanında Kolon İsimlerini Değiştirme
    • Lokalden veri çekmek için kolon isimlerini değiştirmek için "width" komutu kullanılır.
    • İlk kolon "tribün id" olarak integer tipinde, ikinci kolon "tribün adı" olarak nvarchar 50 tipinde tanımlanabilir.
    • Veri kaynağını tarif etmek için erişim yetkisi olması gerekir ve bu "creation" yardımıyla erişilebilir.
    26:44Veri Kaynağını Tarif Etme
    • Veri kaynağını tarif etmek için "create abescope credential" komutu kullanılarak isim verilerek oluşturulabilir.
    • "Create external data source" komutu ile veri kaynağı oluşturulabilir ve lokasyon belirtilir.
    • Dosya yolunu belirtmek için kök dizine erişim sağlanabilir ve dosya ismi belirtilerek erişim sağlanabilir.
    29:44CSV Dosyalarını Okuma
    • CSV dosyalarını okumak için "prose" fonksiyonu kullanılır ve sadece data source belirtilir.
    • Veri kaynağını tarif etmek için "create external data source" komutu ile veri kaynağı oluşturulabilir ve lokasyon belirtilir.
    • Dosya yolunu belirtmek için kök dizine erişim sağlanabilir ve dosya ismi belirtilerek erişim sağlanabilir.
    30:16JSON Dosyalarını Okuma
    • JSON dosyalarını okumak için "json" fonksiyonu kullanılır ve dosya formatı belirtilir.
    • JSON dosyasında satır ayracı ve kolon isimleri belirtilir.
    • JSON dosyası okunduğunda içindeki tüm veriler "rawson" olarak isimlendirilir ve kolon isimleri belirtilerek veriler okunabilir.
    32:47Verileri Kalıcı Hale Getirme
    • Verileri her defasında yazmaktansa bir tablo haline getirmek daha akıllıca olur.
    • "Create view" komutu ile tablo oluşturulabilir ve her defasında çıktı okunabilir.
    • Dosya adlarını yıldız olarak yazarak klasördeki tüm dosyaları ve JSON dosyalarını okuyabilirsiniz.
    35:19External Table Oluşturma
    • CSV dosyasını external table ile sabit hale getirmek için "create external table" komutu kullanılır.
    • Önce dosya formatı tanımlanmalıdır, örneğin ayraç ve kolon ayrımı belirtilmelidir.
    • External table oluşturulduktan sonra "select" komutu ile gerçek zamanlı olarak içeriği görüntülenebilir.
    36:54Meta Veri ve Veri Silinmesi
    • Meta veri sadece bir tarafta tutulduğu için, diskteki veriyi silerseniz meta veri etkilenmez.
    • Meta veri silinmez, ancak diskten bilgi okunduğu için meta veri etkilenir ve satır gelmez.
    • Normal tablodan farkı meta verinin sadece bir tarafta tutulmasıdır.
    38:03View ve External Table Kullanımı
    • İki sorgu birleştirilerek view ve external table oluşturulabilir.
    • Tribün ID üzerinden join yapılarak tribün adı, rüzgar ve tarih bilgileri alınabilir.
    • Bu veriler diske kaydedilebilir ve gruplandırılarak tarih bazında özet alınabilir.
    39:17Create Table Select Komutu
    • Create table komutu çalışmadığı için create table select komutu kullanılarak veriler diske kaydedilebilir.
    • Create table select komutu, belirtilen formatta (örneğin CSV) verileri diske basar.
    • Komut çalıştırıldığında belirtilen klasöre (örneğin history) ve tabloya (örneğin agg) veriler kaydedilir.
    42:39Veri Sanallaştırma Avantajları
    • Snaps içerisinde veri sanallaştırması yapılabilir, kaynak ve dosya formatı belirtilerek tablolar oluşturulabilir.
    • Fiziksel olarak diskte kaydedilen veriler silindiğinde, meta veri etkilenmez.
    • Lokasyon silindiğinde tablo tamamen silinir, ancak fiziksel veri silindiğinde meta veri etkilenmez.
    44:08Veri Sanallaştırma Hakkında Genel Bilgi
    • Veri sanallaştırma, arka taraftaki datayı herhangi bir yere taşımadan ihtiyaç olduğunda dönüştürme işlemidir.
    • Eski sorudaki Polybase kurulduğunda daha fazla kaynağa (diskler, ODBC kaynakları, ilişkisel veritabanları ve big data ekosistemleri) bağlanabilir.
    • Veri sanallaştırma, arka taraftaki datayı herhangi bir yere taşımadan ihtiyaç olduğunda dönüştürme işlemidir ve son kullanıcıya temiz formatta tablo sunar.

    Yanıtı değerlendir

  • Yazeka sinir ağı makaleleri veya videoları özetliyor