• Buradasın

    Veri Ambarı ve İş Zekası Eğitim Videosu

    youtube.com/watch?v=eAuJ2txcedM

    Yapay zekadan makale özeti

    • Bu video, Bilge Adam kurumsalda danışman ve eğitmen olarak çalışan Özgür Ercekler tarafından sunulan kapsamlı bir eğitim içeriğidir.
    • Video, veri ambarı ve iş zekası konularını detaylı şekilde ele almaktadır. İçerik, OTP sistemleri ile OLAP sistemleri arasındaki farklardan başlayarak, veri ambarı tasarımının temel prensiplerini, SQL Server platformundaki çözümleri, ETL süreçlerini, veri kalitesi kontrolünü ve OLAP küplerinin nasıl oluşturulacağını adım adım anlatmaktadır. Ayrıca star schema ve snowflake schema gibi veritabanı tasarım modelleri, dimension ve fact tablolarının kullanımı ve SQL Server Analysis Services (SSAS) küp oluşturma süreci de detaylı olarak gösterilmektedir.
    • Video, veri ambarı projesi yaparken dikkat edilmesi gereken teknik konuları (donanım gereksinimleri, depolama çözümleri, ağ yapılandırması, güvenlik) ile birlikte, Adventure Works veri ambarı üzerinden pratik örnekler sunmaktadır. Son bölümde ise iş zekası üzerine bitirme projesi yapmak isteyen öğrencilere tavsiyeler ve meslek okulunda öğrenim görenler için yol haritası verilmektedir.
    00:32Giriş ve Konuşma İçeriği
    • Özgür Ercekler, Bilge Adam Kurumsal'da hem danışman hem de eğitmen olarak çalışmaktadır.
    • Konuşma, business intelligence, OTP sistemleriyle OLAP sistemleri arasındaki farklar, veri ambarı tasarımının nasıl olması gerektiği ve küp oluşturma konularını içerecektir.
    • Konuşma iki bölümde olacak: ilk bölümde business intelligence kavramı ele alınacak, ikinci bölümde SQL Server'ın sunduğu platform çözümleri incelenecektir.
    02:02Veri Ambarı Sorununun Doğuşu
    • Şirketler için karlılık oranları, satış temsilcilerinin satış performansı gibi verileri raporlamak ve analiz etmek OTP sistemlerinde zordur.
    • Business intelligence (iş zekası), dağıtık sistemlerdeki verileri bir araya toplayarak veri üzerinde yapılan analizdir.
    • OTP sistemlerinde farklı sistemlerdeki verileri bir araya toplamak ve basit sorulara cevap vermek çok meşakkatli ve performansı düşürüyor.
    04:52OTP Sistemlerinin Sorunları
    • OTP sistemler daha çok insert, update optimizasyonları üzerine yoğunlaşmıştır.
    • OTP sistemlerinde verileri bir araya getirerek analiz yapmak çalışan sistemler için ağır bir yük oluşturur.
    • Bu sorunlar sonucu, basit soruların cevaplarını alma ve farklı veri tabanlarındaki verileri toplama işlemleri için OLAPlar doğmuştur.
    05:53Veri Ambarı Yapısı
    • Veri ambarı, farklı sistemlerden veya birimlerden gelen verileri ortak bir yerde toplamak için kullanılır.
    • Veri ambarı hacimsel olarak diğer veritabanlara göre daha büyük olup, verileri hiçbir şekilde silmeyen ve tarihsel veriyi tutmak için tasarlanmıştır.
    • Veri ambarında önemli olan okuma hızıdır, çünkü raporlama birimleri buradan verileri okuyacaklardır.
    08:21Veri Ambarı Özellikleri
    • Veri ambarlarında incremental load (artiküel yükleme) yapmak gerekir, yani belirli aralıklarla en son kaldığımız yerden veriyi içeri almak önemlidir.
    • Veri ambarı, kurumsal iş zekasının altyapısını oluşturur ve farklı departmanlara merkezi bir noktadan veri dağıtabilir.
    • Veri ambarı, birçok küçük data martın bir araya gelmesiyle oluşan bir yapıdır, ancak tek başına bir data mart tasarlandığında farklı departmanlar arasında bağlantı kurmak mümkün değildir.
    12:08Veri Ambarının Bileşenleri
    • Veri ambarı, farklı kaynaklardan veri alabilen bir sistem olmalıdır; bu kaynaklar insan kaynakları ve finans departmanlarının veritabanları, text dosyaları, Excel dosyaları olabilir.
    • Masterdata management, aynı verinin farklı sistemlerde farklı değerlerde olması sorununu çözmek için gerekli bir süreçtir.
    • ETL (Extract, Transform, Load) süreci, veriyi kaynaklardan alıp, temizleme işlemlerini uygulayıp, sonunda veri ambarına aktarma işlemidir.
    16:41Veri Ambarı ve OTP Sistemleri Arasındaki Farklar
    • OTP sistemlerindeki tablo yapısı ile veri ambarındaki tablo yapısı tamamen farklıdır; OTP sistemlerinde normalizasyon yapılırken, veri ambarında bunun aksine yapılır.
    • Veri ambarında dimensional model adı verilen bir yapı kullanılır ve bu sayede kullanıcılar verileri kolayca sorgulayabilirler.
    • Tek bir noktada tüm verileri korumak ve işlemek güvenlik zafiyeti oluşturmayacaktır, çünkü yetkilendirme ve izinler buna göre düzenlenir.
    20:20İş Zekası Projesi Planlaması
    • İş zekası projesi için fayda-importans matrisi oluşturarak hangi verilerin en faydalı ve önemli olduğu belirlenmelidir.
    • İş zekası projesi başladığında insanlar ilk başta çıktılara seviniyor ancak kendi kullanmaları gerektiğinde alışkanlıklarını değiştirmekten panikli olabilirler.
    • Proje sürecini küçük parçalara bölerek ilerlemek, tek seferde tüm proje yükünü üstlenmekten daha faydalıdır.
    21:56İş Zekası Projesindeki Roller
    • İş zekası projesinde proje yöneticisi, çözüm mimarı, veritabanı yöneticisi, altyapı sorumlusu ve ETL geliştiricisi gibi birçok rol bulunmaktadır.
    • Veri sahipleri (data steward) olarak adlandırılan, verileri iyi tanıyan ve yıllarca bunun üzerinde çalışan kişiler projede kritik öneme sahiptir.
    • İş zekası projesi kod yazmak gibi bir anda başlayabilecek bir proje değil, veriler hakkında detaylı bilgi gerektirir.
    23:41SQL Server Veri Ambarı Platformu
    • SQL Server veri ambarı platformu, teknik kişilerin ayağa kaldıracağı veri ambarı tarafı ve kullanıcıların raporlar görebileceği business tarafı olmak üzere ikiye bölünmüştür.
    • Günümüzde kullanıcıların ihtiyaçları çok çeşitliliğe sahip olduğu için, self-service BI (kendini hizmet eden iş zekası) yaklaşımı benimsenmelidir.
    • Kullanıcıların kendi kendilerine sorgu yapabilme imkanı vermek, sürekli rapor çıkarmak yerine daha etkili bir çözüm sunar.
    25:10Veri Güvenliği
    • Veri güvenliği günümüzde çok tartışılan bir konudur ve kurumlar farklı çözümler uygulamaktadır.
    • İnsan faktörünün en iyi hale getirilmesi için izinler ve yetkilerin doğru şekilde yönetilmesi gerekir.
    • İş zekası projesi tamamlandıktan sonra, kullanıcıların görmesi gereken verilere erişim sağlanması, veri hırsızlığı riskini azaltır.
    26:44Veri Temizleme ve SQL Server Data Quality Services
    • Veri ambarı platformunda veri kaynaklarından çekilen verilerin temizleme işlemi gerekebilir.
    • SQL Server 2012 ile gelen Data Quality Services özelliği, verileri içeri alırken algoritma çalıştırarak benzerlikleri gruplandırıyor.
    • Bu özellik, verileri kendi başına tamamen düzeltmek yerine, gözle kontrol edilebilecek şekilde gruplandırıyor ve data steward'lar bu düzeltmeleri yaparak verileri staging area'ya alıyor.
    30:30ETL İşlemleri ve SQL Server Integration Services
    • ETL (Extract, Transform, Load) işlemleri SQL Server Integration Services kullanılarak gerçekleştiriliyor.
    • Bu servis, veriyi kaynaktan okuyup veri ambarına yazarken veri üzerinde yapılan işlemleri otomatize ediyor ve belirli aralıklarda tekrar tekrar çalıştırıyor.
    • Veri ambarına veri aktarırken incremental load yaparak sadece değişiklik yapılmış veya yeni gelen kayıtları alarak veri ambarının tarihsel olma özelliğini koruyor.
    32:17Veri Ambarı Kullanımı ve Raporlama
    • Veri ambarı oluşturulduktan sonra OLAP küpleri kullanılabilir ve bu küpler üzerinden raporlama yapılabilir.
    • Microsoft, Reporting Services ile nitelikli raporlar yapma imkanı sunuyor.
    • Analisti Services ile OLAP küpleri oluşturulabilir ve veri madenciliği yapılarak geleceğe yönelik tahminlerde bulunulabilir.
    34:02Raporlama Teknolojileri
    • Power Pivot teknolojisi ile kullanıcılar Excel üzerinden kendi verilerini analiz edebiliyor ve workbook boyutu 2 GB'a kadar çıkabiliyor.
    • SharePoint Server kullanılarak kullanıcılara izinler verilerek interaktif raporlar oluşturulabiliyor.
    • Microsoft, veri ambarlarından başlayıp son kullanıcıya raporları nasıl götürüleceğine dair bir çözüm sunuyor.
    36:11Veri Ambarı Tasarım Kriterleri
    • Veri ambarları için düşünülmeye değer bazı konular vardır; OTP sistemlerindeki veritabanı şemaları veri ambarı şemalarından farklıdır.
    • Veri ambarlarında "logical design" olarak kabul edilen dimensional model kullanılır, bu model OTP sistemlerindeki normalize edilmiş verileri farklı bir yapıya dönüştürür.
    • Veri ambarlarında performansı artırmak için "physical design" yapılır; OTP sistemlerinde insert ve update işlemleri yoğun olduğundan bu tarafa yönelik optimizasyonlar yapılırken, veri ambarlarında veriyi hızlı okuma için indeksler, partitioning ve compression gibi teknikler kullanılır.
    38:49Veri Ambarı Projesi Planlama
    • Veri ambarı projesi yaparken disk konumlaması önemlidir; OTP sistemlerinde ve veri ambarlarında temp database kullanım farklılıkları nedeniyle disk yer yetersizliği sorunlarına yol açabilir.
    • Veri ambarı projesi yaparken storage konumlandırması, network bağlantıları, internet bağlantısı gibi detaylar dikkate alınmalıdır.
    • High availability ve disaster recovery planları (backup alıp almayacağınız) proje gereksinimlerine göre değişkenlik gösterebilir.
    40:55Güvenlik ve Veri Kaynakları
    • Güvenlik konusunda server'a, raporlara ve verilere kimlerin erişimi olacağı, roller ve yetkiler belirlenmelidir.
    • Veri ambarı projesinde kullanılan ETL aracı, farklı veri kaynaklarına bağlanabilme özelliğine sahip olmalıdır.
    • Veri kaynaklarına bağlanırken hangi kaynaklardan veri alınacağı (text dosyası, FTP server, veritabanı, web server vb.) ve bu kaynaklara erişim izinleri olup olmadığı önceden belirlenmelidir.
    43:54Veri Formatı ve Güvenlik
    • Veri ambarı projesinde verilerin formatı kritiktir; veri formatını bilmeden veya döküman olmadan çalışmaya başlamak sorunlara yol açabilir.
    • En iyi güvenlik, bilgisayarları değil, insanları yönetmektir; en iyi güvenlik sistemlerine sahip bir şirket dahi olsa, insanlar istedikleri verilere ulaşabilirler.
    45:01Veri Güvenliği ve Veri Ambarı Oluşturma
    • İnsanların veriye erişimini kontrol etmek için inisiyatif gereklidir ve bunu önlemek için odit (audit) yaparak kimin hangi veriye ne zaman eriştiğini kaydetmek önemlidir.
    • Veri ambarı, bir database'den farklı bir şey değildir; aynı şekilde oluşturulur ancak yaklaşımı farklıdır.
    • Verilerin formatını iyi tanıyan kişilerden almak kritiktir ve bu bilgileri döküman halinde saklamak önemlidir.
    47:01Veri Eksikasyonu ve ETL Süreci
    • Veri eksikasyonu, veriyi içeriye ne zaman ve hangi aralıklarda alacağınızı belirlemektir; bu aralıklarda hizmet veremiyor durumunda olabilirsiniz.
    • ETL (Extract, Transform, Load) sürecinde veri kaynağından veriyi alıp staging area'ya yazmak, buradan veriyi dönüştürmek ve son olarak veri ambarına yüklemektir.
    • Incremental load işlemi, sadece güncellenen verileri almak ve tarihsel veriyi kaybetmemek için önemlidir.
    50:40Veri Kalitesi ve Master Data
    • Veri kaynağından alınan veriler tutarsız olabilir (örneğin, farklı sistemlerde farklı adresler), bu nedenle hangisinin master data olduğu belirlenmelidir.
    • Veri kalitesi, veriyi temizlemek ve didaplicationları önlemek için bilgi bankası oluşturmak anlamına gelir.
    • Data quality service, verileri gruplayarak (leading value) ve data steward'un manuel olarak düzenleyerek veri bütünlüğünü sağlar.
    55:10Boyutlu Model
    • Boyutlu modelde hangilerinin fact, hangilerinin dimension olduğu belirlenir.
    • Fact'ler sayısal değerler, dimension'lar ise sözel alanlar (ürünler, çalışanlar, satış temsilcileri) olarak tanımlanır.
    • Raporlama sırasında nasıl görmek istediğinize göre boyutlar (sektör, il, çalışan) ve ne görmek istediğinize göre fact'ler (karlılık, zarar) belirlenir.
    57:15Veri Modelleme Temelleri
    • Fake tablo (mesu grubu tablosu) içindeki quantity review, coast, profit gibi her alan mesudur ve tablonun tüm etkisi veya mesu grubu tablosunda bulunan her öğe mesudur.
    • Veri modellemede id'ler üzerinden tablolar bağlanır; dimension tabloları ve fact tablosu arasında id'ler üzerinden bağlantı yapılır.
    • Dimension tabloları, product id ve product name gibi alanları içerirken, tek tabloda product'ın id'si ve kar zarar gibi diğer değerler bulunur.
    58:29Dimension Tabloları ve Time Dimension
    • Time dimension tablosunda time id bulunur ve bu id günü temsil eder; bu sayede güne göre sorgu alındığında aynı zamanda ay, yıl ve hafta bilgilerine de erişilebilir.
    • Dimensional modelde id'ler fact tablosuna koyularak dimension tablolarına dağıtılır ve name kolonları ile birleştirilir.
    • Bu model, OYATP sistemi için daha kolay ve anlaşılır bir şema sunar.
    59:57Star Schema ve Snowflake Schema
    • Star schema, fact tablosuna doğrudan dimension tabloları bağlandığında oluşur ve dimension tabloları arasında hiçbir bağlantı yoktur.
    • Star schema daha performanslı çalışır çünkü dimension tabloları arasında join işlemi yapılmaz.
    • Snowflake schema, dimension tabloları arasında bağlantılar olduğunda oluşur ve daha performanssız çalışır, ancak iş gerekliliklerine göre kullanılmalıdır.
    1:03:02Dimension Tabloları Özellikleri
    • Dimension tabloları kendine göre de-normalize edilmiş tablolardır; normal OTP sistemlerinde dağıtık olan bilgiler tek bir tabloya toplanır.
    • Dimension tabloları diğer tablolara göre daha geniş olabilir, yani daha fazla kolon içerebilir.
    • Dimension tablolarında join işlemini performanslı hale getirmek için genellikle integer türünde id'ler kullanılır.
    1:05:35Surrogate Key ve Business Key
    • Dimension tablolarında surrogate key (sürükleme anahtarı) ve business key (iş anahtarı) ayrımı yapılır.
    • Surrogate key, veri modelinde kendi oluşturulan benzersiz bir anahtardır.
    • Business key, kaynak sistemlerde kullanılan anahtardır ve zamanla değişebilir, bu nedenle surrogate key kullanılır.
    1:07:53Fact Tabloları
    • Fact tabloları, dimension tablolarına bağlanarak sorgulama yapılabilen verileri içerir.
    • Fact tablolarında quantity, review, cost, profit gibi sorgulama yapılacak alanlar bulunur.
    • Fact tabloları, dimension tablolarına nasıl bağlandığı gösterilir.
    1:08:45Fact Tablosu ve Grain Kavramı
    • Fact tablosunun grain'i, sorgulayabileceğiniz en alt seviyedeki detaydır ve product, sales, person ve geography'nin birlikte kombinasyonudur.
    • Fact tablosunun grainini belirlemek çok kritiktir çünkü bu, tabloyu hangi anahtarlarla sorgulayacağınızı belirler.
    • Grain'de kullanılan keyleri alarak kompozit key oluşturarak fact tablosunun primary key'ini oluşturabilir ve aynı verinin tekrar ekleneceğini engelleyebilirsiniz.
    1:10:32OLAP Küpleri ve Minuslar
    • OLAP küpleri, aggregation metodları (somation, count, distinct count gibi) önceden hesaplayıp kendi hücrelerine yazarak hızlı cevap veren yapılardır.
    • Minuslar üç tür olabilir: editive (agregate edilebilen, örneğin kar, zarar), non-editive (agregate edilemeyen, örneğin marjinler) ve semi-editive (özellikle zaman bazında agregate edilebilir).
    • Time dimension, her iş zekası projesinde zorunlu bir boyuttur ve gün, ay, yıl gibi hiyerarşiler oluşturabilirsiniz.
    1:14:06İş Zekası Projesi ve Rolü
    • İş zekası, kurumların var olan verilerini kullanarak yapılan analizlerdir.
    • Geliştiriciler, kullanıcıların analiz yapabilmesi için veri ambarı ve isteğe bağlı olarak küp oluşturur.
    • Kullanıcılar, geliştiricilerin hazırladığı raporları kullanarak analizler yaparlar, örneğin geçmiş verileri sorgular veya satış temsilcilerinin satış rakamlarını incelerler.
    1:15:57OLAP Küpü Oluşturma ve Kullanımı
    • OLAP küpü, belirlediğiniz aggregation metodlarına göre verileri önceden hesaplayıp hücrelerine yazarak hızlı cevap veren bir yapıdır.
    • Küp, analizlerinizi farklı boyutlarda (gün, bölge, ürün gibi) yapabilmenizi sağlayan bir yapısal modeldir.
    • OLAP küpleri oluşturmak için SQL Server Data Tools (2012 sonrası), SQL Server Business Intelligence Development Studio (2008 R2 ve önceki sürümler) gibi platformlar kullanılabilir.
    1:20:08Veri Kaynağı Bağlantısı Oluşturma
    • Veri kaynağı bağlantı строка создается, указывая имя сервера, базу данных и проверяя подключение.
    • Вводятся учетные данные пользователя, и не рекомендуется использовать учетную запись службы для подключения.
    • Создается подключение к базе данных Adventure Works для создания куба.
    1:21:30Анализ структуры данных
    • В базе данных существуют таблицы с префиксами "dim" для измерений и "fact" для фактов.
    • Измерительные таблицы содержат бизнес-ключи, альтернативные ключи и текущие ключи.
    • Факт-таблицы содержат связанные данные с другими таблицами и метрики, такие как прибыль и убытки.
    1:23:08Создание куба
    • Создается представление источника данных, выбираются таблицы для куба.
    • Выбирается таблица фактов (например, FactInternetSales) и связанные измерительные таблицы.
    • Создается звездная схема на основе связей между таблицами, определенных в базе данных.
    1:25:15Настройка куба
    • Создается новый куб, выбираются существующие таблицы.
    • Система предлагает, какие таблицы являются фактами, а какие - измерениями, основываясь на отношениях между таблицами.
    • Устанавливаются связи между измерениями и фактами, используя ключи, определенные в базе данных.
    1:27:34Развертывание и использование куба
    • Куб развертывается на сервере аналитики, указывая его имя и свойства.
    • Проект сохраняется, компилируется и развертывается.
    • После развертывания куб можно просматривать и выполнять быстрые запросы, что невозможно было бы сделать без куба.
    1:30:19Советы по началу работы с бизнес-аналитикой
    • При начале работы с бизнес-аналитикой важно определить масштаб проекта и выявить наиболее важные и полезные области.
    • Для работы с бизнес-аналитикой необходимо быть знакомым с базами данных и SQL Server.
    • Начинать следует с небольших проектов, используя Integration Services, Reporting Services и Analysis Services.
    1:32:17İş Zekası ve Meslek Seçimi
    • İş zekası alanında çalışan çok az kişi bulunmakta ve bu tarafta bir boşluk var.
    • Kod yazmak yerine veri tarafında çalışmak, iş zekası projeleri yapmak ve veritabanı yöneticiliği (DBA) olmak daha farklı ve eğlenceli bir alan sunabilir.
    • İş zekası bir bitirme projesi yapmak için çok güzel bir seçim olabilir.
    1:34:01İş Zekası Projesi Yapma Tavsiyeleri
    • Microsoft'un sunan 180 günlük evaluation lisansını kullanarak iş zekası projesi yapılabilir.
    • Adventure Works veritabanı indirilip üzerinde çalışarak kendi küçük tablolar oluşturulabilir.
    • İngilizce kaynaklar kullanmak daha faydalı olabilir çünkü Türkçe kaynaklar yetersizdir.
    1:35:11Meslek Okulu Öğrencileri İçin Tavsiyeler
    • Meslek okulu öğrencileri için kod yazmaya çalışmak ve veritabanı ile ilgili temel işlemleri öğrenmek önemlidir.
    • Bu bilgiler, mesleki hayatta karşınıza geldiğinde birkaç adım önde olmanızı sağlayacaktır.
    1:36:27Sistem ve Programcılık Arasındaki Bağlantı
    • Sistem tarafı ile uğraşanlar programcılık tarafına girmek istiyorsa veri yönetimi ve veritabanı konularına da bakmaları tavsiye edilir.
    • Program yazacaksanız bir yerlere bunları kaydedeceksiniz, bu nedenle veritabanı ile ilgili bilgi sahibi olmak önemlidir.
    • Adventure Works gibi hazır veritabanlarını kullanarak başlayıp, ücretsiz SQL Server'a yükleyerek pratik yapmak faydalı olacaktır.

    Yanıtı değerlendir

  • Yazeka sinir ağı makaleleri veya videoları özetliyor