Idź do:
Współczesny chaos informacyjny
Każda firma charakteryzuje się specyficznymi, unikalnymi procesami, które wymuszają kompleksowe dopasowanie dostępnych narzędzi informatycznych (tzw. kastomizacja) lub opracowanie własnych narzędzi wspierających ich realizację. Liczba kluczowych narzędzi wykorzystywanych przez przedsiębiorstwa (zwłaszcza te duże) może sięgać nawet kilkunastu czy kilkudziesięciu. W przypadku przedsiębiorstw funkcjonujących na arenie międzynarodowej ujednolicenie wykorzystywanych systemów stanowi dodatkowy problem, a często jest niemożliwe z uwagi na różne przepisy prawa, wysokie koszty wdrożenia innego systemu czy obawy przed ryzykiem uzależnienia od jednego dostawcy oprogramowania.
Różnorodność systemów źródłowych (tzw. heterogeniczność) powoduje dezintegrację danych biznesowych. Wywołuje to szum informacyjny, który może ograniczać zdolności decyzyjne organizacji. W dłuższej perspektywie mogą w związku z tym pojawiać się realne straty wynikające ze zbyt długiego procesu podejmowania decyzji. Rozwiązaniem tego typu problemów może być opracowanie hurtowni danych, która będzie stanowić element centralny systemu klasy Business Intelligence, polityki zarządzania danymi i raportowania.
Wydajnościowa zmora
Systemy transakcyjne i narzędzia, które wspierają zachodzące w danym przedsiębiorstwie procesy, mają za zadanie rejestrację zdarzeń biznesowych. Przykładowo, w przedsiębiorstwie zajmującym się dystrybucją detaliczną w przypadku każdej transakcji sprzedaży rejestrowane powinny być informacje dotyczące nowego klienta, płatności, wysyłki, zmiany stanu magazynowego itd.
Niektóre z systemów transakcyjnych (określanych jako systemy OLTP) posiadają moduły raportowe dostarczające podstawowe informacje. Niestety równoczesne rejestrowanie zdarzeń biznesowych i raportowanie powoduje problemy wydajnościowe. Wykonywanie złożonych zapytań analitycznych obciąża system bazodanowy i powoduje blokowanie operacji zapisu czy modyfikacji rekordów dla przebiegających procesów. Podstawową techniką optymalizacyjną spotykaną we współczesnych rozwiązaniach IT jest więc separacja środowisk transakcyjnego i raportowego. Gromadząc zbiory danych z różnych źródeł, hurtownia danych stanowi element centralny środowiska raportowego, dzięki czemu umożliwia przetwarzanie danych w dowolnym czasie bez obciążania bazy transakcyjnej.
Czym jest hurtownia danych?
Hurtownią nazywamy relacyjną bazę danych, której zadaniem jest przechowywanie danych pochodzących z różnych źródeł, w tym z systemów transakcyjnych przedsiębiorstwa. Najczęściej hurtownia danych poświęcona jest konkretnemu procesowi biznesowemu czy obszarowi działania przedsiębiorstwa. Hurtownie danych gromadzą również dane historyczne.
Charakterystyczne dla hurtowni jest gromadzenie dużych ilości danych i wydzielenie dwóch typów obiektów. Są to tzw. tabele faktów (miary) oraz wymiary. Tabela faktów zawiera zaistniałe w rzeczywistości biznesowej zdarzenia, a wymiary charakteryzują tę rzeczywistość. Przykładem faktu (miary) może być Sprzedaż, wtedy wymiarem będzie m.in.: Czas (np. data sprzedaży), Produkt (dany towar, który został sprzedany), Geografia (np. konkretne miasto, w którym zaszła sprzedaż). Takie wielowymiarowe modelowanie danych pozwala na przeglądanie wartości miar w różnym ujęciu (w różnych wymiarach).
Architektura hurtowni danych
- Schemat gwiazdy
Schemat gwiazdy charakteryzuje się tym, że centralną tabelę stanowi tabela faktów, która otoczona jest pojedynczymi wymiarami.
- Schemat płatka śniegu
Schemat płatka śniegu wygląda podobnie do schematu gwiazdy. Jedyna różnica to taka, że wymiary połączone z tabelą faktów dodatkowo połączone są jeszcze z innymi wymiarami.
- Schemat konstelacji faktów
Ostatni schemat hurtowni danych to konstelacja faktów, który umożliwia przechowywanie różnych rodzajów faktów. Wymiary w tym przypadku są współdzielone przez tabele faktów.
Hurtownia danych może zostać zastosowana w przedsiębiorstwach działających w różnych branżach, a podstawowym uzasadnieniem jej zastosowania są problemy związane z wydajnością, rozproszeniem i nadmiarem ilości danych.
Dodatkowe materiały:
Jak wygląda proces zasilenia hurtowni danymi?
Najprostsza definicja hurtowni danych przedstawia ją jako tematyczną bazę danych, która trwale przechowuje zintegrowane dane opisane wymiarem czasu. „Zintegrowane dane” to słowa kluczowe występujące w tej krótkiej definicji.
Integracja danych polega na pobraniu konkretnych danych z wielu miejsc, odpowiednim ich przetworzeniu (dopasowanie typów danych, wyczyszczenie) i załadowaniu do hurtowni. Sekwencja wymienionych kroków nosi nazwę procesu ETL, będącego akronimem od słów:
Extract – ekstrakcja danych, czyli pobranie danych z różnorodnych źródeł, w tym bazy danych oraz m.in.:
Transform – transformacja danych, czyli przekształcenie pobranych danych w pożądany sposób (dopasowanie do typów danych występujących w hurtowni danych; weryfikacja poprawności i walidacja danych, czyszczenie danych; usuwanie duplikatów; uzupełnianie danych; dodanie kluczy surogatowych).
Load – Docelowa baza danych stanowiąca tzw. hurtownię danych zostaje załadowana danymi.
Hurtownia danych krok po kroku
W procesie wdrożenia hurtowni danych w organizacji można wyróżnić kilka kluczowych kroków:
Krok 1. Analiza
Projektowanie hurtowni danych powinno rozpocząć się od gruntownej analizy biznesowej potrzeb organizacji. Zbieranie wymagań jest kluczowym elementem efektywnego wdrożenia hurtowni. Należy zidentyfikować grono odbiorców raportów końcowych i przeprowadzić rozmowy umożliwiające jednoznaczne określenie, jakich danych hurtownia powinna dostarczyć i jak często hurtownia powinna być odświeżana.
Krok 2. Utworzenie hurtowni danych
Na podstawie przeprowadzanej analizy można przejść do etapu fizycznej implementacji hurtowni danych, czyli utworzenia niezbędnych tabel wraz z relacjami. Budowa wymiarów i tabel faktów powinna bezpośrednio odpowiadać potrzebom biznesowym.
Krok 3. Budowa procesu ETL (zasilania hurtowni danych)
Na podstawie zidentyfikowanych źródeł danych dla hurtowni należy zaimplementować sposób zasilenia hurtowni danych, uwzględniając wszystkie potrzebne przekształcenia.
Krok 4. Zasilenie hurtowni danych
Kiedy proces ETL jest już gotowy, można go uruchomić i zasilić hurtownię danych. Jeżeli wszystko działa poprawnie, to można ustawić automatyczne odświeżanie hurtowni zgodnie z ustalonym w toku analizy harmonogramem zasileń (np. raz dziennie).
Krok 5. Testowanie, kontrola
Bardzo ważnym i końcowym etapem jest sprawdzenie poprawności danych, które są dostępne w hurtowni danych. W testy zaangażowani powinni być użytkownicy końcowi, którzy są w stanie ocenić, czy dane odzwierciedlają rzeczywistość.
Przeczytaj także:
Należy pamiętać, że wstępnie przeprowadzona analiza może nie być na dalszych etapach wystarczająca. „Apetyt rośnie w miarę jedzenia”, czujny konsultant BI musi być więc w stałym kontakcie z użytkownikami końcowymi, żeby identyfikować i realizować kolejne potrzeby biznesowe. Potrzeby te zwykle w naturalny sposób pojawią się po prezentacji możliwości raportowych na podstawie danych hurtownianych. Dlatego dobrym rozwiązaniem jest przyjęcie zwinnej strategii realizacji projektu, polegającej na iteracyjnym dostarczaniu kolejnej wersji rozwiązania.
Co dalej?
Utworzenie hurtowni danych stanowi doskonały punkt wyjścia, pozwalający na dostarczenie użytkownikom końcowym warstwy analitycznej oraz warstwy raportowania i wizualizacji danych. Niejednokrotnie na podstawie hurtowni danych powstaje konkretny model danych (np. kostka OLAP czy model tabelaryczny), pozwalający na swobodny dostęp do danych za pośrednictwem wygodnego interfejsu, jakim jest tabela przestawna.
Na podstawie danych przechowywanych w hurtowniach danych można także tworzyć alerty, które będą informować pracowników o niepożądanych (lub pożądanych) zjawiskach, zdefiniowanych na podstawie odchyleń od normy kluczowych wskaźników wydajności przedsiębiorstwa.
Efektywnie wdrożona hurtownia danych to odpowiedź na bolączki średnich i dużych przedsiębiorstw, dotyczących zarządzania dużymi zbiorami danych, które pochodzą z wielu rozproszonych źródeł.
Więcej ciekawych informacji na temat hurtowni danych można odnaleźć w artykułach naukowych:
Libera T., Ziuziański P.: Charakterystyka budowy hurtowni danych i możliwości implementacji wymiarów różnego typu, Zeszyt Naukowy 43 (Informatyka), Wyższa Szkoła Zarządzania i Bankowości w Krakowie, Kraków 2017, s. 11-32.
Furmankiewicz M., Ziuziański P.: Wdrażanie kokpitu menedżerskiego w ramach BI w organizacji, [w:] A. Donigiewicz (red.), Przegląd teleinformatyczny, nr 4 (37), Instytut Teleinformatyki i Automatyki Wojskowej Akademii Technicznej im. Jarosława Dąbrowskiego, Warszawa 2014, s. 3-16.