Skip to content

Data Vault metodologijos nauda

Tvarkingas ir teisingas duomenų kaupimas, jų saugojimas šiandien yra vienas iš svarbiausių prioritetų kiekvienoje įmonėje. Būtent į šį pasaulį puikiai įsilieja itin sparčiai populiarėjanti „Data Vault“ duomenų saugojimo bei apdorojimo metodologija.
Jul 13, 2023 2:10:17 PM Aušra Lukaševičiūtė, BI Developer
„Data Vault“ atlieka ne tik duomenų sandėliavimo (angl. Data Warehousing) vaidmenį, bet taip pat duomenų analizės, kuri padeda optimizuoti verslo procesus, pagerinti verslo našumą bei padeda priimti daug efektyvesnius strateginius sprendimus. 
 
Duomenų sandėlis - tai yra vieta, kurioje saugoma struktūrizuoti bei atitinkamai pagal verslo reikalavimus apdoroti duomenys. 
 
DataLoad_

„Data Vault“ yra sudarytas iš trijų pagrindinių sluoksnių: 

  1. Stage - tai yra laikina saugojimo vieta tarp duomenų šaltinių (angl. Data sources) ir duomenų saugyklos (angl. Data Warehouse). Šios saugojimo vietos naudojimas pagreitina duomenų nuskaitymą.

  2. Vault:
    1. Operational Data Vault (ODV) - šio sluoksnio objektai saugo neapdorotus ir nepakeistus aktyvius ir istorinius duomenis. Vienas iš operatyvinės saugyklos tikslų – sudaryti galimybę visapusiškai audituoti pradinius duomenis. 
    2. Business Data Vault (BDV) - šio sluoksnio siekis yra sumažinti tolesnių biznio taisyklių kartojimą. Jis sulygiuoja verslo raktus bei sąlygas (terms) iš neapdoroto duomenų šaltinio su galutiniu verslo vaizdu, būtent šis sluoksnis užtikrina atitikimą tarp neapdorotų duomenų ir biznio taisyklių. 
    Abu šie sluoksniai yra sukurti tam, kad papildytų vienas kitą - BDV pritaiko taisykles konkretiems duomenų rinkiniams, o tuo tarpu ODV saugo nepakeistus duomenis bei jų istoriją. Ir kuomet verslo taisyklės (business rules) kinta, pakeitimus reikia pritaikyti tik BDV sluoksnyje, o tuo tarpu originalūs duomenys ODV sluoksnyje lieka nepaliesti.

  3. Mart - šis duomenų saugojimo sluoksnis yra orientuotas į vieną temą/verslo sritį. Naudojant šį sluoksnį vartotojai gali greičiau ir patogiau padaryti įžvalgas, nes visi susiję duomenys yra vienoje vietoje ir nereikia gaišti laiko norint išrankioti duomenis iš sudėtingų duomenų saugyklų.
Pagrindiniai Vault sluoksnio elementai yra: 
 
  • HUB tai atskiras objektas (lentelė) kurioje yra saugoma unikalus biznio raktų (angl. Business Key) komplektas bei metaduomenys, kada ir iš kur įrašas buvo įterptas. Dažniausiai atskira HUB lentelė indikuoja atskira verslą dominantį objektą, pvz.: kompanija, darbuotojas, sąskaita.  

  • SATELLITE tai lentelė, kuri tiesiogiai yra susijusi su pagrindiniu HUB objektu. Satellite lentelėje yra saugomas unikalus HUB raktas, meta duomenys, kurie indikuoja kada įrašas buvo patalpintas, įrašo galiojimo pabaigos data, bei kiti verslui svarbūs duomenys, tokie kaip: darbuotojo vardas, pavardė, gimimo data, ir t.t. 

  • LINK lentelėje yra saugomi dviejų arba daugiau HUB lentelių surogatiniai raktai. Ši lentelė kitaip gali būti vadinama kaip sąryšio „daug-su-daug“ (angl. Many-to-many) tarp skirtingų (arba ne) HUB lentelių. 

  • LINKSATELLITE (LSAT) tai šiek tiek kitokio tipo lentelė, kuri saugo kontekstinius duomenis kurių raktas yra ryšys tarp dviejų ar daugiau HUB lentelių, t.y. LSAT yra tiesiogiai susijęs su LINK. Kaip pavyzdį galėtume paimti skirtingus objektus “Parduotuvė” ir “Produktas”. Tarpusavyje šie skirtingi objektai yra visiškai susiję, todėl tam reikalinga LINK lentelė. O norit duomenis saugoti remiantis šiuo ryšiu, reikalinga LSAT lentelė, kurioje galėtų būti saugomi tokie duomenys: [Prekės kiekis sandėlyje], [Kaina parduotuvėje], [Prekės galiojimo pradžia], [Prekės galiojimo pabaiga].

DV Objects

Tai kokią gi naudą duoda ir kaip gali sužibėti Data Vault? 

  1. Vienas pagrindinių privalumų naudojant DataVault yra duomenų pasikeitimo istorijos sekimas/duomenų judėjimas. 

    Kiekvienos naujos duomenų eilutės pridėjimas, atnaujinimas ar pašalinimas yra fiksuojamas, to pasekoje matomas tikslus laikas kuomet eilutė buvo pridėta, atnaujinta ar pašalinta iš sistemos. Su kiekvienu duomenų atnaujinimu (update) eilutė yra įterpiama kaip nauja eilutė į SAT arba LSAT objektus. Tuomet senosios versijos duomenų eilutė pažymima kaip nebegaliojanti, o atnaujinta eilutė kartu su fiksuotu tiksliu atnaujinimo laiku yra įterpiama į lentelę.

  2. Efektyviausias kuomet duomenys atkeliauja iš įvairių duomenų šaltinių. 

    Kartu su laiko žymėmis duomenų eilutė taip pat turi ir duomenų šaltinio informaciją. Taip galima nesudėtingai atsekti iš kurio šaltinio atkeliavo duomenys. 

  3. Puikiai pritaikomas skaitant ne tik failus su pilna duomenų istorija (angl.full file), bet taip pat ir nepilnus (angl. incremental) failus.

Data Vault metodologiją pritaikome kasdien

twoday esu BI programuotoja Valmet BAM projekte. Lyderio poziciją pasaulyje užimanti Valmet kompanija kuria automatizavimo sistemų ir srauto valdymo sprendimus, kurie pritaikomi masyvo, popieriaus ir energijos pramonės šakose.

Verslo analitikos Valmet BAM projekte kiekvieną dieną jau kelis metus sėkmingai dirbame pagal Data Vault metodologiją. Iš įvairių duomenų bandome sistemingai išgauti naudingą informaciją kientui, kuri padėtų jo verslui. 

Žinoma, neapsiribojame tik naujų duomenų sisteminimu, kiekvieną dieną kuriame raportus, tobuliname jau esamą logiką ir ieškome kaip galėtume pagerinti rezultatų pateikimą klientui.  

Matydami Data Vault’o naudą rekomenduojame šią metodologiją pritakyti ir jūsų projekte 😊

Related posts