Skip to main content

Kuva

Image

Tietovarasto_Enfo
Blogi

Tietovarasto nyt ja tulevaisuudessa

Sisältökappaleet

Image

Naatula

Text

Tietovarastoilla (DW, Data Warehouse) on pitkä historia ja termiä on viime vuosina usein korvattu kiertoilmaisuilla. Tietovarasto on kuitenkin yhä käypä nimitys ja varastoilla on tärkeä tehtävänsä tiedon oikea-aikaisen saatavuuden ja käytettävyyden varmistamisessa.  

 

Markkinoilla on tänä päivänä tarjolla monia tietovarastoratkaisuja. Virtuaalitietovarastot tai datan virtualisointiratkaisut pyrkivät tarjoamaan yhtenäisen rajapinnan tietojen saamiseksi ilman niiden siirtämistä paikasta toiseen. Datakatalogit tarjoavat kuvauksia eri paikoissa sijaitsevista tiedoista. Nopeasti rakennettavat, usein muistinvaraisiin tietokuutioihin pohjautuvat ratkaisut tarjoavat yhtenäisen näkymän raportointia varten. Tietoallasratkaisuja (data lake) käytetään keräämään hyvin monimuotoisia tietoja yhteen paikaan. Jos näitä tietoja on tarpeen siistiä, jatkokäsittely tehdään vasta kunkin tietotarpeen yhteydessä. Perinteinen tietovarasto pohjautuu relaatiomuotoiseen tiedonhallinnointiin, jota kehitetään tietomallinnuksen avulla. Tässä käytetään erilaisia mallinnusmenetelmiä kuten dimensionaalista tai datavault-mallinnusta.

Millainen on hyvä tietovarasto?

Hyvä tietovarasto sisältää hyvin dokumentoitua tietoa. Se palvelee uusia tietotarpeita niin ettei tietoa tarvitse aina jalostaa alkulähteiltä alkaen. Tiedot ovat helposti löydettävissä ja saatavilla. Pääsy tietoihin on hallittu asianmukaisesti ja tietojen käyttöä voidaan valvoa määräysten mukaisesti. Hyödyntämisessä voidaan käyttää tarkoituksenmukaisia esitys- ja visualisointitekniikoita. Koneoppimista voidaan käyttää apuna tietojen luokittelussa ja analysoinnissa.

Hyvä tietovarasto sisältää hyvin dokumentoitua tietoa. Se palvelee uusia tietotarpeita niin ettei tietoa tarvitse aina jalostaa alkulähteiltä alkaen.

Author

Mika Naatula

Text

Hyvä tietovarasto on yhtenevä kokonaisuus, joka sisältää pysyvää aikasidonnaista tietoa. Tietovarasto rakentuu aiheperustaisesti: tietoja mallinnetaan kunkin asiakokonaisuuden ympärille. Näin kokonaisuus rakentuu yhteneväksi, vaikka sitä kehitetään iteratiivisesti pala kerrallaan. Tiedot talletetaan aikaleimattuna niin, että voidaan tarkastella eri ajanhetkien mukaisia tilanteita ja muutoksia ajan suhteen.

Mihin teknologiaan ja ohjelmistoihin tietovarastot perustuvat?

Nykyaikainen tietovarastointi tapahtuu valmisohjelmistojen avulla. Näin rakentamiseen ja ylläpitoon tarvittava työ vähenee oleellisesti verrattuna käsin tehtyihin skripteihin tai koodaukseen. Nykyaikaisia valmisohjelmistoja löytyy mm. data-alustoihin, tietomallinnukseen, liittymien rakentamiseen, tietojen muunnoskäsittelyyn, tietohakemistojen tuottamiseen, ajoketjujen hallintaan ja ylläpitoon.

Nykyisin suurin osa uusista tietovarastoratkaisuista rakennetaan pilvipohjaisina, mutta myös modernit paikallisesti asennettavat "on-prem" -data-alustat ja hyödyntämisvälineet tarjoavat nykyaikaisen pohjan tietovarastolle. Käytännössä monet tietovarastoympäristöt ovat hybridiarkkitehtuureja, joissa "on prem" -ratkaisua on laajennettu uudella pilvipohjaisella toteutuksella.

Microsoft Azure -alustalla keskeisiä tietovarastointiin käytettäviä palvelukomponentteja ovat mm. Data Factory, Data Lake Storage, Data Bricks, Cosmos DB, Synapse Analytics, Analysis Services ja Power BI. AWS-tietovarastointi voidaan perustaa AWS:n omiin palveluihin, kuten IoT Core, Kinesis, Glue, S3 Storage, EMR, Redshift ja Quicksight. Molemmissa pilviekosysteemeissä tietovarastointiin voidaan hyödyntää myös monia hyviä kolmannen osapuolen palvelutuotteita, esim. Snowflake, Informatica ja Microfocus Vertica. Näistä kaksi viimeksi mainittua on saatavilla myös on-prem-asennukseen.

Monet tietovarastoympäristöt ovat hybridiarkkitehtuureja, joissa "on prem" -ratkaisua on laajennettu uudella pilvipohjaisella toteutuksella.

Author

Mika Naatula

Text

Enfon kehittämä, palveluna lisensoitava ohjelmistotuote ADA (Analytic Data Accelerator) helpottaa merkittävästi tietovarastoinnissa tarvittavien tietoja käsittelevien ajojen tuottamista ja poistaa kehitystyön rutiinityövaiheita. ADA:a voidaan hyödyntää myös ajojonojen suunnittelussa sekä tietovarastoajojen operoinnissa.

Miten tietovarastot kehittyvät kymmenen vuoden tähtäimellä?

Tietovarastoihin tullaan tallentamaan yhä enemmän dataa, koska se käy nykyään kustannustehokkaasti. Nykyteknologiat tarjoavat myös suorituskykyä datan operointiin. Tulevaisuudessa merkittävä osa datasta on ei-rakenteista dataa.

Tietovarastoinnin automaatioaste kasvaa. Automaatiota ja koneoppimista voidaan hyödyntää, tietojen keruuseen, hallinnointiin ja hyödyntämiseen. Tietojen löydettävyyttä tehostetaan osin automaattisilla tietokatalogeilla, jotka yhdistyvät käyttäjäyhteisön tuottamiin metatietoihin. Tiedonhallintatuotteisiin tulee lisää ominaisuuksia, jotka liittyvät tietojen elinkaareen ja laatuominaisuuksien hallintaan. Tietojen visualisointi ja analysointi itsepalveluna kehittyy edelleen.  

Miten ja millaisella arkkitehtuurilla tietovarastot on paras toteuttaa?

Suosittelemme arkkitehtuuria, jossa tiedon vastaanotto eri järjestelmistä tapahtuu tietoallastyyppiseen osioon. Tietoaltaan rooli on kolmijakoinen. Ensinnäkin se historioi lähtötiedot sellaisenaan kuin ne on saatu lähtöjärjestelmistä. Näin tietojen alkuperä voidaan jäljittää ja latauksia ajaa tarvittaessa uusiksi. Toisekseen tietoallas palvelee kokeilevan analytiikan alustana. Tavanomaisten kysely- ja hakutoimintojen lisäksi se voi tarjota alustan koneoppimis- ja tekoälymallien kehittämiseen. Kolmanneksi tietoallas palvelee tallettamalla monimuotoisia, ei-rakenteellisia tietoja, kuten esimerkiksi dokumentteja tai video- ja äänitallenteita, joita voidaan tarvittaessa kytkeä muuhun tietosisältöön.

Määrämuotoiset tiedot, joiden laatu on tarkistettu, ja joille on ennakoitua käyttöä, viedään hyvin kuvattuna määrämuotoiseen mallinnettuun tietovarasto-osioon. Sinne voidaan tallettaa myös jalostettua ja yhdistettyä tietoa hyödynnettäväksi liiketoiminnan tarpeisiin. Tietovarasto tarjoaa yhtenäisen datakerroksen tietojen hyödyntämistä varten. Hyödyntämiseen voidaan käyttää useita eri käyttäjäryhmien tarpeisiin sopivia välineitä, kuten datan visualisointia, porautumista ja ad hoc -analyysejä.

Kehitys tapahtuu iteratiivisesti aihealue kerrallaan, niin että tietomalli ohjaa kehitystä. Menetelmämme mukaisesti tuotettu tietomalli toimii liiketoiminnan ja tekniikan välisen vuoropuhelun välineenä. Tietomalli toimii kehittäjille määrittelynä siitä mitä pitää tehdä.

Miten Enfo voi tukea yritystäsi tietovarastoratkaisuissa?

Enfo tarjoaa tietovarastointiin kattavat palvelut alkaen organisaation nykytilan arvioinnista ja kehityksen tiekartoista aina ratkaisun määrittelyyn, suunnitteluun, toteutukseen ja ylläpitoon asti.  Palveluportfoliomme kattavat tietovarastointipalveluiden lisäksi mastertiedon hallinnan, tieto- ja järjestelmäintegraatiot sekä analytiikkapalvelut.

Mika Naatula toimii Enfolla teknologiajohtajana.

Jaa