Skip to main content

Kuva

Analytics laptop Enfo
Blogi

Datakatalogi & tietojen virtualisointi – miksi tarvitset molemmat?

Sisältökappaleet

Text

Liiketoiminnan ohjaaminen dataperusteisesti on kuuma aihe. Mutta miten olemassa olevat tiedot saadaan palvelemaan liiketoimintaa ja millaisia teknologioita siihen todellisuudessa tarvitaan? Entä mitä sinun kannattaa vaatia markkinoilla olevilta ratkaisuilta juuri nyt?

Kaikki alkaa tietotarpeesta. Käyttäjä saattaa suoraan tietää, millaista tietoa hän tarvitsee, tai ehkä hänellä on vain jonkinlainen ajatus siitä, jolloin hän haluaa selata tarjolla olevia tietoja hakemistosta. Tiedon olemassaolo ei vielä lämmitä, vaan siihen pitää myös päästä käsiksi. Datakatalogit (engl. data catalog) kuvaavat eri paikoissa sijaitsevia tietoja helpottaen niiden löydettävyyttä. Tietojen virtualisointi (engl. data virtualization) puolestaan tarjoaa reaaliaikaisen pääsyn hajallaan sijaitseviin tietoihin. Katalogit ja virtualisointi täydentävät hyvin toisiaan.

Datakatalogit – miten ne oikeastaan toimivat?

Datakatalogit sisältävät automaattisia toimintoja, joilla tietoja kuvaavia metatietoja voidaan kerätä eri lähteistä. Moderneissa välineissä tiedonkeruun automatiikkaa tehostaa keinoäly, joka luokittelee löytämänsä tiedon automaattisesti. Automaatio tunnistaa helposti vaikkapa datajoukoissa esiintyviä nimiä, osoitetietoja, luottokorttinumeroita, maatunnuksia ja niin edelleen. Välineitä voidaan opettaa etsimään datasta oikeastaan mitä tahansa tarpeellista informaatiota. Jopa dataan upotetuista kuvista voidaan tunnistaa niissä esiintyviä henkilöitä tai esineitä, joista muodostuu tietojen löytämistä helpottavaa metatietoa.

Nykyaikaisissa datakatalogeissa käyttäjät voivat myös itse tuottaa lisää metatietoa esimerkiksi kommentoimalla katalogin sisältämiä tietoja. Datakatalogeissa avainsanoja ovat tiedon löydettävyys ja tietosisältöjä kuvailevat metatiedot.

Image

Mika Naatula Data hub Enfo

Mitä enemmän organisaatiossa on tietoa, sitä hankalammaksi sen kasaaminen yhteen paikkaan hyödyntämistä varten muodostuu.

Author

Mika Naatula

Author's title

Teknologiajohtaja, Enfo

Text

Tietojen virtualisointi – tieto hallitusti saataville

Tietojen virtualisointi mahdollistaa pääsyn tarvittaviin tietoihin ilman, että niitä tarvitsee ensin siirtää alkuperäisestä tietolähteestä keskitettyyn tietovarastoon. Virtualisointi suorittaa dataintegraatioon määritellyn tiedonsiirron ja muokkauksen käyttötarkoitusta varten vasta, kun tietoa tarvitaan. Mitä enemmän organisaatiossa on tietoa, sitä hankalammaksi sen kasaaminen yhteen paikkaan hyödyntämistä varten muodostuu. Aika nopeasti tullaan pisteeseen, jolloin kaikkien tietojen kopioiminen tietovarastoon mahdollista toisiokäyttöä varten ei vain enää ole kannattavaa tai järkevää. Parempi vaihtoehto onkin hallita metatietoa siitä, mistä tiedot tarvittaessa löytyvät, ja miten niihin pääsee käsiksi.

Tietojen virtualisoinnin avulla organisaatiot voivat myös paremmin hallita, kenellä on pääsy tietojoukkoihin ja valvoa tietojen käyttöä tehokkaammin. Kun pääsynhallinta on yhdessä paikassa, tarjoaa se mahdollisuuden noudattaa tarvittaessa tiukkaa linjaa sekä pääsyn että käytön seurannan suhteen. Virtualisoinnissa avainasemassa on tietojen hallittu saatavuus.

Text

Yhteenveto tyypillisistä datakatalogeihin ja tiedon virtualisointiin liittyvistä toiminnallisuuksista.

Image

Datakatalogi blogi

Tietojen jäljitettävyys, eli missä tiedot sijaitsevat, ja mitä kautta tiedot ovat syntyneet ja kulkeutuneet sijaintipaikkaansa, on merkityksellinen asia.

Author

Mika Naatula

Author's title

Teknologiajohtaja, Enfo

Text

Miksi tarvitset molempia?

Virtualisointi vaatii toimiakseen tietoluettelon, jossa on mukana tietolähteen parametrit, eli informaatio siitä, miten tietolähteeseen kytkeydytään. Kytkeytyminen tietolähteisiin tarvitaan myös datakatalogissa, vaikka lähteistä noudetaankin vain metatietoja. Tietojen jäljitettävyys, eli missä tiedot sijaitsevat, ja mitä kautta tiedot ovat syntyneet ja kulkeutuneet sijaintipaikkaansa, on molempien tekniikoiden kannalta merkityksellinen asia. Molemmat myös palvelevat hyvin tehokkaasti nykyisin suosittua tietojen itsepalvelukäyttöä.

Markkinoilta löytyy teknologiatoimittajia, jotka ovat erikoistuneet joko datakatalogeihin tai tietojen virtualisointiin. Tällöin on tavallista, että kokonaisuutta täydentävä toiminnallisuus tulee kumppanuuksien kautta. Datakatalogi ja tiedon virtualisointi liittyvät kuitenkin niin läheisesti toisiinsa, että toiminnallisesti hyvin integroitu kokonaisuus yhdeltä ja samalta toimittajalta onkin usein erillisratkaisuja parempi vaihtoehto.

IBM Cloud Pak for Data -tuotepaketointi sisältää markkinoiden johtavat tuotteet molempiin osa-alueisiin valmiina integroituna kokonaisuutena. Jaan vahvasti Forresterin* näkemyksen, että ratkaisun hyödyt ja säästöt tulevat olemaan kiistattomia asiakkaiden tietoarkkitehtuureissa.

Ohjataanhan teillä liiketoimintaa dataperusteisesti?

 

Mika Naatula on Enfon Information Management -liiketoiminnan teknologiajohtaja. Hän on toiminut yli 20 vuotta datan hallinnoinnin ja analytiikan parissa, missionaan parempi datan hyödynnettävyys kestävän hallinnoinnin keinoin.

*A Forrester New Technology: The Projected Total Economic Impact™ Of IBM Cloud Pak For Data, December 2020.

Jaa