Miksi datan laatu on tulossa merkittäväksi asiaksi

Datan käytön yleistyessä ja laatuvaatimusten kasvaessa tiedon laadun merkitys on kasvussa. Vähänkin datan kanssa töitä tehneet tietävät, että sillä on suora vaikutus dataa käyttävien prosessien ja palveluiden laatuun ja jatkuvuuteen, ja kuinka organisaatio pystyy tuottamaan datapääomansa avulla arvoa. Luotetun tiedon tai ”trusted data” -käsitettä käytetään kuvaamaan sitä kuinka paljon organisaatio luottaa (tai voi luottaa) sillä olevaan dataan ydinprosesseissaan ja muussa käytössä, tarkoituksenmukaisella tavalla.

Datan luotettavuus – mitä se käytännössä on

Meidän edustamamme datanhallinnan alusta Omni-Gen auttaa tekemään datasta luotettua. Me keräämme organisaation kokonaiskuvan kannalta kaiken oleellisen tiedon yhteen, sijaitsi se organisaation sisällä tai sen ulkopuolella, oli data strukturoitua tai strukturoimatonta, oli se tallennettu tai luotu tietokannoissa, IoT-virroissa, sosiaalisessa mediassa jne. Me autamme ymmärtämään millaista tämä data on ja miten sitä voisi yhdistää tai muuten käyttää yhdessä. Me analysoimme ja profiloimme datan niin, että sen sisältö on hallittavissa sekä ymmärretään mikä datassa on oikein ja väärin. Me korjaamme datassa olevat virheet. Lisäksi tarjoamme näkyvyyden siihen mistä data on tullut ja miten sitä on käsitelty esimerkiksi analytiikan luomista varten.

Käsittelen tässä blogissa kuinka me autamme tekemään datasta luotettua edellä mainitsemieni tapojen avulla.

Kattavuus organisaation kaikista prosesseista, toiminnoista, asiakkuuksista jne

Perinteisesti raportointia on tehty sen tiedon pohjalta, mikä on ollut käytännöllisesti saatavilla. Esimerkiksi, organisaatiolla on saattanut olla vain toiminnanohjausjärjestelmä ja ehkä myynti- tai asiakaspalvelujärjestelmä, joissa data on käytettävässä muodossa ja järkevällä tavalla saavutettavissa. Käytännössä tämä on voinut tarkoittaa sitä, että data on kattanut vain osan organisaation prosesseista, toiminnoista, asiakkaista jne, joten tämän perusteella luotu tilannekuva tai analyysi on muodostanut vain osakuvan organisaation tilasta.

Erityisesti verkostoituneella liiketoimintamallilla toimivat organisaatiot nojaavat ydinprosesseissaan yhteistyökumppaneiden toimintaan, esimerkiksi huolto, asiakaspalvelu tai myyntiverkosto voi olla operatiivisesti partnerin vastuulla. Lisäksi organisaatioon voivat vaikuttaa ulkopuoliset voimat ja ilmiöt, kuten viranomaistoiminta, yleinen liiketoimintaympäristön muutos tai vaikka säätila. Nämä kaikki ovat olennaisia tietolähteitä kokonaiskuvan muodostumiseksi, varsinkin jos tavoitellaan ennustavan analytiikan käyttöä päätöksenteon tueksi.

Datan analysointi ja profilointi

Moni organisaatio on toteuttanut tai toteuttamassa tietoallashankkeita (data lake), joissa eri lähteistä tuleva data tallennetaan yhteen varastoon. Ei kuitenkaan riitä pelkästään se, että tieto on yhdessä paikassa, ellei ymmärretä mikä sen sisältö ja rakenne on ja miten eri tietoelementit liittyvät toisiinsa. Siksi tiedon profilointi ja analysointi on olennainen ja usein ensimmäinen askel datan saamiseksi luotetuksi ja käytettäväksi.

Ennen kuin dataa voi käyttää ja siitä saada arvoa, täytyy ymmärtää mitä dataa organisaatiolla konkreettisesti on, miten se on käytännön tasolla rakentunut, miten eri tietoelementit liittyvät toisiinsa, mitä tiedon laatu eri kriteerien kannalta tarkasteltuna on ja millä tasolla se on luotettavaa, tai mihin tarkoitukseen laatutaso on riittävä.

Perinteisesti tätä ymmärrystä on tavoiteltu dokumentaation ja muiden kuvausten perusteella, mutta nämä harvoin kuvaavat tilannetta tarvittavalla tarkkuustasolla, ja useimmiten dokumentaatio ei ole pysynyt muutosten mukana. Siksi tiedon analysointiin ja profilointiin tarvitaan aina siihen hyvin soveltuvaa työkalua.

Datan laadun tunnistaminen ja virheiden korjaus

Kun datan sisältö ja rakenne on tunnistettu, on tärkeää ymmärtää minkä laatuista se on. Käyttötarkoituksesta riippuen laatuvaatimus voi vaihdella paljon. Esimerkiksi, yleiskuvan luomiseksi myyntialuekohtaisesta tilanteesta voi riittää summittainen ymmärrys asiakkaiden sijainnista. Mutta logistiikka- ja toimitusprosessi voi vaatia hyvinkin virheetöntä dataa kunkin asiakkaan osoitteista, toimipisteistä ja niiden kontaktihenkilöistä.

Data voi olla virheellistä tai käyttöön sopimatonta monella tavalla. Tieto voi näyttää oikealta, mutta pienetkin ongelmat formaatissa voivat vääristää laskennan tai estää käytön automaattisten prosessien ohjauksessa. Tietoa tai tiedon osia voi puuttua, tietosisältö ei ole sallituissa rajoissa tai että se on virheellistä verrattaessa useamman tietolähteen kesken tai tyypillisiin historiallisiin arvoihin. Joskus data saattaa olla ristiriidassa ulkopuolisten lähteiden kanssa, esimerkiksi asiakasyritysten verokoodit eivät löydy vastaavista viranomaisjärjestelmistä. Lisäksi, sama tieto voi olla monta kertaa tallennettu ristiriitaisesti, joko saman tietolähteen sisällä tai verrattuna eri tietolähteiden kesken.

Ensimmäinen askel on tunnistaa tiedon ongelmat juurisyineen, ja sen jälkeen luoda mekanismi, jolla tieto pysyy puhtaana. Jatkuva datan puhdistamisen prosessi ja kyvykkyys korjaa automaattisesti mahdollisimman suuren osan virheistä vapauttaen tiedon omistajat triviaaleista siivoustoimenpiteistä. Yhteisen näkemyksen muodostaminen tiedosta (master data) lisää organisaation tietopääomaa sekä mahdollisuuksia käyttää tietoa uusissa käyttötapauksissa. Ihmissilmää tai -päätöstä vaativat tapaukset ratkaistaan työkuluilla ja käyttöliittymillä, joilla tiedon omistajat pääsevät tehokkaasti ja käyttäjäystävällisesti päivittämään ne tapaukset, joita automaattinen prosessi ei itsenäisesti pysty tai saa ratkaista.

Läpinäkyvyys koko dataputken matkalta

Datan käyttö riippuu paljon siitä, kuinka luotettavaksi data koetaan. Jos dataan ei luoteta, niin sen perusteella tuskin tehdään päätöksiä tai sitä käytetä muuten arvoa tuottavalla tavalla, riippumatta siitä kuinka oikeellista data on.

Datan ja analytiikan parissa työskentelevälle on saatettu väittää, että raportti on jollain tavalla ”väärässä”, koska siinä on luku, jota yhteydenottaja ei olisi toivonut näkevänsä. Näissä tilanteissa on tärkeää pystyä kommunikoimaan mitä tietoa on kerätty ja mistä, mikä niiden suhde toisiinsa on, millä tasolla datan laatu on ja millaisia korjaavia toimenpiteitä on tehty. Näin voidaan luoda tarkka ja oikeellinen organisaatiotasoinen kuva siitä, kuinka luotettavaa ja käytettävää organisaation data on ja mihin käyttötarkoituksiin se sopii, mikä auttaa organisaatiota hyödyntämään dataansa tavalla, joka tuottaa siitä maksimaalisen arvon.

Datan laadun merkitys on kasvussa

Datan laadun systemaattinen hallinta on tulossa sitä merkittävämmäksi asiaksi, mitä enemmän dataa käytetään automaattisten prosessien ja päätöksenteon, tekoälyn, kehittyneen analytiikan ja ennusteiden pohjana. Erilaisen ja eri lähteistä olevan tiedon yhdistely nostaa tarvetta tarkkuuteen, virheettömyyteen ja näkyvyyteen. Organisaatio tarvitsee datan laadun hallitsemiseksi osaamista, prosessit, kulttuurin ja työkalut. Jos haluat näkökulman mitä yllä kuvatut asiat käytännössä tarkoittavat, ota meihin yhteyttä ja mielellämme keskustelemme demon järjestämisestä.

Antti Matikainen

antti.matikainen@infobuild.fi

+358 40 6607940

Kyllä, haluan datastani kaiken irti.

Ottakaa minuun yhteyttä