Artikkelit | Artikkelit

Vastuullinen data ja sen metakuvaukset

30.8.2022
Liisa Pesonen, Erikoistutkija, Luonnonvarakeskus | Pasi Suomi, Tutkija, Luonnonvarakeskus

Dataa synnytetään yhteiskunnan kaikilla aloilla kiihtyvää tahtia käyttämiemme teknologioiden muuttuessa digitaalisiksi. Dataa syntyy erilaisista havainnointi- ja mittausmenetelmistä, jotka ovat vaihtuneet digitaalisiksi. Digitaalisen sensoriteknologian ja sensorifuusion kehittymisen myötä niitä hyödyntävä automaatio ja robotiikka yleistyvät työ- ja vapaa-ajan välineissämme, lisäten käyttömukavuutta. Mobiili tiedonsiirto mahdollistaa toimiimme liittyvän datantuotannon monitoroinnin yhä useammin reaaliaikaisesti. Dataa kertyy varsinaisen työ- tai harrastuskohteen tilanne- ja olosuhdetiedon lisäksi myös siitä, kuka, kuinka, missä ja milloin kyseessä olevaa askaretta toimitettiin.

tuulimylly

Datataloudessa datasta luodaan toimeliaisuutta ja liiketoimintaa monipuolisesti. Ajatuksena on, että koska data ei kulu käytössä, sitä voidaan käyttää alkuperäisen käyttötarkoituksen lisäksi useisiin muihin käyttötarkoituksiin, useiden käyttäjien toimesta. Tällaisessa datan toisiohyödyntämisessä vastuullisuus astuu kuvaan uudella tavalla. Soveltuuko data käyttötarkoitukseen? Onko se riittävä tarkkaa, luotettavaa, kattavaa, kuvaako se lopulta haluttua asiaa tai kohdetta? Voiko sitä käyttää turvallisesti? Entä onko minulla oikeus käyttää kyseistä dataa? Onko datan alkuperäisen tuottajan yksityisyys suojattu?

Dataa on, mutta onko se luotettavaa ja tarkkaa?

Metadata on tapa kuvata dataa, sen sisältöä, alkuperää, tarkkuutta, ajankohtaa ja luontitapaa, mahdollisesti myös sitä, kenellä on oikeus käyttää dataa. Metadata on datan tuoteseloste, jonka avulla datan toisiokäyttäjä voi päätellä datan sopivuuden omaan käyttötarkoitukseen ja siten myös datan arvoa. Huolella ja oikeellisesti tehdyt datan metatiedot ovatkin oleellisia datan vastuullisessa hyödyntämisessä ja datatalouden menestyksekkäässä edistämisessä.

Sama pätee myös tietoon, joka on luotu erilaisia datalähteitä yhdistelemällä. Tällaiseen ’lopputuotedataan’ tulisi myös liittää metadata siitä, millaisesta datasta se on muodostettu ja mitä lopputuotedata oikeasti kuvaa, sekä kuinka kattavaa, tarkkaa ja luotettavaa data on.

Esimerkkinä voisi mainita tuotteiden hiilijalanjäljen, joka on yksi tuotteen ja tuotannon ilmastovaikutusta kuvaavista vastuullisuusindikaattoreista. Laskenta vaatii useita datalähteitä, mutta useimmiten laskentatapa ja käytetyt datalähteet sekä niiden laatu jätetään kertomatta. Kun tällainen metadata eli tuoteseloste puuttuu, tiedämmekö oikeasti mitä hiilijalanjälkitieto kuvaa? Mihin ja minkälaiseen dataan tieto nojaa? Perustuuko laskenta keskimääräisiin arvioihin eri osatekijöistä, otantatietoon vai koko tuotannon kattavaan jatkuvaan digitaaliseen tuotantoprosessien ja niiden olosuhteiden seurantatietoon? Onko dataa tuottavat sensorit kalibroitu ja milloin? Onko data saatu käyttöön reilulla tavalla? Voidaanko päätellä, että taustalla on tuotantoprosessikohtaista datalla johtamista ja jatkuvaa parantamista vai onko kyseessä pelkästään keskimääräiseen yleiseen tietoon nojaava toteamus tuotteen aiheuttamasta ilmastovaikutuksesta?

Vastuullinen data ja sen vastuullinen käyttö nojaavat siis osuviin ja vastuullisiin metakuvauksiin. Datan tuottajalla ja tarjoajalla on vastuu kuvata data niin, että datan hyödyntäjä löytää ja osaa valita tarkoitukseensa sopivan datan helposti vailla erehtymisen vaaraa. Datan hyödyntäjän on puolestaan liitettävä lopputuotteeseensa metadata niin, että tuotteen käyttäjä saa mahdollisimman oikean kuvan tuotteen arvosta. Metakuvaukset, niiden laatiminen ja ymmärtäminen ovatkin datatalouden toimijoiden ja kuluttajien uusi kansalaistaito.