1. Johdanto
Tableau on Windows- ja Mac-työpöytäympäristöihin asennettava työkaluohjelma, jonka avulla on helposti mahdollista tehdä visuaalisen analytiikan kojelautasovelluksia (dashboard) sekä julkaista niitä verkossa [1]. Yksinkertaisten visualisointien tekeminen ei vaadi ohjelmointitaitoja, mutta edellyttää jonkin verran tilastotieteen perusteiden, visualisointimallien sekä taulukkolaskentaohjelmista tuttujen funktioiden käytön ymmärtämistä.
Tableausta on olemassa sekä kaupallinen versio että opiskelukäyttöön tarkoitettu Public-ilmaisversio [2]. Opiskelukäyttöön tarkoitettu ilmaisversio tallettaa projektit käyttäjän tilin julkisen profiilin yhteyteen Tableau-pilvipalvelimelle, eli ilmaisversiolla ei kannata käsitellä luottamuksellisia tietoja. (Projektit voi asettaa piilotetuiksi oman profiilin asetuksista, mutta ne tietenkin sijaitsevat silti Tableaun palvelimella.)
Tableaun opiskeluun ja käyttöön on saatavilla runsaasti hyvälaatuista itseopiskelumateriaalia [3]. Opetusmateriaali sisältää ohjedokumenttien ja esimerkkiaineistojen lisäksi parikymmentä lyhyttä ja selkeää, englanninkielistä itseopiskeluvideota, joiden avulla on mahdollista kokeilla visualisointien tekemistä esimerkkien avulla.
Windows-ympäristössä toinen, vastaavantyyppinen työkaluohjelma on esim. Microsoft Power BI desktop [4].
2. Visuaalisen data-analytiikan perusidea
Visuaalista data-analytiikkaa käytetään välineenä valitun kohdesovelluksen ymmärtämiseen tai jonkin tietyn sovellustehtävän ratkaisemiseen. Lisääntynyt ymmärrys auttaa myös osaltaan ymmärtämään paremmin, minkälaista dataa tulisi kerätä (lisää) ja kuinka sitä kannattaisi kukaties vielä paremmin analysoida.
Analyysityön konkreettisena tuloksena saadaan esim. tunnuslukuja, taulukoita, visualisointeja ja raportteja, sekä yksinkertaisia tilastollisia malleja (esim. regressiosuora, joka kuvaa aikasarja-aineiston trendiä).
Huomaa, että analyysin ja sen tavoitteiden ymmärryksen perustana on aina kohdesovelluksen sekä sen prosessien ja tarpeiden tuntemus — jonka selvittämiseen kannattaa panostaa: Mikäli kohdesovellus tai sen tavoitteet ovat epäselviä, jää myös siitä kerätyn datan tulkinta hämärän peittoon, eivätkä hienotkaan kuvaajat tilannetta miksikään muuta. Ilman kohdesovelluksen tuntemusta, myös aineiston mahdolliset vinoutumat ja koodaus- tai käsittelyvirheet jäävät helposti huomiotta.
3. Tableaun peruskäyttö
Tableaun käytön perusidea on aluksi tehdä visuaalisen analytiikan kokeiluita ja sitten lopuksi koota valmiista visualisoinneista analyysisovelluksen tai datan ”tarina” (ns. story, mikä on tietyntyyppinen interaktiivinen raportti).
Sovelluksen pelkistetty työkulku on lyhyesti kuvattu alla. Huomaa, että Tableaun toteutus ja käyttöliittymä saattavat kehittyä uusien ohjelmaversioiden myötä, mistä syystä tuorein Tableau-versio saattaa näyttää hieman erilaiselta. Esimerkit on tehty versiolla 2021.0 (20211.21.0320.1853).
Vaihe 1: Työn ensimmäisessä, alustavassa vaiheessa valmistellaan lähdedata sopivassa formaatissa (esim. csv- tai Excel-tiedosto).
Tässä esimerkkinä klassinen ja helppo iiris-aineisto, ladattuna tekstieditoriin [5]:
Iiris-aineistossa on kuvattu 150×5 –kokoiseen taulukkoon 150 eri mitatun yksittäisen kukkasen (tässä datarivi tai instanssi) verho- ja terälehtien pituudet (sepal=verholehti, petal=terälehti) sekä asiantuntijan tunnistama kukkalaji (class). Tässä tyypillisen kehitystehtävän tavoite on käyttää ensimmäisiä kuvailevia attribuutteja viidennen luokka-attribuutin ennustamiseen.
Yllä csv-tiedoston alkuun on lisätty attribuuttien nimet metatietoina. Nimet voi vaihtoehtoisesti lisätä myös Tableaun Data Source -välilehdellä.
Kohdesovelluksen ilmiöstä kerätään siis taulukkomuotoista aineistoa tai dataa, jossa kukin datarivi tai instanssi kuvaa yhden havaintoyksikön. Taulukon sarakkeet puolestaan kuvailevat kunkin havaintoyksikön tietoja erilaisten kuvailevien ja luokittelevien attribuuttien avulla. Dataa ja sitä kautta sovellusilmiötä pyritään ymmärtämään visuaalisen analytiikan ja tilastotieteen perusmenetelmien avulla ja dataa hankitaan ja esikäsitellään (lisää) tarvittaessa.
Vaihe 2: Seuraavaksi luodaan uusi Tableau-työkirja (workbook) ja lisää siihen datalähde (connection):
Huomaa, että esim. Excel-tyyppisen taulukon tuominen on myös mahdollista. Tämä voi olla aluksi kätevää, jos ja kun datassa on erityyppisiä muuttujia — ja joiden esitys tekstiformaatissa voidaan teoriassa siten jättää Excelin huoleksi.
Seuraavaksi tarkistetaan ja tarvittaessa määritellään ladatun datan attribuuttien (sarakkeiden) tyypit ja annetaan attribuuteille kuvaava nimi:
Tableaun oletuksena tunnistamat tyypit ovat usein toimivia. Uusia attribuutteja, esim. yksikkömuunnoksia, voidaan määritellä Excel-funktioita muistuttavien laskutoimitusten avulla. Joissakin tapauksissa on myös kätevää lukea osa lähdedatan attribuuteista merkkijonoina ja määritellä funktioiden avulla näistä uusia, laskettuja sarakeattribuutteja. Näin vaikkapa rakenteisesta tuotekoodista 2021id12356 on mahdollista irrottaa esim. vuosi 2021 omaksi attribuutikseen.
Mikäli data ei lataudu oletuksena asianmukaisesti monen sarakkeen taulukkomuodossa, tulee tarvittaessa tarkistaa esim. csv-tiedoston luku- ja lokaaliasetukset, esim. desimaalipiste vs. csv-tiedoston erotinmerkki (valitse tiedoston kuvake ja sen kontekstimenusta hiiren oikealla napilla Text File Properties…):
Usein helpointa on aloittaa yhden, verraten pienen datataulukon analysoinnilla. Tableau kuitenkin tukee myös relaatiotietokannoista tuttuja rakenteita ja (vieras)avainten käyttöä erilaisten yhdisteiden tekemisessä.
Vaihe 3: Varsinaisten visualisointien tekemisessä työkirjaan lisätään sivuja (worksheet). Lisäystoiminto löytyy esim. Worksheet-menusta sekä aivan käyttöliittymän alareunasta, välilehtien kohdasta:
Kukin sivu toimii valmiissa sovelluksessa kojelaudan (dashboard) osana, yhtenä sen visualisointina.
Tableaun perusfilosofia on jakaa data diskreetteihin ja jatkuviin muuttujiin (käyttöliittymässä siniset ja vihreät attribuuttikentät). Visualisointien lähtödata määritellään tulkitsemalla osa muuttujista ”dimensioiksi” (dimension) ja osa näiden ”mittausten” arvoiksi (measure). Tableau ehdottaa visualisointien muotoa automaattisesti, tai se voidaan valita menuista.
Visualisoinnit rakennetaan yhdistelmänä tuplaklikkaus-, raahaus- ja tekstinsyöttöoperaatioita. Esimerkiksi Petal Length -muuttujan raahaaminen Columns-kenttää liittää ko. muuttujan visualisointiin, ja vastaavasti class-muuttujan raahaaminen Colour-kenttään värittää kuviot luokittelevan muuttujan perusteella määritellyillä väreillä. (Vrt. Tableaun käyttöliittymän peruskäsitteet [6].)
Siten yksinkertaisen, muuttujan keskiarvoa kuvaavan pylväsdiagrammin tekeminen iris-aineiston pohjalta, onnistuu esim. seuraavasti:
- Luodaan ja nimetään visualisointivälilehti (worksheet, työkirjan sivu) esim. nimelle ”Keskiarvo”. (Kyse on tässä vain työkirjan sivun nimestä, joka näkyy oletuksena; käyttäjille näkyvien visualisointien parempia otsikoita voi paljon paremmin hallita myöhemmin esiteltävän kojelaudan koristetekstikenttien avulla.)
- Tuplaklikataan muuttujan nimeä vasemmanpuoleisen data-paneelin Tables-alueella (esim. Petal Length), näin muodostuu yksittäinen pylväs, joka summaa ko. muuttujan arvot.
- Valitaan Tableaun automaattisesti ehdottama Rows-muuttujan ”SUM(PetalLength)” kontekstimenusta palkin arvoksi haluttu keskiarvo: ”Measure(Sum)” > ”Average”.
Tuloksena saadaan oheinen visualisointi, joka kuvaa aineiston kaikkien datarivien tai instanssien Petal Length –attribuuttien keskiarvoa (joka on siis yksi luku, tässä 3,759):
Saman visualisoinnin voi yleensä tehdä usealla eri tavalla. Esim. tuplaklikkauksen sijaan, muuttuja Petal Length olisi voitu edellä hyvin myös itse suoraan raahata haluttuun Rows-kenttään.
Monimutkaisempien visualisointien tekeminen onnistuu vastaavasti, yhdistelemällä eri toimintoja:
Visualisointien luettavuuteen kannattaa kiinnittää huomiota. Tulkintaa tyypillisesti helpottaa, kun yksi visualisointi esittää vain yhtä riittävän rajattua asiaa, kuviot ja akselit on nimetty asianmukaisesti, tekstikentät ovat (Suomessa) luettavissa vasemmalta oikealle ja värejä on käytetty systemaattisesti.
Tekstin tulisi olla riittävän suurta ja helppolukuista. Punaisen ja vihreän väriyhdistelmän sijaan, värien erottelua vaativissa visualisoinneissa kannattaa oletuksena käyttää esim. sinistä ja oranssia, tai sinistä ja punaista väriyhdistelmää.
Tableau osaa ehdottaa, minkä muotoista dataa eri visualisointinäkymät tarvitsevat, tai päinvastoin (Show Me):
Ei-toivotut operaatiot voi perua undo-toiminnolla, minkä ansiosta erilaisten kokeiluiden tekeminen on nopeaa. Useat käyttöliittymäkomponentit tarjoavat myös kontekstimenun, jonka kautta niiden asetuksia voi muokata.
Syystä tai toisesta, automaattiset visualisointien määrittelytoiminnot (esim. attribuutin tuplaklikkaus) eivät aina tuota haluttua lopputulosta, joten monimutkaisempien visualisointien suunnittelussa joutuu yleensä etukäteen suunnittelemaan, mitä oikeastaan haluaa tehdä — ja kokeilemaan eri vaihtoehtoja. Kuten edellä havaittiin, Tableau esimerkiksi yleensä laskee oletuksena summan mittausten arvoista, mikä toisinaan kehittäjältä unohtuu visualisointeja rakenneltaessa.
Asioiden muokkaaminen on helppoa, mutta joissain tilanteessa automatiikka vaikuttaa hieman sekoittavan Undo-toimintoa: Tilanteessa, jossa visualisointiin johtanut toimenpideketju ei millään näytä tuottavan haluttua lopputulosta, on usein helpointa aloittaa koko visualisoinnin (worksheet) määrittely kokonaan uudelleen (Clear Sheet).
Sivuille voidaan liitää myös filttereitä, joiden avulla esitettävää dataa on mahdollista rajata joko yksittäisen kuvion tai sivujen tasolla.
Vaihe 4: Kun visualisointisivuja (worksheet) on sopivasti määritelty, niistä kootaan sopiva joukko uudelle kojelauta-välilehdelle (dashboard):
Kojelauta tarjoaa mahdollisuuden sommitella yhteen näkymään useita visualisointeja sekä koriste-elementtejä (esim. otsikko tai valokuva). Kojelaudat ovat tyypillisesti interaktiivisia ja mahdollistavat esim. usean kojelaudalle sijoitetun visualisoinnin filtteröinnin tai arvojen korostamisen (highlight) samanaikaisesti: Valmiita (kytkettyjä) visualisointeja tai niiden osia voi yleensä korostaa klikkaamalla jotakin sen komponenttia (esim. legend-kuvausta tai yksittäistä pylvästä).
Tableau taittaa kojelaudalle valitut objektit ruudulle joko automaattisesti, tai sitten ne voidaan asemoida (suunnilleen) käsin (floating-asetus). Kojelaudan taitto ei aina toimi tarkasti, joten visualisointikomponentit kannattaa yleensä asemoida melko väljästi.
Vaihe 5: Tableaun ”tarinankerronnan” filosofian mukaisesti, valmiista visualisoinneista ja kojelaudoista voidaan koostaa tarina (story):
Huomaa tarinan yläreunassa oleva harmaa navigointipalkki.
Tarina muistuttaa visualisoinneista ja kojelaudoista koottua interaktiivista diaesitystä, ja sopii nimensä mukaisesti esim. esityksen pitämiseen visualisointitehtävästä. Filtterit ja korostukset toimivat myös tarinoissa.
Lopuksi tarina ja sen visuaaliset ja koriste-elementit viimeistellään käyttötarkoitukseen sopivalla tarkkuudella.
Vaihe 6: Valmis visualisointitarina (tai sen työversio) talletetaan ja julkaistaan Tableau-pilvipalvelussa. Julkaistujen visualisointitarinoiden katselu onnistuu verkkoselaimella, ilman muita erikseen asennettavia ohjelmistoja.
Maksullinen Tableau-versio tarjoaa enemmän toimintoja, esim. PDF-tulostuksen.
4. Edistyneempiä Tableaun piirteitä
Tableau osaa automaattisesti valita ja rajata datataulukoiden sisältöä ja se tunnistaa tyypillisimpiä muuttujatyyppejä. Saatavilla on myös datan esikäsittelyyn liittyviä aputoimintoja. Käyttäjän on kuitenkin aina syytä varmistaa, että data on ladattu oikein.
Työkirjojen Analytics-välilehden sisältä löytyy myös peruskäyttöä edistyneempiä piirteitä, joiden avulla voi tehdä monimutkaisempaa automaattista laskentaa hyödyntäviä visualisointeja, kuten esim. klusterointeja:
Tableau tarjoaa nykyisellään välineitä erilaisten tiivistelmien tekemiseen (esim. keskiarvot tai boxplot-kuviot), trendiviivojen määrittelyyn (erityyppisiä regressiokäyriä), klusterointiin (K-Means) sekä aikasarjojen tapauksessa lähitulevaisuuden ennusteiden tekemiseen (forecast). Toiminnot aktivoidaan taas raahaamalla. Osa Analytics-välilehden toiminnoista asettaa lisävaatimuksia datalle tai esim. olettaa, että visualisoinnin Detail-kohtaan on liitetty sopivia lisätietoja.
Lienee odotettavissa, että edistyneempiä toimintoja on tulossa työkaluun myöhemmin vielä lisää.
5. Lopuksi
Lopuksi kannattaa vielä muistaa, että kehitystehtävän alustava analyysi perustuu yleensä tietyn otosaineiston analysointiin. Koska sekä otoksen valintaan että sen edustavuuteen voidaan ajatella liittyvän satunnaisuutta, tarkoittaa tämä sitä, että myös analyysien taustalla voi vaikuttaa osin sattuma. Mitä pienempi aineisto on (ja mitä suurempi on aineiston hajonta), sitä suurempi on todennäköisyys sille, että analyysin tulokseen voidaankin päätyä sattumalta!
Tilastotieteessä täsmällisesti määritellyille testeille voidaan laskea ns. p-arvo, joka kuvaa tuloksen tilastollisen merkitsevyyttä: Intuitiivisesti sanottuna p-arvo kuvaa, kuinka todennäköistä on, että testin tulokseen on päädytty sattumalta — mitä pienempi testin p-arvo, sitä uskottavampi tai merkitsevämpi testitulos on. Alustavissa analyyseissä tällaiseen täsmällisyyteen ei yleensä päästä, joten on tärkeää, että alustavien tulosten perusteella ei tehdä liian kauaskantoisia johtopäätöksiä. Aluksi työssä on kyse ennen kaikkea kehitystehtävän ilmiön suuntaa-antavasta opiskelusta.
Tulosten hyväksyttävyyttä arvioitaessa kannattaa pitää myös mielessä, että esim. koneoppimisen mallit toimivat pääsääntöisesti vain tietyllä tilastollisella tarkkuudella. Hyväkin ennuste- tai luokittelumalli voi esimerkiksi tuhannen ajon tapauksessa antaa keskimäärin yhdeksässä tapauksessa kymmenestä oikean tuloksen — mutta siten yhdessä tapauksessa kymmenestä (täysin) väärän.
Erityyppisiä virheitä sattuu siis väistämättä. Koneoppimisen virheiden vaikutusten minimointi kriittisissä sovelluksissa on siten tärkeää, aivan kuten ihmistenkin tekemien virheiden vaikutusten minimointi on.
Lähteitä
[1] Business Intelligence and Analytics Software. Tableau Software, LLC, a Salesforce Company. Saatavilla https://www.tableau.com/
[2] Tableau Public. Tableau Software, LLC, a Salesforce Company. Saatavilla https://public.tableau.com/
[3] Resources | Tableau Public. Tableau Software, LLC, a Salesforce Company. Saatavilla https://public.tableau.com/en-us/s/resources
[4] Data Visualization | Microsoft Power BI. Microsoft. Saatavilla https://powerbi.microsoft.com/
[5] Iris flower data set. Wikipedia. Saatavilla https://en.wikipedia.org/wiki/Iris_flower_data_set
[6] The Tableau Workspace – Tableau. Tableau Software, LLC, a Salesforce Company. Saatavilla https://help.tableau.com/current/pro/desktop/en-us/environment_workspace.htm
Kommentit