Tableau (Public) –aloitusohje data-analytiikan ja visualisointien tekemiseen ilman ohjelmointia

Iiris-aineiston Petal Length Cm –attribuutin histogrammi Tableau-sovelluksessa. Histogrammin pylväät on merkattu värikoodein luokkien Iris-setosa, Iris-versicolor ja Iris-virginica mukaisesti. Ilman värikoodausta histogrammi sisältäisi vain kaksi komponenttia Iris-setosa vs. muut luokat, mutta värikoodauksen ansiosta myös toisiinsa sekoittuneet luokat Iris-versicolor ja Iris-virginica erottuvat melko terävärajaisesti.
Histogrammi sekoittuneiden jakaumien havainnollistamisessa. (Kuvan saavutettava tekstivastine: Iiris-aineiston Petal Length Cm –attribuutin histogrammi, jonka pylväät on merkattu värikoodein luokkien Iris-setosa, Iris-versicolor ja Iris-virginica mukaisesti. Ilman värikoodausta histogrammi sisältäisi vain kaksi komponenttia Iris-setosa vs. muut luokat, mutta värikoodauksen ansiosta myös toisiinsa sekoittuneet luokat Iris-versicolor ja Iris-virginica erottuvat melko terävärajaisesti.)

Visuaalinen data-analytiikka tarjoaa menetelmän sovellusten datalähtöiseen ymmärtämiseen. Tämä aloitusohje kertoo, kuinka päästä alkuun visuaalisen analytiikan kokeiluissa Tableau (Public) -työkalua käyttäen.

Ohje on tuotettu osana AI-lähettiläs -hanketta. AI-lähettiläs -hanke on Tampereen ammattikorkeakoulun ja Turun yliopiston kauppakorkeakoulun yhteinen ESR-hanke, joka auttaa yritysten avainhenkilöiden kehittymistä tekoälyn ja data-analytiikan hyödyntämisessä. Hankkeen rahoittajana toimii Suomen rakennerahasto-ohjelma Kestävää kasvua ja työtä 2014–2020.

Nimensä mukaisesti, tässä dokumentissa tutustutaan vain työkalun minimaaliseen peruskäyttöön: Sovelluksen toiminnoista käsitellään siis vain pieni osa, eikä esim. tilastotieteen tai visualisointimallien perusteita juuri esitellä.

1. Johdanto

Tableau on Windows- ja Mac-työpöytäympäristöihin asennettava työkaluohjelma, jonka avulla on helposti mahdollista tehdä visuaalisen analytiikan kojelautasovelluksia (dashboard) sekä julkaista niitä verkossa [1]. Yksinkertaisten visualisointien tekeminen ei vaadi ohjelmointitaitoja, mutta edellyttää jonkin verran tilastotieteen perusteiden, visualisointimallien sekä taulukkolaskentaohjelmista tuttujen funktioiden käytön ymmärtämistä.  

Tableausta on olemassa sekä kaupallinen versio että opiskelukäyttöön tarkoitettu Public-ilmaisversio [2]. Opiskelukäyttöön tarkoitettu ilmaisversio tallettaa projektit käyttäjän tilin julkisen profiilin yhteyteen Tableau-pilvipalvelimelle, eli ilmaisversiolla ei kannata käsitellä luottamuksellisia tietoja. (Projektit voi asettaa piilotetuiksi oman profiilin asetuksista, mutta ne tietenkin sijaitsevat silti Tableaun palvelimella.)   

Tableaun opiskeluun ja käyttöön on saatavilla runsaasti hyvälaatuista itseopiskelumateriaalia [3]. Opetusmateriaali sisältää ohjedokumenttien ja esimerkkiaineistojen lisäksi parikymmentä lyhyttä ja selkeää, englanninkielistä itseopiskeluvideota, joiden avulla on mahdollista kokeilla visualisointien tekemistä esimerkkien avulla. 

Windows-ympäristössä toinen, vastaavantyyppinen työkaluohjelma on esim. Microsoft Power BI desktop [4]. 

2. Visuaalisen data-analytiikan perusidea

Visuaalista data-analytiikkaa käytetään välineenä valitun kohdesovelluksen ymmärtämiseen tai jonkin tietyn sovellustehtävän ratkaisemiseen. Lisääntynyt ymmärrys auttaa myös osaltaan ymmärtämään paremmin, minkälaista dataa tulisi kerätä (lisää) ja kuinka sitä kannattaisi kukaties vielä paremmin analysoida.  

Analyysityön konkreettisena tuloksena saadaan esim. tunnuslukuja, taulukoita, visualisointeja ja raportteja, sekä yksinkertaisia tilastollisia malleja (esim. regressiosuora, joka kuvaa aikasarja-aineiston trendiä).  

Huomaa, että analyysin ja sen tavoitteiden ymmärryksen perustana on aina kohdesovelluksen sekä sen prosessien ja tarpeiden tuntemus — jonka selvittämiseen kannattaa panostaa: Mikäli kohdesovellus tai sen tavoitteet ovat epäselviä, jää myös siitä kerätyn datan tulkinta hämärän peittoon, eivätkä hienotkaan kuvaajat tilannetta miksikään muuta. Ilman kohdesovelluksen tuntemusta, myös aineiston mahdolliset vinoutumat ja koodaus- tai käsittelyvirheet jäävät helposti huomiotta. 

3. Tableaun peruskäyttö 

Tableaun käytön perusidea on aluksi tehdä visuaalisen analytiikan kokeiluita ja sitten lopuksi koota valmiista visualisoinneista analyysisovelluksen tai datan ”tarina” (ns. story, mikä on tietyntyyppinen interaktiivinen raportti).  

Sovelluksen pelkistetty työkulku on lyhyesti kuvattu alla. Huomaa, että Tableaun toteutus ja käyttöliittymä saattavat kehittyä uusien ohjelmaversioiden myötä, mistä syystä tuorein Tableau-versio saattaa näyttää hieman erilaiselta. Esimerkit on tehty versiolla 2021.0 (20211.21.0320.1853). 

Vaihe 1: Työn ensimmäisessä, alustavassa vaiheessa valmistellaan lähdedata sopivassa formaatissa (esim. csv- tai Excel-tiedosto).  

Tässä esimerkkinä klassinen ja helppo iiris-aineisto, ladattuna tekstieditoriin [5]: 

Csv-muotoinen Iiris-datatiedosto iris-with-headers.data avattuna Notepad++-tekstinkäsittelyohjelmaan. Ensimmäisellä rivillä attribuuttien nimet sepalLengthCm, sepalWidthCm, petalLengthCm, petalWidthCm ja class, pilkulla eroteltuna. Toiselta riviltä alkaen kukin yksittäinen datarivi sisältää pilkulla erotettuna neljän ensimmäisen kuvailevan attribuutin numeerista tietoa, esim. toisella rivillä 5.1,3.5,1.4,0.2. Kunkin datarivin lopussa on vielä luokitteleva merkkijono, esim. toisen rivin lopussa teksti Iris-setosa.
Iiris-aineisto ladattuna Notepad++ -tekstinkäsittelyohjelmaan csv-muodossa. (Kuvan saavutettava tekstivastine: Csv-muotoinen Iiris-datatiedosto iris-with-headers.data avattuna Notepad++-tekstinkäsittelyohjelmaan. Ensimmäisellä rivillä attribuuttien nimet sepalLengthCm, sepalWidthCm, petalLengthCm, petalWidthCm ja class, pilkulla eroteltuna. Toiselta riviltä alkaen kukin yksittäinen datarivi sisältää pilkulla erotettuna neljän ensimmäisen kuvailevan attribuutin numeerista tietoa, esim. toisella rivillä 5.1,3.5,1.4,0.2. Kunkin datarivin lopussa on vielä luokitteleva merkkijono, esim. toisen rivin lopussa teksti Iris-setosa.)

Iiris-aineistossa on kuvattu 150×5 –kokoiseen taulukkoon 150 eri mitatun yksittäisen kukkasen (tässä datarivi tai instanssi) verho- ja terälehtien pituudet (sepal=verholehti, petal=terälehti) sekä asiantuntijan tunnistama kukkalaji (class). Tässä tyypillisen kehitystehtävän tavoite on käyttää ensimmäisiä kuvailevia attribuutteja viidennen luokka-attribuutin ennustamiseen. 

Yllä csv-tiedoston alkuun on lisätty attribuuttien nimet metatietoina. Nimet voi vaihtoehtoisesti lisätä myös Tableaun Data Source -välilehdellä. 

Kohdesovelluksen ilmiöstä kerätään siis taulukkomuotoista aineistoa tai dataa, jossa kukin datarivi tai instanssi kuvaa yhden havaintoyksikön. Taulukon sarakkeet puolestaan kuvailevat kunkin havaintoyksikön tietoja erilaisten kuvailevien ja luokittelevien attribuuttien avulla. Dataa ja sitä kautta sovellusilmiötä pyritään ymmärtämään visuaalisen analytiikan ja tilastotieteen perusmenetelmien avulla ja dataa hankitaan ja esikäsitellään (lisää) tarvittaessa. 

Vaihe 2: Seuraavaksi luodaan uusi Tableau-työkirja (workbook) ja lisää siihen datalähde (connection): 

Tableau-ohjelman Add a Connection-dialogi, jossa valittavana erit. csv-datalle sopiva vaihtoehto "To a File > Text file". Muita vaihtoehtoja ei tässä käytetä, kuten esim. "Add a Connection To a File > Microsoft Excel" tai "To a Server > OData".
Datalähteen valinta Tableau-sovelluksessa. (Kuvan saavutettava tekstivastine: Tableau-ohjelman Add a Connection-dialogi, jossa valittavana erit. csv-datalle sopiva vaihtoehto ”To a File > Text file”. Muita vaihtoehtoja ei tässä käytetä, kuten esim. ”Add a Connection To a File > Microsoft Excel” tai ”To a Server > OData”.)

Huomaa, että esim. Excel-tyyppisen taulukon tuominen on myös mahdollista. Tämä voi olla aluksi kätevää, jos ja kun datassa on erityyppisiä muuttujia — ja joiden esitys tekstiformaatissa voidaan teoriassa siten jättää Excelin huoleksi. 

Seuraavaksi tarkistetaan ja tarvittaessa määritellään ladatun datan attribuuttien (sarakkeiden) tyypit ja annetaan attribuuteille kuvaava nimi:  

Tableau-sovellusdialogin Data Source -välilehti avattuna Iiris-aineistolla. Sovellusdialogi tarjoaa tyypilliset File-, Data- Window- ja Help-menut, kertoo nykyisen Connection-yhteystyypin, sekä esittää valitun aineiston datariveittäin taulukkolaskentaohjelmiston laskentataulukkoa muistuttavassa rakenteessa. Dialogin eri käyttöliittymäkomponentit ovat interaktiivisia ja niiden kautta on mahdollista, esim. uudelleennimetä attribuutteja.
Tableau-sovelluksen Data Source -välilehti. (Kuvan saavutettava tekstivastine: Tableau-sovellusdialogin Data Source -välilehti avattuna Iiris-aineistolla. Sovellusdialogi tarjoaa tyypilliset File-, Data- Window- ja Help-menut, kertoo nykyisen Connection-yhteystyypin, sekä esittää valitun aineiston datariveittäin taulukkolaskentaohjelmiston laskentataulukkoa muistuttavassa rakenteessa. Dialogin eri käyttöliittymäkomponentit ovat interaktiivisia ja niiden kautta on mahdollista, esim. uudelleennimetä attribuutteja.)

Tableaun oletuksena tunnistamat tyypit ovat usein toimivia. Uusia attribuutteja, esim. yksikkömuunnoksia, voidaan määritellä Excel-funktioita muistuttavien laskutoimitusten avulla. Joissakin tapauksissa on myös kätevää lukea osa lähdedatan attribuuteista merkkijonoina ja määritellä funktioiden avulla näistä uusia, laskettuja sarakeattribuutteja. Näin vaikkapa rakenteisesta tuotekoodista 2021id12356 on mahdollista irrottaa esim. vuosi 2021 omaksi attribuutikseen. 

Mikäli data ei lataudu oletuksena asianmukaisesti monen sarakkeen taulukkomuodossa, tulee tarvittaessa tarkistaa esim. csv-tiedoston luku- ja lokaaliasetukset, esim. desimaalipiste vs. csv-tiedoston erotinmerkki (valitse tiedoston kuvake ja sen kontekstimenusta hiiren oikealla napilla Text File Properties…): 

Valitsemalla Tableaun aktiivisen yhteyden (Connections), tässä tiedoston iris-data-with-headers, pääsee muokkaamaan ko. csv-tiedoston lukuasetuksia. Tässä tärkeimpinä asetusten valittavina kenttinä nyt Field separator (valittu arvo Comma), Test qualifier (valittu arvo Automatic), Character set (valittu arvo UTF-8) ja Locale (valittu arvo English (United States).
Csv-datalähteen adapterin asetukset Tableaussa. (Kuvan saavutettava tekstivastine: Valitsemalla Tableaun aktiivisen yhteyden (Connections), tässä tiedoston iris-data-with-headers, pääsee muokkaamaan ko. csv-tiedoston lukuasetuksia. Tässä tärkeimpinä asetusten valittavina kenttinä nyt Field separator (valittu arvo Comma), Test qualifier (valittu arvo Automatic), Character set (valittu arvo UTF-8) ja Locale (valittu arvo English (United States).)

Usein helpointa on aloittaa yhden, verraten pienen datataulukon analysoinnilla. Tableau kuitenkin tukee myös relaatiotietokannoista tuttuja rakenteita ja (vieras)avainten käyttöä erilaisten yhdisteiden tekemisessä. 

Vaihe 3: Varsinaisten visualisointien tekemisessä työkirjaan lisätään sivuja (worksheet). Lisäystoiminto löytyy esim. Worksheet-menusta sekä aivan käyttöliittymän alareunasta, välilehtien kohdasta:  

Tableau-dialogin alareunan välilehti-työpalkin nappuloita, New Worksheet –nappula korostettuna. Muita vastaavia nappuloita ovat mm. New Dashboard ja New Story.
Uuden Tableau-työkirjan (worksheet) luonti. (Kuvan saavutettava tekstivastine: Tableau-dialogin alareunan välilehti-työpalkin nappuloita, New Worksheet –nappula korostettuna. Muita vastaavia nappuloita ovat mm. New Dashboard ja New Story.)

Kukin sivu toimii valmiissa sovelluksessa kojelaudan (dashboard) osana, yhtenä sen visualisointina. 

Tableaun perusfilosofia on jakaa data diskreetteihin ja jatkuviin muuttujiin (käyttöliittymässä siniset ja vihreät attribuuttikentät). Visualisointien lähtödata määritellään tulkitsemalla osa muuttujista ”dimensioiksi” (dimension) ja osa näiden ”mittausten” arvoiksi (measure). Tableau ehdottaa visualisointien muotoa automaattisesti, tai se voidaan valita menuista. 

Visualisoinnit rakennetaan yhdistelmänä tuplaklikkaus-, raahaus- ja tekstinsyöttöoperaatioita. Esimerkiksi Petal Length -muuttujan raahaaminen Columns-kenttää liittää ko. muuttujan visualisointiin, ja vastaavasti class-muuttujan raahaaminen Colour-kenttään värittää kuviot luokittelevan muuttujan perusteella määritellyillä väreillä. (Vrt. Tableaun käyttöliittymän peruskäsitteet [6].) 

Siten yksinkertaisen, muuttujan keskiarvoa kuvaavan pylväsdiagrammin tekeminen iris-aineiston pohjalta, onnistuu esim. seuraavasti: 

  1. Luodaan ja nimetään visualisointivälilehti (worksheet, työkirjan sivu) esim. nimelle ”Keskiarvo”. (Kyse on tässä vain työkirjan sivun nimestä, joka näkyy oletuksena; käyttäjille näkyvien visualisointien parempia otsikoita voi paljon paremmin hallita myöhemmin esiteltävän kojelaudan koristetekstikenttien avulla.) 
  2. Tuplaklikataan muuttujan nimeä vasemmanpuoleisen data-paneelin Tables-alueella (esim. Petal Length), näin muodostuu yksittäinen pylväs, joka summaa ko. muuttujan arvot. 
  3. Valitaan Tableaun automaattisesti ehdottama Rows-muuttujan ”SUM(PetalLength)” kontekstimenusta palkin arvoksi haluttu keskiarvo: ”Measure(Sum)” > ”Average”. 

Tuloksena saadaan oheinen visualisointi, joka kuvaa aineiston kaikkien datarivien tai instanssien Petal Length –attribuuttien keskiarvoa (joka on siis yksi luku, tässä 3,759): 

Iiris-aineistoa käsittelevän Tableau-dialogin Worksheet-tyyppinen välilehti nimeltään "Keskiarvo". Ko. välilehden visualisointi käsittää nyt Rows-kenttään valitun AVG(PetalLength)-termin avulla määritellyn pystypalkin, joka esittää attribuutin keskiarvoa PetalLength koko aineiston suhteen. Kuvasta nähdään, että keskiarvo on hieman yli 3,5. Dialogi myös tarjoaa Tableaun eri toimintoihin liittyviä menuja, File, Data, Worksheet, Dashboard, Story, Analysis, Map, Format, Window sekä Help. Näiden lisäksi dialogi sisältää myös kaksiulotteisten visualisointien keskiseen määrittelyyn liittyviä kenttiä, kuten Columns ja Rows, sekä kuvioiden täsmentämiseen liittyviä kenttiä Pages, Filters ja Marks. Dialogista voidaan Petal Pength-attribuutin lisäksi valita myös mm. attribuutit Class, Measure Names, Petal Width, Sepal Length, Sepal Width sekä Measure Values ja käyttää näitä eri tavoin visualisointien määrittelyssä.
Yksinkertainen pylväsdiagrammi Tableau-työkirjassa. (Kuvan saavutettava tekstivastine: Iiris-aineistoa käsittelevän Tableau-dialogin Worksheet-tyyppinen välilehti nimeltään ”Keskiarvo”. Ko. välilehden visualisointi käsittää nyt Rows-kenttään valitun AVG(PetalLength)-termin avulla määritellyn pystypalkin, joka esittää attribuutin keskiarvoa PetalLength koko aineiston suhteen. Kuvasta nähdään, että keskiarvo on hieman yli 3,5. Dialogi myös tarjoaa Tableaun eri toimintoihin liittyviä menuja, File, Data, Worksheet, Dashboard, Story, Analysis, Map, Format, Window sekä Help. Näiden lisäksi dialogi sisältää myös kaksiulotteisten visualisointien keskiseen määrittelyyn liittyviä kenttiä, kuten Columns ja Rows, sekä kuvioiden täsmentämiseen liittyviä kenttiä Pages, Filters ja Marks. Dialogista voidaan Petal Pength-attribuutin lisäksi valita myös mm. attribuutit Class, Measure Names, Petal Width, Sepal Length, Sepal Width sekä Measure Values ja käyttää näitä eri tavoin visualisointien määrittelyssä.)

Saman visualisoinnin voi yleensä tehdä usealla eri tavalla. Esim. tuplaklikkauksen sijaan, muuttuja Petal Length olisi voitu edellä hyvin myös itse suoraan raahata haluttuun Rows-kenttään.  

Monimutkaisempien visualisointien tekeminen onnistuu vastaavasti, yhdistelemällä eri toimintoja: 

Iiris-aineistoa käsittelevän Tableau-dialogin Worksheet-tyyppinen välilehti nimeltään "Keskim. pituudet". Visualisointi esittää nyt attribuuttien Petal Length, Petal Width, Sepal Length ja Sepal Width keskiarvoja pylväsdiagrammeina, luokkien Iris-setosa, Iris-versicolor ja Iris-virginica mukaisesti värikoodattuna. Visualisoinnin määrittelyssä on tällä kertaa Columns-kentässä arvot AVG(PetalLength), AVG(PetalWidth), AVG(SepalLength) ja AVG(SepalWidth), ja Rows-kentässä arvo Class.
Useita pylväsdiagrammeja Tableau-työkirjassa. (Kuvan saavutettava tekstivastine: Iiris-aineistoa käsittelevän Tableau-dialogin Worksheet-tyyppinen välilehti nimeltään ”Keskim. pituudet”. Visualisointi esittää nyt attribuuttien Petal Length, Petal Width, Sepal Length ja Sepal Width keskiarvoja pylväsdiagrammeina, luokkien Iris-setosa, Iris-versicolor ja Iris-virginica mukaisesti värikoodattuna. Visualisoinnin määrittelyssä on tällä kertaa Columns-kentässä arvot AVG(PetalLength), AVG(PetalWidth), AVG(SepalLength) ja AVG(SepalWidth), ja Rows-kentässä arvo Class.)

Visualisointien luettavuuteen kannattaa kiinnittää huomiota. Tulkintaa tyypillisesti helpottaa, kun yksi visualisointi esittää vain yhtä riittävän rajattua asiaa, kuviot ja akselit on nimetty asianmukaisesti, tekstikentät ovat (Suomessa) luettavissa vasemmalta oikealle ja värejä on käytetty systemaattisesti.  

Tekstin tulisi olla riittävän suurta ja helppolukuista. Punaisen ja vihreän väriyhdistelmän sijaan, värien erottelua vaativissa visualisoinneissa kannattaa oletuksena käyttää esim. sinistä ja oranssia, tai sinistä ja punaista väriyhdistelmää. 

Tableau osaa ehdottaa, minkä muotoista dataa eri visualisointinäkymät tarvitsevat, tai päinvastoin (Show Me): 

Korostus Tableau-sovellusdialogin oikean yläkulman Show Me –toiminnosta, joka tarjoaa erilaisia vaihtoehtoja valitun aineiston visualisointiin liittyen. Vaihtoehtoina on mm. taulukoita, pylväs- ja piirakkadiagrammeja, viivadiagrammeja sekä karttoja. Esimerkissä valittuun pylväsdiagrammiin liittyen, Tableau ehdottaa nyt vihjeenä: "For horizontal bars, try 0 or more Dimensions [and] 1 or more Measures".
Erityyppisiä visualisointeja Tableaussa havainnollistava Show Me –toiminto. (Kuvan saavutettava tekstivastine: Korostus Tableau-sovellusdialogin oikean yläkulman Show Me –toiminnosta, joka tarjoaa erilaisia vaihtoehtoja valitun aineiston visualisointiin liittyen. Vaihtoehtoina on mm. taulukoita, pylväs- ja piirakkadiagrammeja, viivadiagrammeja sekä karttoja. Esimerkissä valittuun pylväsdiagrammiin liittyen, Tableau ehdottaa nyt vihjeenä: ”For horizontal bars, try 0 or more Dimensions [and] 1 or more Measures”.)

Ei-toivotut operaatiot voi perua undo-toiminnolla, minkä ansiosta erilaisten kokeiluiden tekeminen on nopeaa. Useat käyttöliittymäkomponentit tarjoavat myös kontekstimenun, jonka kautta niiden asetuksia voi muokata. 

Syystä tai toisesta, automaattiset visualisointien määrittelytoiminnot (esim. attribuutin tuplaklikkaus) eivät aina tuota haluttua lopputulosta, joten monimutkaisempien visualisointien suunnittelussa joutuu yleensä etukäteen suunnittelemaan, mitä oikeastaan haluaa tehdä — ja kokeilemaan eri vaihtoehtoja. Kuten edellä havaittiin, Tableau esimerkiksi yleensä laskee oletuksena summan mittausten arvoista, mikä toisinaan kehittäjältä unohtuu visualisointeja rakenneltaessa. 

Asioiden muokkaaminen on helppoa, mutta joissain tilanteessa automatiikka vaikuttaa hieman sekoittavan Undo-toimintoa: Tilanteessa, jossa visualisointiin johtanut toimenpideketju ei millään näytä tuottavan haluttua lopputulosta, on usein helpointa aloittaa koko visualisoinnin (worksheet) määrittely kokonaan uudelleen (Clear Sheet). 

Sivuille voidaan liitää myös filttereitä, joiden avulla esitettävää dataa on mahdollista rajata joko yksittäisen kuvion tai sivujen tasolla.  

Vaihe 4: Kun visualisointisivuja (worksheet) on sopivasti määritelty, niistä kootaan sopiva joukko uudelle kojelauta-välilehdelle (dashboard): 

Tableau-dialogin Dashboard-tyyppinen välilehti, nimeltään "Alustava analyysi". Välilehti viittaa kolmeen worksheet-tyyppiseen visualisointiin, nimiltään, "Datan lkm", "Keskim. pituudet" ja "Sijaintiluvut" sekä esittää kootusti näitä vastaavat visuaaliset diagrammit integroidun kojelaudan osana. Dialogin avulla on mahdollista muotoilla kojelautaa, valita siihen lisää visualisointeja sekä liittää kojelautaan koristekuvioita ja selitteitä. Ko. kojelautaan on nyt liitetty seliteteksti "Alustavan analyysin johtopäätös: Petal Length melko hyvä [Iiris-luokan] mittari?".
Kojelauta (dashboard) Tableau-sovelluksessa. (Kuvan saavutettava tekstivastine: Tableau-dialogin Dashboard-tyyppinen välilehti, nimeltään ”Alustava analyysi”. Välilehti viittaa kolmeen worksheet-tyyppiseen visualisointiin, nimiltään, ”Datan lkm”, ”Keskim. pituudet” ja ”Sijaintiluvut” sekä esittää kootusti näitä vastaavat visuaaliset diagrammit integroidun kojelaudan osana. Dialogin avulla on mahdollista muotoilla kojelautaa, valita siihen lisää visualisointeja sekä liittää kojelautaan koristekuvioita ja selitteitä. Ko. kojelautaan on nyt liitetty seliteteksti ”Alustavan analyysin johtopäätös: Petal Length melko hyvä [Iiris-luokan] mittari?”.)

Kojelauta tarjoaa mahdollisuuden sommitella yhteen näkymään useita visualisointeja sekä koriste-elementtejä (esim. otsikko tai valokuva). Kojelaudat ovat tyypillisesti interaktiivisia ja mahdollistavat esim.  usean kojelaudalle sijoitetun visualisoinnin filtteröinnin tai arvojen korostamisen (highlight) samanaikaisesti: Valmiita (kytkettyjä) visualisointeja tai niiden osia voi yleensä korostaa klikkaamalla jotakin sen komponenttia (esim. legend-kuvausta tai yksittäistä pylvästä). 

Tableau taittaa kojelaudalle valitut objektit ruudulle joko automaattisesti, tai sitten ne voidaan asemoida (suunnilleen) käsin (floating-asetus). Kojelaudan taitto ei aina toimi tarkasti, joten visualisointikomponentit kannattaa yleensä asemoida melko väljästi.  

Vaihe 5: Tableaun ”tarinankerronnan” filosofian mukaisesti, valmiista visualisoinneista ja kojelaudoista voidaan koostaa tarina (story): 

Tableau-dialogin Story-tyyppinen välilehti, nimeltään "Analyysitarina". Välilehti määrittelee kolme sivua sisältävän visualisointitarinan, jonka sivujen otsikot ovat "Tehtävänanto", "Perehtyminen" ja "Johtopäätös". Valittu sivu "Perehtyminen" sisältää kojelaudan "Alustava analyysi" sisällön. Dialogin eri toimintojen avulla on mahdollista lisätä ko. tarinaan uusia sivuja (esim. New story point > Blank tai Duplicate) ja valita ja muokata näiden sisältöä.
Tarina (story) Tableau-sovelluksessa. (Kuvan saavutettava tekstivastine: Tableau-dialogin Story-tyyppinen välilehti, nimeltään ”Analyysitarina”. Välilehti määrittelee kolme sivua sisältävän visualisointitarinan, jonka sivujen otsikot ovat ”Tehtävänanto”, ”Perehtyminen” ja ”Johtopäätös”. Valittu sivu ”Perehtyminen” sisältää kojelaudan ”Alustava analyysi” sisällön. Dialogin eri toimintojen avulla on mahdollista lisätä ko. tarinaan uusia sivuja (esim. New story point > Blank tai Duplicate) ja valita ja muokata näiden sisältöä.)

Huomaa tarinan yläreunassa oleva harmaa navigointipalkki. 

Tarina muistuttaa visualisoinneista ja kojelaudoista koottua interaktiivista diaesitystä, ja sopii nimensä mukaisesti esim. esityksen pitämiseen visualisointitehtävästä. Filtterit ja korostukset toimivat myös tarinoissa. 

Lopuksi tarina ja sen visuaaliset ja koriste-elementit viimeistellään käyttötarkoitukseen sopivalla tarkkuudella. 

Vaihe 6: Valmis visualisointitarina (tai sen työversio) talletetaan ja julkaistaan Tableau-pilvipalvelussa. Julkaistujen visualisointitarinoiden katselu onnistuu verkkoselaimella, ilman muita erikseen asennettavia ohjelmistoja. 

Maksullinen Tableau-versio tarjoaa enemmän toimintoja, esim. PDF-tulostuksen. 

4. Edistyneempiä Tableaun piirteitä 

Tableau osaa automaattisesti valita ja rajata datataulukoiden sisältöä ja se tunnistaa tyypillisimpiä muuttujatyyppejä. Saatavilla on myös datan esikäsittelyyn liittyviä aputoimintoja. Käyttäjän on kuitenkin aina syytä varmistaa, että data on ladattu oikein. 

Työkirjojen Analytics-välilehden sisältä löytyy myös peruskäyttöä edistyneempiä piirteitä, joiden avulla voi tehdä monimutkaisempaa automaattista laskentaa hyödyntäviä visualisointeja, kuten esim. klusterointeja: 

Tableau-dialogin Worksheet-tyyppinen välilehti, nimeltään "Scatter 2D". Visualisointi esittää Iris-aineiston kuvattuna kaksiulotteisena pistepilvenä, attribuuttien Petal Length ja Petal Width määrittelemään tasoon. Datapisteet on värikoodattu aineistossa kuvatun ja siten tunnetun luokittelevan attribuutin Class mukaan ja pisteiden muoto on puolestaan valittu automaattisesti lasketun klusterin mukaan. Kuviosta nähdään, että klusterointi toimii tässä varsin hyvin ja tekee vain pieniä virheitä luokkien Iris-versicolor ja Iris-virginica rajalla. Klusterointimalli on määritelty Analysis-toiminnon Cluster avulla.
Klusterointinäkymä (cluster) Tableau-sovelluksessa. (Kuvan saavutettava tekstivastine: Tableau-dialogin Worksheet-tyyppinen välilehti, nimeltään ”Scatter 2D”. Visualisointi esittää Iris-aineiston kuvattuna kaksiulotteisena pistepilvenä, attribuuttien Petal Length ja Petal Width määrittelemään tasoon. Datapisteet on värikoodattu aineistossa kuvatun ja siten tunnetun luokittelevan attribuutin Class mukaan ja pisteiden muoto on puolestaan valittu automaattisesti lasketun klusterin mukaan. Kuviosta nähdään, että klusterointi toimii tässä varsin hyvin ja tekee vain pieniä virheitä luokkien Iris-versicolor ja Iris-virginica rajalla. Klusterointimalli on määritelty Analysis-toiminnon Cluster avulla.)

Tableau tarjoaa nykyisellään välineitä erilaisten tiivistelmien tekemiseen (esim. keskiarvot tai boxplot-kuviot), trendiviivojen määrittelyyn (erityyppisiä regressiokäyriä), klusterointiin (K-Means) sekä aikasarjojen tapauksessa lähitulevaisuuden ennusteiden tekemiseen (forecast). Toiminnot aktivoidaan taas raahaamalla. Osa Analytics-välilehden toiminnoista asettaa lisävaatimuksia datalle tai esim. olettaa, että visualisoinnin Detail-kohtaan on liitetty sopivia lisätietoja.  

Lienee odotettavissa, että edistyneempiä toimintoja on tulossa työkaluun myöhemmin vielä lisää. 

5. Lopuksi

Lopuksi kannattaa vielä muistaa, että kehitystehtävän alustava analyysi perustuu yleensä tietyn otosaineiston analysointiin. Koska sekä otoksen valintaan että sen edustavuuteen voidaan ajatella liittyvän satunnaisuutta, tarkoittaa tämä sitä, että myös analyysien taustalla voi vaikuttaa osin sattuma. Mitä pienempi aineisto on (ja mitä suurempi on aineiston hajonta), sitä suurempi on todennäköisyys sille, että analyysin tulokseen voidaankin päätyä sattumalta!   

Tilastotieteessä täsmällisesti määritellyille testeille voidaan laskea ns. p-arvo, joka kuvaa tuloksen tilastollisen merkitsevyyttä: Intuitiivisesti sanottuna p-arvo kuvaa, kuinka todennäköistä on, että testin tulokseen on päädytty sattumalta — mitä pienempi testin p-arvo, sitä uskottavampi tai merkitsevämpi testitulos on. Alustavissa analyyseissä tällaiseen täsmällisyyteen ei yleensä päästä, joten on tärkeää, että alustavien tulosten perusteella ei tehdä liian kauaskantoisia johtopäätöksiä. Aluksi työssä on kyse ennen kaikkea kehitystehtävän ilmiön suuntaa-antavasta opiskelusta. 

Tulosten hyväksyttävyyttä arvioitaessa kannattaa pitää myös mielessä, että esim. koneoppimisen mallit toimivat pääsääntöisesti vain tietyllä tilastollisella tarkkuudella. Hyväkin ennuste- tai luokittelumalli voi esimerkiksi tuhannen ajon tapauksessa antaa keskimäärin yhdeksässä tapauksessa kymmenestä oikean tuloksen — mutta siten yhdessä tapauksessa kymmenestä (täysin) väärän.  

Erityyppisiä virheitä sattuu siis väistämättä. Koneoppimisen virheiden vaikutusten minimointi kriittisissä sovelluksissa on siten tärkeää, aivan kuten ihmistenkin tekemien virheiden vaikutusten minimointi on. 

Lähteitä 

[1] Business Intelligence and Analytics Software. Tableau Software, LLC, a Salesforce Company. Saatavilla https://www.tableau.com/  

[2] Tableau Public. Tableau Software, LLC, a Salesforce Company. Saatavilla https://public.tableau.com/  

[3] Resources | Tableau Public. Tableau Software, LLC, a Salesforce Company. Saatavilla https://public.tableau.com/en-us/s/resources  

[4] Data Visualization | Microsoft Power BI. Microsoft. Saatavilla https://powerbi.microsoft.com/  

[5] Iris flower data set. Wikipedia. Saatavilla https://en.wikipedia.org/wiki/Iris_flower_data_set 

[6] The Tableau Workspace – TableauTableau Software, LLC, a Salesforce Company. Saatavilla https://help.tableau.com/current/pro/desktop/en-us/environment_workspace.htm 

 

 

 

 

 

 

Kommentit

Vastaa

Käsitellään kommentteja...

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

Lue seuraavaksi