Millaisia aloja toistettavuuskriisi koskee?

Anu Silfverberg kirjoitti Long Playhin ansiokkaan jutun toistettavuuskriisistä. Yksi kysymys jäi kuitenkin liian vähälle käsittelylle: mitä tieteenaloja toistettavuuskriisi koskee? Toisin kuin jutussa väitetään, ei kaikkia.

Anu Silfverberg kirjoitti Long Playhin ansiokkaan jutun toistettavuuskriisistä. Kun hän juttua käsittelevässä sivuäänessä ihmetteli, että ”miten on mahdollista, ettei tästä puhuta”, minua kyllä hieman huvitti. Aihe on ollut muun muassa tieteenfilosofiakonferenssien peruskauraa jo vuosikaudet ja kollegoitteni lailla käsittelen sitä ilman muuta tieteenfilosofiankursseilla. Olen myös kirjoittanut siitä yleistajuisesti jo vuosia sitten, enkä ole ainoa. Opiskelijoista erityisesti psykologianopiskelijat ovat järjestään tilanteesta hyvin perillä. Aiheen näkymättömyys julkisessa keskustelussa ei ole kiinni tutkijakunnan tekemisistä; toimittajia ja suurta yleisöä ei vain näytä niin kiinnostavan.

Long Playn juttu oli tosiaan hyvä, mutta yksi kysymys jäi liian vähälle käsittelylle: mitä tieteenaloja toistettavuuskriisi koskee? Toisin kuin jutussa väitetään, ei kaikkia. Juttuun haastateltu Nosek tuntuu olevan sitä mieltä, että suunnilleen kaikkia, mutta joitain enemmän kuin toisia – erityisessä vaarassa ovat hänen mukaansa alat, joilla tutkimusaineiston kerääminen on vaikeaa, analyysin tavassa on paljon joustoa ja liikkumavaraa eikä taustalla ole kovin vahvaa teoriaa. Nämä erottavat tekijät ovat kuitenkin merkityksellisiä vasta sen jälkeen, kun on ensin sivuutettu iso joukko tieteenaloja, joita replikaatiokriisi ei koske lainkaan.

Oletan, että Silfverberg haastatteli Nosekia englanniksi ja suomensi sitten sanan ”science” tieteeksi. Englannin ”science” on kuitenkin merkitykseltään paljon kapeampi kuin suomen ”tiede”. Meidän tieteemme vastaa saksan Wissenschaftia ja latinan scientiaa ja kattaa kaikki akateemiset alat. Englannin science on outo poikkeus kattaessaan vain luonnontieteet.

Replikaatiokriisi koskee sellaisia aloja, joilla tehdään kokeellista tutkimusta ja tutkimusaineistojen tulkintaan käytetään tilastollisia menetelmiä. Ja näistäkin se koskee lähinnä aloja, joilla keskeiset tulokset ovat kokeita varten tuotetuista  aineistoista tilastollisin menetelmin löydettäviä ilmiöitä. (Lisäys myöhemmin Nelli Hankosen kommentin seurauksena: kyllä se koskee muutakin kvantitatiivista tutkimusta kuin sellaista, jossa käytetään kokeellisia menetelmiä  – keskeistä on uusien ilmiöiden etsiminen tuotetuista tai kootuista aineistoista ja tilastollisten analyysimenetelmien käyttö) Se ei siis koske historiantutkimusta, koska historiallisia tapahtumia ei voi tutkia kokeellisesti eikä niistä voi tuottaa uutta aineistoa (koska ne ovat jo menneet). Se ei juurikaan koske arkeologiaa, vaikka alalla käytetään kokeellisia menetelmiä, koska kokeilla tuotetaan arkeologiassa vain lisätietoa arkeologisista jäänteistä, ja varsinainen tutkimustulos on jäänteistä tehtävä, menneisyyttä koskeva tulkinta. Kriisi ei tietääkseni koske kielitiedettä lainkaan. Se ei koske kvalitatiivista yhteiskuntatieteellistä tutkimusta lainkaan, ja kvantitatiivistakin vain joissain tapauksissa.

Silfverberg mainitsee kaksi esimerkkiä aloista tai menetelmistä, joita toistettavuuskriisi on riepotellut: psykologia ja toiminnallinen magneettikuvaus. Katsotaan niitä vähän lähemmin.

Psykologiassa toistettavuuskriisi seurasi siitä, että kokeissa käytettiin liian pieniä otoskokoja ja sluibattiin tulkintamenetelmien käytössä. Mitä tämä tarkoittaa? Jos halutaan tutkia omenoita, otos on joukko omenoita. Jos halutaan tutkia ihmisiä yleensä, otos on joukko ihmisiä. Otoksessa on aina jonkin verran sattuman aiheuttamaa vaihtelua – esim. erikokoisia omenoita. Pienessä otoksessa muutama poikkeava yksilö voi vinouttaa tulokset. Lisäongelmia aiheutti se, että välillä tutkijat päätyivät vaihtamaan tutkittavaa hypoteesia sen jälkeen kun aineisto oli jo koottu. Joissain kokeellisen psykologian ongelmalliseksi osoittautuneissa tutkimuksissa pienen otoksen perusteella tuotetuista tuloksista on siis jälkikäteen etsitty mitä tahansa, minkä voisi tulkita tilastollisesti merkitseväksi. Ja tokihan jotain aina löytyy jos otos on pieni. Näin löytää kaikenlaista jännittävää, mutta tuottaa herkästi hyvin paljon virheellisiä positiivisia tuloksia: jos koe toistetaan uudella otoksella, tulokset katoavat. Nykyään alalla varsin yleisesti rekisteröidään tutkittavat hypoteesit etukäteen ja avataan aineistot muiden tarkasteltaviksi, joten tällainen ei enää helposti onnistu.

Toiminnallisessa magneettikuvauksessa mitataan radiotaajuista signaalia, jota vety-ytimet säteilevät silloin kun ne ovat voimakkaassa magneettikentässä. Näin saadaan suuri määrä mittaustuloksia, joita pitää tulkita. Tulkintaan käytetään tilastollisia menetelmiä: niiden avulla suuresta informaatiomäärästä saadaan esiin olennainen. Käytetyt menetelmät ovat sellaisia, että niillä syntyy ensi alkuun helposti virheellisiä positiivisia tuloksia: ne siis toimivat niin kuin seula, joka nappaa kaikki oikeat tulokset, mutta ne myös saavat kerätystä aineistosta löytyvät satunnaiset poikkeavuudet näyttämään merkittäviltä tutkimustuloksilta. On olemassa keinoja karsia virheelliset positiiviset tulokset pois, mutta niiden käyttö lisää mahdollisuutta, että joku aito ilmiö jää huomaamatta. Tutkijat joutuvat siis valitsemaan: saadaan joko kaikki oikeat tulokset ja lisäksi virheellisiä positiivisia tuloksia tai saadaan pelkästään oikeita tuloksia, mutta vain osa niistä.

Craig M. Bennett, Abigail A. Baird, Michael B. Miller ja George L. Wolford julkaisivat vuonna 2010 artikkelin ”Neural Correlates of Interspecies Perspective Taking in the Post-Mortem Atlantic Salmon: An Argument For Proper Multiple Comparisons Correction”, jolla he saivat Ig Nobel -palkinnon. Artikkelia on väärinymmärretty julkisuudessa tarmokkaasti. Toisin kuin monesta lehtijutusta aikanaan saattoi päätellä, artikkelin päähuomio koski tutkimusmenetelmiä: jos ei käytä menetelmiä, joilla virheelliset positiiviset tulokset karsitaan pois, voi toiminnallisella magneettikuvauksella löytää esim. aivotoimintaa kuolleesta lohesta. Kirjoittajat huomauttivat, että silloin kun he esittelivät tämän tuloksensa konferenssissa, 25–40% niistä tutkimuksista, joissa hyödynnettiin toiminnallista magneettikuvausta, eivät käyttäneet menetelmiä, jolla virheelliset posiviiviset tulokset karsitaan pois. Tilanne muuttui nopeasti: siinä vaiheessa kun kirjoittajat palkittiin, näin toimittiin enää 10% tutkimuksista.

Miksi tutkijat sitten eivät karsineet virheellisiä positiivisia tuloksia pois? Miksi kokeellisessa psykologiassa käytettiin liian pieniä otoskokoja ja sluibattiin tulosten tulkinnassa? Silfverbergin haastateltavat toteavat aivan oikein: siksi, että tieteen insentiivijärjestelmät ovat rikki.

Paul E. Smaldino ja Richard McElreath julkaisivat vuonna 2016 mainion artikkelin ”The natural selection of bad science” eli ”huonon tieteen luonnonvalinta”, jossa he tarkastelevat toistettavuuskriisiä. He toteavat, että a) kaikki tutkimusrahoittajat haluavat tutkijoiden julkaisevan, b) tieteelliset lehdet haluavat julkaista jännittäviä löytöjä, eivät nollatuloksia, c) jatkorahoitusta saadaan tulosten ja julkaisujen perusteella ja d) uudet tutkijapolvet oppivat menetelmänsä menestyvissä tutkimusryhmissä. Eli jos sitä ei erikseen estetä, nuoret tutkijat oppivat taitonsa todennäköisesti ryhmissä, jotka tuottavat paljon virheellisiä positiivisia tuloksia. Kukaan ei välttämättä tajua tekevänsä mitään erityisen väärää: kai nyt tutkimus on hyvää, jos sitä julkaistaan ja siitä palkitaan? Tieteen instituutiot eivät aina oikein tue totuudentavoittelua.

Näin siis niillä aloilla, joilla keskeiset tulokset ovat kokeissa tuotetuista (tai muuten kootuista) aineistoista tilastollisin menetelmin löydettäviä ilmiöitä. Ne ovat vain osa tieteen kentästä. Muilla aloilla on sitten omat ongelmansa.

– – –

Lisätty myöhemmin: Tekstini kirvoitti kommentteja somessa. Olli Silvennoinen huomautti, että kyllä kielitieteessäkin – etenkin kielitieteen ja psykologian rajalla – näkyy merkkejä replikaatiokriisistä. Kaisa Saurio puolestaan kirjoitti minulle vastauksen, jonka mukaan kuvani psykologian nykytilanteesta on turhan ruusuinen – opiskelijoiden ja aktiivien valveutuneisuus ei tarkoita, että ongelmat olisi saatu jo ratkaistua. Ja Nelli Hankosen kommentit saivat minut tarkentamaan kantaani, kuten yltä näkyy.

Kommentit

Kerran joku jossain (sic) puolusti pientä tutkittavien määrää ihmistieteen ollessa kyseessä. En ymmärtänyt sitä silloinkaan, ja pari artikkelia, jotka juuri selasin, olivat juuri sellaisia. Löytyykö puolustusta tuolle?

Johannes Kajava

22.9.2021 22:51

Sehän riippuu ihan siitä, mitä ja miten tutkitaan. Jos tutkimuskohteena on esim. jonkun poliitikon ura, niin ei siinä mitenkään kauhean monia ihmisiä tarvitse haastatella, kunhan valitsee oikeat (lisäksi tarvitaan toki suuri määrä muita lähteitä). Tai jos tekee etnografista tutkimusta jostain pienestä yhteisöstä Siperiassa, voi olla hyvinkin valaisevaa tutkia sitä ihan muutaman ihmisen näkökulman läpi, ja siis keskittyä muutamaan informanttiin. Tuollaisissa tutkimuksissa ei ole tarkoitus tuottaa yleistettäviä väitteitä, joten pieni tutkittavien määrä ei ole ongelma. Tapaustutkimuksilla voi myös esimerkiksi esittää vastaesimerkkejä yleisesti hyväksytyille oletuksille tai tuottaa kuvauksia yksittäisistä syy-seurausketjuista. Tilanteesta riippuen niillä voi olla paljonkin tiedollista arvoa.

Inkeri Koskinen

22.9.2021 23:41

Juuri näin. Harmi, etten muista lähdettä, muistaakseni ei mainitsemiisi tapauksiin kuuluva. Kiitokset.

Johannes Kajava

23.9.2021 22:18

Vastaa

Käsitellään kommentteja...

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *