Tekoälyavustajan anatomia

Generatiivinen tekoäly (GenAI) on ChatGPT:n ja muiden tekoälyavustajien ansiosta tekoälyn valokeilassa. Tuotteet ovat liikesalaisuuksia, mutta tekoälylukutaidon hengessä on tarpeen tarkastella avustajien perusrakennetta.

Tekoälyavustaja on siis tietokoneohjelma, joka esim. vastailee kysymyksiin tai toteuttaa tekstikehotteen mukaisia tehtäviä.

Avustajan voi toteuttaa eri tavoin. GenAI-pohjaisen avustajan ytimenä on kielimalli, joten keskusteluissa on periaatteessa sama kaava: Toimeksianto, istunnon keskusteluhistoria ja käyttäjän viesti syötetään avustajan kielimallille. Malli generoi raakavastauksen, jonka avustaja käsittelee keskusteluun sopivaksi, esittää ja liittää historiaan.

Avustaja (sen orkestraattori) voi lisäksi esim. hakea tietämyskannasta tai netistä mallille lisätietoja (vrt. Retrieval Augmented Generation, RAG), kutsua eri sovelluksia ja suitsia keskustelua. Avustaja voi käyttää kielimalliaan (tai useita malleja) myös sisäisinä aliohjelmina esim. tiivistelmiin tai arviointiin, rajoina muistinkulutus ja käsittelyn hitaus.

Kielimalli on opetusdatasta johdettu tietokoneohjelma. ”Malli” on parametrinen laskentakaava, joka voidaan likimääräisesti sovittaa dataan.

Malleja on erilaisia. Jutustelu (chat) tai kehote-vastaus (instruction-tuned) -tyyppinen kielimalli on opetettu joukolla esimerkkikeskusteluita ja faktoja. Multimodaalinen malli hallitsee myös kuvia ja ääntä. Mallit voivat lisäksi pyytää apuohjelmien (tool) suorittamista.

“Pienetkin” kielimallit on opetettu valtavalla opetusdatalla. Esim. Googlen gemma-3-27b-it -kielimalli sisältää n. 27 miljardia parametria ja opetettu n. 14 biljoonan (1,4 x 1013) syntaktisen merkin (token) datalla. Tämä vastaa satoja miljoonia tekstisivuja. Suuret mallit ovat kertaluokkaa suurempia ja fiksumpia, eli mistään nappikaupasta ei ole kysymys.

Avustajalle kielimalli on aliohjelma, joka ei tiedä opetusdatansa ja konteksti-ikkunansa ulkopuolisesta maailmasta. Generatiivinen malli osaa kuitenkin generoida merkkejä (teknisesti “tokeneita”): Kun mallia suoritetaan, generoi se kontekstinsa merkkien pohjalta lisää merkkejä. Ideatasolla malli toteuttaa “jatka merkkirakennetta” -peliä ja “arvaa” miten esim. lukujonoa 1, 2, 3, … tulisi jatkaa (4?). Kielimalli osaa myös jatkaa keskustelua opetusdatansa viitoittamalla tavalla – ja “vastata” enemmän tai vähemmän järkevästi.

Kielimallia rajoittavat parametrien määrä ja kontekstin koko. Ne vaikuttavat mallin ilmaisuvoimaan (”äly”) ja työmuistin kokoon. Em. gemma-3-27b-it -mallin konteksti on 128 000 merkkiä (tokenia), eli n. 95 000 englanninkielistä sanaa. Malli ei voi kerralla käsitellä uutta 100 000 sanan kirjaa: Kontekstiin pitäisi mahtua paitsi kirja, myös kehote ja generoitava vastaus.

Avustajan pitää pilkkoa isot tehtävät osiin sekä tiivistää ja siirtää tietoja tietämyskannan pitkäkestoiseen muistiin. Käyttäjän pitää (toistaiseksi) hoksata aloittaa ja pohjustaa uusi istunto aina aiheen vaihtuessa – avustaja kun voi yliankkuroitua kontekstiin. Avustaja voi silti puhua myös höpöjä eli hallusinoida.

Avustajat ovat tehokas ja kiehtova yhdistelmä orkestrointilogiikkaa ja kielimallien mustia laatikoita. Toisaalta on harmillisen vaikea sanoa milloin avustaja toimii systemaattisesti oikein. Uskottavan tekstin generointi kun ei välttämättä takaa haluttuja saati oikeita vastauksia. Tarvitaan siis testausta, jatkuvaa laaduntarkkailua – sekä ihmisen ja tekoälyn vuorovaikutusta ymmärtävää kriittistä käyttäjää.

Tekstin kirjoituksessa on hyödynnetty tekoälyä kielenhuoltoon ja faktantarkistuksiin (esim. suuntaa-antavat arviot token-sana -muunnoksista).

Kirjoittaja: Ossi Nykänen, lehtori, teollisuusteknologia, TAMK.

Kommentit

Vastaa

Käsitellään kommentteja...

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *