Data-analytiikan merkitys

Viimeisen vuosikymmenen aikana data-analytiikka (tai kenties selkeämmällä kielellä koneellinen tiedonseulonta) on muotoutunut omaksi alakseen ja kasvanut räjähdysmäisesti. Esimerkiksi ”data-analytiikka” -nimellä löytyvien työpaikkojen määrä erinäisissä töidenhakupalveluissa on suuri jo nyt, ja kasvaa jatkuvasti. Internet on pullollaan data-analytiikkaan liittyviä blogiartikkeleja. Mistä tämä johtuu? Kuka käyttää data-analytiikkaa — ja kuka voi hyötyä siitä?

Kuka?

Vuoden 1969 lokakuussa erään yhdysvaltalaisen yliopiston opiskelija Charley Kline lähetti historian ensimmäisen viestin internet-yhteydellä. Tarkoituksena oli lähettää sana ”login”, mutta tietokone kaatui, ja internetin ensimmäiseksi viestiksi jäi tästä syystä ”lo” – muistikäytöltään kahden tavun mittainen viesti.

Viestien määrä on tuosta ajasta kasvanut jonkin verran. Suositussa somepalvelussa Twitterissä lähetetään noin 6000 julkista viestiä sekunnissa. Kun keskiverto twiitti on noin 33 merkkiä pitkä, tämä tarkoittaa, että Twitterissä liikkuu noin 198 000 merkkiä per sekunti. Tällaisen datamäärän moderointi käsipelillä on täysin mahdoton tehtävä. 

Charley Klinen ongelma oli se, että dataa ei saatu välitettyä tarpeeksi; modernin internetin ongelma on se, että sitä välittyy aivan liikaa. Ilmiö on niinkin raju, että informaation säilömiseen tarvittavien laitteiden kapasiteetti on tuplaantunut noin 40 kuukauden välein 1980-luvulta alkaen [2].

Data-analytiikan merkitys
Muutamien asiaan liittyvien termien suosio Googlessa.

Moderointia on silti pakko suorittaa, koska viestien joukkoon mahtuu käyttöehtojen ja jopa lain vastaisia viestejä. Ainoa järkevä tapa yrittää estää etukäteen epäsopivan materiaalin päätyminen käyttäjän luettavaksi on analysoida kaikki se valtava määrä dataa, jota käyttäjät palveluun lähettävät, ja automaattisesti poistaa mahdollisesti sopimaton sisältö. Twitterin kaltaiset somepalvelut käyttävät hienostunutta data-analytiikkaa tällaisen materiaalin seulomiseksi. Data-analyysin tehtävä on seuloa datasta ihmiselle hyödyllistä tietoa.

Toinen tuttu esimerkki data-analyysin voimasta on osakemarkkinat. Modernit investointiyritykset keräävät valtavan määrän erilaista informaatiota ja seulovat siitä mahdollisia markkinaheikkouksia. Esimerkiksi Wall Streetillä rikastunut Jim Simons, jota on kutsuttu peräti modernin historian parhaaksi sijoittajaksi, rakensi omaisuutensa käyttämällä matemaattista mallintamista ja data-analytiikkaa markkinoiden ennustamiseen [3].

Yhä enenevässä määrin muutkin yritykset ja peräti kunnat hyödyntävät automatisoitua data-analyysiä päätöksenteossaan. Esimerkiksi Chicagon kaupunginjohto päätti käyttää data-analyysiä ravitsemusliikkeiden tarkastusten automatisoimiseen. Heidän mallinsa pyrki ennustamaan, mitkä liikkeet todennäköisimmin tekevät jotain lainvastaista, ja mihin liikkeisiin täten kannattaa tehdä useammin tarkistusvisiittejä [4]. Lontoossa on peräti data-analytiikkaan keskittynyt virkamiesosasto [5], joka pyrkii ennustamaan eri julkisten palveluiden tarpeen kehitystä.

Yliopistomaailmassakin erilaiset tutkimuslaitteet tuottavat valtavan määrän seulottavaa informaatiota. Esimerkiksi Euroopan hiukkasfysiikan tutkimuslaitoksen suuressa hiukkaskiihdyttimessä LHC:ssa hiukkasten törmäykset tuottavat yli petatavun (noin 1000 tavallisen modernin tietokoneen kovalevyä) informaatiota per sekunti. Tämän kaiken säilöminen ei ole mahdollista; LHC suorittaa hienostunutta analyysiä karsiakseen turhaa informaatiota.

Erilaiset tietojärjestelmät tuottavat joka puolella valtavan määrän informaatiota. Sen muokkaaminen hyödylliseksi on data-analyysin tehtävä. Ihmisen tehtäväksi jää tässä pitkälti merkityksettömässä informaatiotulvassa luoda bittiavaruuteen muutamia tolkun saarekkeita.

Data-analytiikan merkitys

Neowise-komeetta (punaiset täplät), jonka olemassaolo löydettiin analysoimalla teleskooppi WISE:n tuottamia havaintoja. (Lähde: NASA, public domain)

Esimerkki: suomalainen kuntadata

Suomalaisista kunnista on saatavilla merkittävät määrät julkista tietoa. Esimerkiksi kuntalaisten koulutustaso, ikärakenne, lasten osuus populaatiosta ja työttömyyskorvauksia saavien määrä ovat julkista tietoa. Tätä julkista dataa voi kerätä internetistä ja analysoida yksinkertaisilla matemaattisilla malleilla.

Ailealla keräsimme netistä 83 erilaista datapistettä jokaisesta kunnasta ja teimme mallin, joka päätteli, mitkä kunnat ovat samankaltaisimpia ja mitkä erilaisimpia. Tulokset on saatu vertaamalla kuntien kaikkea dataa keskenään. Tämä tehdään käytännössä laskemalla kaikkien datapisteiden erotukset toisistaan ja käyttämällä klusterointialgoritmia (https://en.wikipedia.org/wiki/K-means_clustering) kuntien ryhmittämiseen.

Lisäksi on mahdollista tehdä vielä tarkempia huomioita. Esimerkiksi datasta käy ilmi, että parhaan tulotason saavuttaa pelkällä peruskoulututkinnolla todennäköisesti Tuusulassa ja Kirkkonummella, joissa on korkea mediaanitulo huolimatta alhaisesta keskimääräisestä koulutustasosta. Suomen mittakaavassa melkoisen poikkeukselliseksi kunnaksi osoittautuu Kauniainen, joka erottuu joukosta korkealla tulo- ja koulutustasollaan.  Muissa kunnissa on ollut ”nälkäkausia” —  Kauniaisten wikipediasivulla mainitaan Kauniaisten ”huvila-aikakausi”.

Kokeile Kuntavertailua täällä (https://kuntavertailu.azurewebsites.net/)

Data-analytiikan merkitys
Kuvakaappaus kuntavertailusta.

Asuntojen hinnat puhuttavat Euroopan tasolla yleisesti. Suomessa esimerkiksi Savonlinnassa on alhainen mediaanitaso, mutta melko suuret keskimääräiset asuntojen pinta-alat; Espoossa tilanne on päinvastainen — tulot ovat verrattain korkeat, mutta asuntojen pinta-alat pieniä.

Kuten saattaa odottaa, Ahvenanmaan kunnat ovat myös melko poikkeavia monestakin syystä. Ne ovat kooltaan pieniä, tuloiltaan melko hyväosaisia ja puhuvat pääkielenään yleensä ruotsia. Rikostilastoissa huonoon valoon asettuvat Imatra, Ylöjärvi ja Seinäjoki, joissa on melkoisesti rikoksia asukaslukuun suhteutettuna. Tämä poikkeaa eurooppalaisesta trendistä, joissa yleensä rikoksia on eniten suurissa kaupungeissa.

Tulevaisuuden näkymiä

Informaation räjähdysmäinen kasvu käytännössä takaa sen, että data-analyysin merkitys tulee vain kasvamaan tulevaisuudessa. Kuten yllä olevista esimerkeistä käy ilmi, digitalisaation tasainen eteneminen johtaa yhä laajempiin data-analyysin tarpeisiin monilla erilaisilla aloilla.

Jos mietityttää, voiko koneellisesta tiedonseulonnasta olla jotain hyötyä itselle, kannattaa kysyä yksinkertainen kysymys: onko minulla informaatiota, josta ei ole otettu mitään hyötyä irti? Saatko esimerkiksi asiakkaistasi tai projekteistasi jonkinlaista tilastoa, mille ei tällä hetkellä tehdä mitään? Jos saat, voi olla hyvä idea pohtia, kannattaako sen analysoimiseen panostaa joko yksin tai ammattilaisen avustuksella.

Vaikka itselle data-analyysi ei olisi hyödyllistä, sen käytöllä on kuitenkin jokaiseen vaikuttavia yhteiskunnallisia seurauksia. Jatkuvasti koneellistuva päätöksenteko herättää kysymyksiä algoritmien reiluudesta ja pakottaa jokaisen valikoimaan informaationlähteensä huolellisesti. Algoritmeja on jo keretty syyttämään esimerkiksi rasismista [1]. Jokaisen olisi siis hyvä tietää aiheesta jotain — vaikka tietotekniikka ei muuten kiinnostaisi.

Data-analytiikan merkitys
Kuntadataa. Punainen viiva on keskimääräinen asunnon ja mediaanitulon suhde. Kuten odottaa saattaa, suurempi mediaanitulo yleensä johtaa suurempiin asuntokokoihin.
[1] Rasismia koneoppimisalgoritmissa?
https://metro.co.uk/2020/04/01/race-problem-artificial-intelligence-machines-learning-racist-12478025/
[2] Lopez, Hilbert. Science. 332 (6025)
[3] Simons beats the market
https://www.cnbc.com/2019/11/05/how-jim-simons-founder-of-renaissance-technologies-beats-the-market.html
[4] Chicagon data-analytiikka
https://datasmart.ash.harvard.edu/news/article/from-algorithm-to-action-759
[5] Lontoon data-analyysiosasto
https://data.london.gov.uk/city-data-analytics-programme/