Big datan pimeä puoli – Weapons of math Destruction, Cathy O’Neil

Big data on ollut yksi viime vuosien trendisanoja, joka pitää tunkea jokaiseen esitykseen ja strategiaan. Googlen pääekonomisti Hal Varian mainitsi jo 2009, että tilastotieteilijä on ensi vuosikymmenen seksikkäin ammatti. Voi olla, että big dataa käytetään nykyään myös vain synonyyminä analytiikalle, mutta toisaalta tilastopohjaista päätöksiä voidaan tietokoneiden parantuneen laskentatehon ja erilaisten seurantajärjestelmien myötä tehdä yhä useammilla alueilla. Jonkinlaisa Moneyballeja yritetään nyt toistaa vähän joka toimialalla. Big data tulee muuttamaan paljon asioita, mutta siihen saattaa myös kohdistua epärealistisia odotuksia ja riskejä. Cathy O’Neil käy näitä riskejä ansiokkaasti läpi kirjassaan Weapons of Math Destruction, jota olen kuunnellut tämän viikon äänikirjana.

Cathy O’Neil toimi matematiikan professorina, siirtyi kvantiksi Wall Streetille, pääsi näkemään paraatipaikalta asuntokuplan puhkeamisen ja siirtyi tuon jälkeen höydyntämämään matemaattista osaamistaan nettimainonnan maailmaan. Tässä mielessä urapolku muistuttaa Antonio García Martínezia, jonka Chaos Monkeys-kirjan luin muutama kuukausi sitten. Vuosikymmen sitten monet sukupolvensa älykkäimmät ihmiset suuntasivat Wall streetille kehittelemään matemaattisesti monimutkaisia rahoitusinstrumenttejä ja viime aikoina nämä ihmiset ovat yhä useammin suunnaneet nettinamainonnan maailmaan rakentamaan systeemejä, joilla voidaan kohdentaa mainokset äärimmäisen täsmällisesti. Cathy O’Neil eroaa  Garcia Martinezista henkilönä kuitenkin aika paljon. Hän lähtenyt aktivistiksi, osallistunut Ocupy Wall Street-liikkeen toimintaan ja  ylipäätään varoitellut big data pimeistä puolista Mathbabe-blogissaan.

Kuten Cathy O’Neil toteaa, matematiikka on selkeää ja puhtaassa matematiikassa on myös jotain kaunista. Matematiikka oli kirjoittajallamme nuoruudessaan paikka, jonne paeta todellisen maailman sotkuisuutta ja tästä seuraakin kysymys, missä määrin vaikkapa peliteorialla on oikeasti mahdollista ratkaista todellisen maailman ongelmia. O’Neil on huolissaan esim. siitä kuinka big data toimii ajattelun ja päätöksenteon ulkoistamisen keinona ja sillä saatetaan vain hämätä heikosti matematiikkaa ymmärtäviä ihmisiä. Yksinkertainen mallikin voi olla hyvä ja matematiikan avulla voidaan ymmärtää laiskaa ajattelua paremmin monia asioita, mutta pitäisi olla tarkkana kun matematiikkaa yritetään soveltaa oikeiden ihmisten maailmaan ja mallintaa ihmisten monimutkaista toimintaa.

Cathy O’Neil kuitenkin pitää Moneyballia ja baseballia hyvinä esimerkkeinä datan hyödyntämisestä. Urheilu on ylipäätään alue, jossa dataa on kelko luonnolista höydyntää. Ongelma on kuitenkin että monet ihmistoiminnan piirteet eivät ole yhtä helposti ja läpinäkyvästi redusoitavissa tilastoiksi kuin baseballin hyvin rajatut tapahtumat. Tuli mieleen kuinka Nassim Taleb mainitsi menettäneen malttinsa kun hänelle ehdotettiin, että Fooled by Randomnes-kirjan kanteen pistettäisiin nopat.

En ole erityisen lahjakas matematiikassa, mutta kuitenkin ymmärrän jotain ja tykkään puuhastella tilastojen kanssa. Esimerkiksi töissä olen usein ihan omatoimisesti yrittänyt kvantifioida asioita. Mutta se fiilis kun sinun yläpuolellasi oleva henkilö perustelee työpaikalla jotain excelillä tai muilla käppyröillä ja tajuat, ettei tämä henkilö tajua niistä tilastoista oikeasti mitään…

Asioita mitataan helposti epätäydellsillä tavoilla ja annetaan ihmisille kannustimia tehdä asioita typerällä tavalla, jotta tilastojen rajatussa tarkastelutavassa asiat saadaan näyttämään hyvältä. Toisaalta O’Neilin mielestä yksi matemaattisten joukkotuhoaseiden ongelma liittyy myös niiden salattuihin piirteisiin. Monissa tapauksissa ei ole selvää mitä malliin laitetaan sisään, tai miten se ihan tarkalleen oikeasti toimii. Tämä on kiistatta kyseenlaista ainakin julkisen sektorin toiminnassa jos opettajien arvioinneisssa, ennakoivassa rikosten torjunnassa tai rikostuomioita mietittäessä asioita laitetaan järjestykseen algoritmien avustuksella. Ja jos mallien perustavanlaatuisesta luonteesta ei ole julkista tietoa, ei niiden oletuksiakaan voi helposti kritisoida.

Kirjassa käydään läpi algoritmien vaaroja monella kentällä: pankkitoiminnassa ja finanssimaailmassa, koulutuksessa, rekrytoinnisssa, rikollisuuden torjunnassa, oikeussalissa, mainonassa ja myös politiikassa. Näistä kaikisteta esitetään mielenkiintoisia pointteja.

Yhtenä ongelmana kirjoittajamme  pitää erityisesti sitä, että big datan pimeät puolet osuvat erityisesti köyhempään väestönosaan. Hän mainitsee esimerkiksi vähävaraisempien palvelualoilla työskentelevien ihmisten vaikeudet järjestää elämäänsä kunnolla uusien työnantajan näkökulmasta tehokkaasti toimivien työvuorosysteemin maailmassa. Tämä kuten erilaiset keikkatalouden muodot voivat olla tehokkaita työnantajan näkökulmasta ja tehdä vaikkapa ruuan kotiin tilaamisen kaikille hieman aiempaa helpommaksi ja halvemmaksi. Varsinkin perheellisillä ihmisillä elämän järjestäminen saattaa kuitenkin muuttua aika vaikeaksi. Jollain tasolla tehokkaasti työntekoa valvovat järjestelmät voivat olla aiempaa reilumpia hyville työntekijöille kun todelliset sluibailijat jäävät helpommin kiini ja todella hyviä työntekijöitä saatetaan palkita. Jonkinlainen työn ja pääoman välinen ristiriita tässäkin kuitenkin on ja ainakin työn valvonnassa ja työvuorojen järjestelyssä työntekijät joutuvat keskimäärin aiempaa hankalampaan rakoon.

Itse pidin ehkä kaikkein pelottavimpana esimerkkinä nettimainontaa. Parhaimmilaan netin markkinapaikat parittavat ihmisiä ja asioita tehokkaasti ja kasvana nettimarkkinointi perustuu tähän. Tehokas mainontaa mahdollistaa kuitenkin myös tehokkaat väärinkäytökset. Kannattaa esimerkiksi tutustua New York Timesin juttuun Adwordisia hyödyntäneistä valelukkosepistä. Tuo kuvastaa osaltaaa nettimarkkinoinnin mahdollisuuksia kohdentaa mainontaa välittömissä ongelmissa oleville. Avaimensa hävittäneet ovat todennäköisemmin paniikissa eivätkä välttämättä katso niin tarkkaan mitä palvelua käyttävät. Tuollainen saalistaminen herkässä tilassa olevia ihmisiä kohtaan oli asia, joka herätti minussa lähes suoranaista raivoa.

Pelottava oli myös tapa kohdistaa mainonta ihmisten kipupisteisiin ja O’Neil käyttää tästä sanaa predatory advertising. Ihmiset luovuttavat somessa ja netissä ylipäätään valtavasti tietoa itsestään ja tätä kaikkea voidaan hyödyntää heitä vastaan. Esimerkkejä tästä toiminnasta ova vaikkapa erilaiset kulutusluottoja, pikavippejä tms tarjoavat firmat, jotka käyttävät todella suuria määriä rahaa nettimarkkinointiin.

Viime aikoina on puhuttu paljon kuplista ja pieneltä osin niidenkin syntyyn ovat vaikuttaneet algoritmit jotka syöttävät meille lisää sitä samaa, jota olemme aiemmin lukeneet. Tämä näkyy myös markkinnoinissa, jossa varakkaille ihmisille on nettimarkkinoinnin seurauksena voitu tarjota aiempaa tehokkaammin mainoksia luxuslomista kun taas köyhemmät lukevat jotain ihan muuta. Segregaatio on joka tapauksessa edennyt uusilla tavoilla myös virtuaalimaailmaan algoritmien ansiosta. Meille tuputetaan sellaisia uutisia ja tuotteita, joiden arvioidaan kiinnostavan sitä mikrosegmenttiä, joihin meidät on luokiteltu. Oma kappaleensa on myös poliittiselle mainonnalle ja sille kuinka ehdokkaat pystyvät aiempaa tehokkaammin räätälöimään viestinsä täsmällisemmin eri kohderyhmille hieman eri muotoon.

Weapons of math destructionissa puhutaan paljon takaisiinkytkennöistä ja tuo on mielestäni konsepti, jonka laajempi ymmärrys ja soveltaminen yhteiskunnallisessa keskustelussa olisi kovin mukavaa. Aiheuttaako köyhyys ongelmia vai ongelmallinen käyttyäyminen köyhyyttää. Ne ovat kuitenkin kytköksissä toisiinsa. Kyse ei ole siitä, etteikö ihmisissä itsesään olisi vikaa, mutta negatiiviset takainskytkennät syventävät kierrettä ja ne syventävät kierrettä riippumatta siitä onko myös ihmisissä itsessään vikaa.

Tehokkudeen sekä reiluuden tai jonkinlaisen tasa-arvon välisiä ristiriitoja mietittäessä voidaan päätyä hieman erilaisiin johtopäätöksiin riippuen siitä, mihin sijoittuu poliittisella kartalla. Erityisesti lain edessä ihmisten pitäisi kuitenkin olla tasa-arvoisessa asemassa. Ja tähän liittyen O’Neil esimerkiksi mainitsee kuinka Yhdysvalloissa rikoksen uusimistodennäköisyyttä on arvioitu algoritmien avulla, joissa yhtenä tekijänä on ollut se, ovatko sukulaiset olleet vankilassa. Tämä lisää ennustuksen tarkkuutta, mutta on hyvin kyseenalaista kun sitä käytetään yhtenä tekijänä arvioitessa, pitääkö rikoksen tekijän istua tuomionsa loppuun asti. On selvää, että lakituvassa tämä ei menisi läpi, mutta kun se leivottu sisään matemaattisesti hienostuneeseen algoritmiin, niin tätä ongelmaa ei mietitä samalla tavalla.

Suosittelen Weapons of math destructionia jos Big data-aihepiiri kiinnostaa yhtään ja ehkä myös tapauksessa jossa se ei erityisemmin kiinnosta. Big data tulee parantamaan monia asioita paljon, mutta on vaarallista ajatella etteikö siihen varsinkin tällä hetkellä liittyisi myös paljon ongelmia. Samoin voi olla vaarallista oman ajattelun ulkoistamista jos ei hahmota, että ihmisten luomat algorimit pohjautuvat myös jonkinlaisille arvovalinnoille.

Leave a Reply

Your email address will not be published. Required fields are marked *