Ville Mäkinen

Data Scientist

Markkinointidatan kerääminen on yrityksille tärkeää, sillä se mahdollistaa heitä tekemään parempia päätöksiä ja suunnittelemaan toimivia ratkaisuja tulevaisuutta ajatellen. Todetaan tämä heti alkuun; markkinointidata on sotkuista! Markkinointidatan sotkuisuuden voivat aiheuttaa monet eri seikat, esimerkiksi datasiiloista johtuvat ongelmat, kuten datan kerääminen useaan eri paikkaan tai tiimien väliset kommunikaatioongelmat. Sotkuisen datan käyttäminen voi johtaa jopa katastrofaalisiin tuloksiin, ja siksi markkinointidata täytyy kesyttää ennen hyödyntämistä.  Tässä artikkelissa esittelemme yhden esimerkkiratkaisun dataputkesta, joka mahdollistaa markkinointidatan kesyttämisen Google Cloud Platformin (GCP) pilvipalveluiden avulla.

Kuinka sotkuinen markkinointidata pystytään kesyttämään?  

Oleellinen osa markkinointidatan kesyttämistä on ETL-prosessi, joka tulee sanoista Extract-Transform-Load. Tässä kirjoituksessa ETL-prosessi on automatisoitu hyödyntämällä GCP:n Google Cloud Composer -työkalua, joka toimii kapellimestarina ja ajastaa ETL-prosessin eri vaiheet.  

Extract-vaihe tarkoittaa tiedon keräämistä tiedon alkuperäislähteestä. Tähän on monia toteutusvaihtoehtoja, mutta tässä esimerkkiratkaisussa päädyimme käyttämään käärmeenkuiskaajakieltä Pythonia. Python-ohjelmointikieli on äärimäisen taipuva ja se mahdollistaa koodin avulla lähes kaiken maan ja taivaan väliltä. Google Cloud Composer -työkalun avulla voimme ajastaa Python-koodin suoritettavaksi joka aamu vaikkapa klo 7:30, jolloin voimme rauhassa juoda aamukahvin tai rentoutua aamujoogan muodossa koodimme raksuttaessa päivittäisen ajastetun tehtävänsä parissa.   

Seuraava vaihe on Transform-prosessi. Nimensä mukaan tässä vaiheessa data on vähän kuin Transformers-robotti ja meillä on mahdollisuus määritellä minkälaiseksi meidän robottimme eli data muuntuu. Markkinointidata on hyvin moninaista, joten dataputkessa juoksee useita erilaisia Transformers-robotteja samaan aikaan, ja dataa muokataan sopivaan muotoon monin tavoin. Tämäkin vaihe voidaan toteuttaa Python-ohjelmointikielellä, mutta myös SQL-ohjelmointikieli (Structured Query Language) on erinomainen vaihtoehto. SQL sopii tähän mainiosti, etenkin jos datan muokkaaminen tehdään tietokannassa tai tietovarastossa. Datan muokkauksen jälkeen se tallennetaan väliaikaiseen varastoon, esimerkiksi Google Cloud Storageen, josta dataa haetaan taas seuraavassa vaiheessa. 

Viimeinen vaihe on Load-vaihe, jossa data ladataan talteen jatkokäyttöä varten tietoturvalliseen paikkaan. Itse lataus tehdään väliaikaisesta varastosta Python- tai SQL-koodin avulla. GCP tarjoaa datan tallentamiseen useita hyviä vaihtoehtoja, mutta suosittelemamme vaihtoehto on Google Cloud BigQuery tietovarasto. BigQuery on erinomainen vaihtoehto, koska se on helposti skaalautuva ja kustannustehokas vaihtoehto datan tallentamiseen ja prosessointiin. 

Visualisoi data ja luo liiketoimintahyötyä  

ETL-prosessin vaiheiden (katso kappaleen alla oleva kuva) jälkeen markkinointidatamme on valmiina käytettäväksi tietovarastossa, josta voimme halutessamme visualisoida sitä. Datan visualisointiin löytyy useita eri työkaluja, kuten PowerBI tai Tableau, mutta tässä esimerkissä käytämme Googlen Data Studio-työkalua. GCP:n palvelut ja Data Studio toimivat saumattomasti yhdessä ja Data Studion avulla BigQuerystä saatu tieto on helppo visualisoida, sillä kaikki BigQueryyn luodut taulut ja näkymät ovat suoraan käytettävissä datalähteenä Data Studiossa. Data Studiossa on paljon erilaisia kuvaajia ja sillä on hyvä lähteä liikkeelle datan visualisoinnissa. Se on lisäksi täysin ilmainen! 

Ehdotettu toteutus, jossa data kulkee matkan lähteestä dashboardille ETL-prosessin avulla.

Mitä etuja datan visualisointi sitten tarjoaa?

Listasimme alle viisi tärkeintä etua:

  1. Nopea siirtymä mallinnusprojekteihin, koska data on jo valmiina käytettäväksi BigQuery:ssä. 
  2. Pieni investointi ja ketterä toteutus. 
  3. Markkinointidatan takunselvitys on nähtävissä yhdessä paikassa eli näemme siis yhdestä paikasta miten erilaiset takunkesyttäjättä-prosessimme suoriutuvat. 
  4. Google Cloud Composer tallentaa tietoa tapahtumista logeihin ja ilmoittaa tarvittaessa ongelmista esim. sähköpostilla.
  5. Koska markkinointidatan käsittely on automatisoitu, voimme kaivaa itsestämme esiin sisäisen Super Mariomme ja lähteä kartoittamaan uusia dataputkia vanhojen dataputkien ylläpidon sijaan. 

Mikäli markkinointidatasi kaipaa takunkesyttäjää ja haluat saada siitä enemmän irti esimerkiksi myynnin mallinnuksen muodossa, ota meihin yhteyttä!

Mikäli markkinointidatasi kaipaa takunkesyttäjää ja haluat saada markkinointidatastasi enemmän irti esimerkiksi myynnin mallinnuksen muodossa, ota meihin yhteyttä!

Ota yhteyttä

Link to Mikäli markkinointidatasi kaipaa takunkesyttäjää ja haluat saada markkinointidatastasi enemmän irti esimerkiksi myynnin mallinnuksen muodossa, ota meihin yhteyttä!