Cluster analýza: Čo to je a ako ju využiť v marketingu?
Nástroje analýzy a vyhodnocovania jednotlivých marketingových aktivít sa za posledné roky posunuli od základných, až po nástroje strojového učenia, ktoré dokážu napríklad extrahovať vzory zo surových dát alebo predikovať budúce javy. K základným metódam strojového učenia patrí clustrová analýza, ktorá sa najčastejšie využíva na rozdelenie dát na viacero súborov na základe spoločných znakov, ktoré nie sú analytikovi vopred jasné.
V tomto článku sa pozrieme na to, ako vlastne clustrová analýza funguje, ako dokáže pomôcť v marketingu, ale aj to, ako sa najčastejšie využíva v marketingovej praxi.
Marketing vs digitálny marketing
Za posledných 30 rokov sa svet marketingu zmenil na nepoznanie. Tradičné marketingové metódy dnes spolupracujú s digitálnymi, ktoré sa začali rozvíjať v polovici 90. rokov. Tieto nové digitálne metódy sa objavili s príchodom internetu. Pomocou nich dnes dokážeme oveľa jednoduchšie zacieliť a osloviť cielenú skupinu zákazníkov.
Pred príchodom internetu v 90. rokoch boli najlepšie marketingové kampane spúšťané cez televíziu, rádio a tradičné formy ako napríklad plagáty. Samozrejme, tieto nástroje fungujú dodnes a dokážu z marketingového pohľadu prinášať konverzie, problémom však je, že sa veľmi ťažko dajú vyhodnocovať, optimalizovať a cieliť na vybrané skupiny zákazníkov.
Všetky digitálne stratégie a marketingové techniky fungujú na správnych dátach. Dáta sú (alebo aspoň by mali byť) zdrojom väčšiny marketingových rozhodnutí. Na základe nich je možné vyhodnocovať jednotlivé experimenty v digitálnom svete, zistiť, či a kde majú nedostatky a následne tieto chyby opraviť a kampane optimalizovať.
Dátová analytika sa dnes určite stala neoddeliteľnou súčasťou marketingu, a každý, kto pracuje ako marketingový špecialista, by sa na dáta mal týmto spôsobom pozerať.
Ako dokáže pomôcť dátová analytika v marketingu?
Pojem dátová analytika je veľmi široký. Dáta sú v podstate skoro všetko, čo dokážeme nejakým spôsobom merať a využiť v náš prospech. Či už ide o meranie času, ktorý človek strávi pri práci na nejakej úlohe, až po pokročilé modely dátovej vedy, pomocou ktorej dokážeme s určitou pravdepodobnosťou predikovať scenáre budúcnosti.
V marketingu dátová analytika pomáha napríklad pri rozhodovacom procese, segmentovaní zákazníkov alebo optimalizácii kampaní. Analyzovaním veľkého objemu dát dokážu spoločnosti na hlbšej úrovni zistiť a pochopiť správanie svojich zákazníkov, ich preferencie a dokážu odhadnúť trendy budúcnosti. Takýmto spôsobom môžu napríklad upraviť svoje produkty alebo služby, upraviť posolstvo v marketingových kampaniach alebo správne alokovať svoj rozpočet tak, aby mal čo najvyššiu návratnosť investície.
Čo je cluster analýza?
Jednou z pokročilých metód segmentácie (nielen) v marketingu je aj clustrová analýza. Ide o typ strojového učenia, pomocou ktorého dokáže počítač (s ľudskou pomocou) správne segmentovať dáta na základe skrytých, vnútorných podobností. Tu sa práve nachádza aj jej sila: cluster analýza nepotrebuje skoro žiadne vstupy od dátového analytika. Týmto spôsobom sa automaticky eliminuje hocijaká zaujatosť analytika voči správnemu výstupu.
Hlavnou úlohou cluster analýzy je z celkového datasetu vytvoriť viacero skupín (clustrov), obsahujúcich pozorovania, ktoré sa na seba čo najviac podobajú, respektíve majú čo najviac podobných vlastností. Jednotlivé clustre, ktoré obsahujú tieto pozorovania, sa na seba majú podobať čo najmenej. Odbornejšie povedané: minimalizuje sa vnútroclustrový rozptyl a zároveň sa maximalizuje medzi clustrový rozptyl.
Rôzne typy clustrovej analýzy
Existuje viacero typov clustrovej analýzy, ktoré sa najčastejšie využívajú v problémoch strojového učenia. Najznámejšie sú:
- Aglomeratívna clustrová analýza – pri ktorej začína každé pozorovanie ako samostatná jednotka a na konci analýzy (keď sa výsledok už nedá viacej upraviť) máme vytvorených niekoľko clustrov obsahujúcich tieto pozorovania.
- Divízna clustrová analýza – presný opak aglomeratívnej v tom, že na začiatku sú všetky pozorovania uložené do jedného veľkého clustra, pričom na konci analýzy máme rozdelený tento veľký cluster na niekoľko menších, ale plne hodnotných clustrov.
- K-means clustrová analýza – Najviac používaný typ analýzy, ktorý má za úlohu zoskupiť jednotlivé pozorovania do zodpovedajúcich clustrov na základe vzdialenosti jednotlivých pozorovaní od centroidu (stredného bodu). Tento typ analýzy budeme opisovať v pokračovaní tohto článku.
K-means clustrová analýza
Na obrázku č. 1 môžeme vidieť graficky znázornený postup K-means clustrovej analýzy. Na začiatku máme zobrazené v 2D priestore určité pozorovania (môže to byť čokoľvek, napríklad vaši zákazníci). Algoritmus clustrovej analýzy našiel v tomto priestore podobnosti medzi jednotlivými pozorovaniami na základe ich vzdialenosti od centroidov a zoskupil tieto pozorovania do troch clustrov (počet clustrov musel byť stanovený vopred).
Pre lepšie pochopenie si môžeme predstaviť, že na osi Y je zobrazený napríklad počet konverzií na webovej stránke a na osi X je zobrazená časová jednotka v minútach. Vidíme, že zelený cluster obsahuje ľudí, ktorí strávili na webe najmenej času, ale vykonali pomerne vysoký počet konverzií. Naopak, červený cluster pozostáva z návštevníkov, ktorí síce strávili na webovej stránke dlhší čas, ale vykonali malý počet konverzií. Modrý cluster zasa pozostáva z ľudí, ktorí boli dlhší čas na webe, ale zároveň vykonali pomerne veľký počet konverzií.
Akonáhle si takto vieme rozsegmentovať návštevníkov webu, vieme jednotlivé skupiny zamerať pomocou rozličných kampaní. Napríklad modrým sa zobrazí viac zľavových kampaní, aby sa znížil ich priemerný čas konverzie a podobne.
Samozrejme, uvedený príklad je zjednodušený pre lepšie pochopenie, reálna K-means metóda dokáže extrahovať oveľa komplikovanejšie vzťahy medzi jednotlivými pozorovaniami, ktoré nie sú človeku hneď jasné.
Obrázok č. 1: Postup K-means clustrovej analýzy
Zdroj: https://miro.medium.com/v2/resize:fit:1200/1*rw8IUza1dbffBhiA4i0GNQ.png
Pri K-means clustrovej analýze je nutné, aby si analytik sám nastavil optimálny počet clustrov. Dá sa tak spraviť buď na základe vlastného uváženia a pochopenia problému, ktorý riešime, alebo pomocou štatistických metód.
- Podľa charakteru problému, ktorý riešime, má segmentácia do jednotlivých clustrov pomerne jednoduchý princíp. Pokiaľ napríklad vieme, že potrebujeme rozdeliť zákazníkov do dvoch skupín, pretože ideme vytvárať dve kampane, nepotrebujeme nič počítať a hneď pri spustení algoritmu je možné nastaviť iba dva clustre.
- Ak vopred nevieme, do koľkých kategórií chceme našich zákazníkov rozdeliť, vieme si pomôcť metódou WSS. WSS (within the sum of squares) je štatistický postup, ktorý na grafe zobrazí počet clustrov, ktoré je optimálne vytvoriť. Funguje na princípe klesajúcej výnosnosti celkovej variability, a teda každý ďalší cluster, ktorý by sme pridali nad optimálny počet, nebude mať dostatočný prínos na to, aby sa ho oplatilo do analýzy zahrnúť. Vyberieme teda len optimálny počet clustrov, pri ktorých je variabilita stále na optimálnej úrovni.
Využitie clustrovej analýzy v marketingovej praxi
Tento typ analýzy je extrémne využiteľný vtedy, keď máme veľký dátový súbor a chceme ho rozdeliť do viacerých menších súborov tak, aby tieto súbory obsahovali relevantné, na seba sa podobajúce pozorovania. V nasledujúcom odstavci sa pozrieme na najčastejšie prípady, kedy sa clustrová analýza využíva v marketingovej praxi:
- Odporúčacie algoritmy, ako napríklad na platforme Netflix, fungujú na báze clustrovej analýzy, ktorú používajú primárne na segmentáciu svojich zákazníkov a na odporúčanie vybraných filmov alebo seriálov. Seriály a filmy sú kategorizované na základe ich žánru a následne odporúčané segmentovaným skupinám používateľov.
- Segmentácia výrobkov je takisto forma využitia tejto analýzy v marketingovej praxi. Na základe tejto segmentácie dokáže predajca zistiť, ktoré výrobky sú napríklad najlepšie performujúce, ktoré naopak najmenej a podobne. Na základe týchto informácií dokáže lepšie rozhodnúť o využití rozpočtu na marketing.
- Segmentácia zákazníkov je asi najčastejšie využitie clustrovej analýzy, pričom ide o segmentáciu cielených zákazníkov na základe vybraných atribútov, ako napríklad počet zakúpených výrobkov, čas strávený na e-shope, celková cena nákupu a podobne. Po segmentácii zákazníkov môže predajca vytvoriť špeciálne ponuky pre jednotlivé segmenty na základe pochopenia vlastností jednotlivých clustrov.
- Cross-selling a upselling alebo inak nazývaný basket analysis, je výborný nástroj, keď predajca vidí vzťahy medzi zakúpenými výrobkami v minulosti a na základe nich dokáže k jednotlivým výrobkom pridať cross-sell alebo upsell ponuku a zvýšiť tak svoj obrat. Na basket analysis sa primárne nepoužíva cluster analýza, no ak sa spojí s inými algoritmami, dokáže poskytnúť vysokú pridanú hodnotu k celkovému výsledku.
- A/B testovanie je primárne vykonávané na náhodnom výbere z celkového dátového súboru. Clustrová analýza dokáže v tomto prípade rozdeliť celkový súbor na menšie clustre, pričom na týchto clustroch, z ktorých každý je niečím jedinečný, je jednoduchšie experimentovať a testovať pomocou A/B testovania.
Na príklade nižšie môžete vidieť, ako sme použitím clustrovej analýzy pre jedného z našich e-commerce klientov zadefinovali nadpriemerne výkonné produkty od bežných podľa viacerých atribútov. Následne sme tieto dáta využili pri optimalizácii produktových kampaní. Grafickú interpretáciu clustrov je možné vidieť na obrázku č. 2.
Obrázok č. 2: Grafická interpretácia clustrovej analýzy
Zdroj: Vlastná práca
Záver
Clustrová analýza je jeden z mnohých nástrojov strojového učenia, ktoré môžu byť využité pri viacrozmernej analýze dát. Ide o metódu, pri ktorej sa z jedného veľkého dátového súboru dá spraviť viacero menších súborov, ktoré obsahujú na seba podobajúce sa pozorovania.
Na základe nej je možné segmentovať rôzne typy numerických dát, pričom táto segmentácia môže byť použitá v ďalšej analýze.