V tomto článku navazuji na sérii článků o dataminingu v Excelu - tentokrát půjde o scoring. Než se pustíme do Excelu, chci v rychlosti vysvětlit, k čemu se scoring používá a jak funguje.
Pokud mu úvěr dá, tak klient buď bude splácet (pak banka vydělá), nebo nebude (pak banka přijde o půjčené peníze). Pokud banka klientovi úvěr nedá, pak o žádné peníze nepřijde, ale také nevydělá. Je tedy nesmírně důležité rozdělit klienty co nejpřesněji na ty, kteří budou splácet, a na ty, kteří nebudou - a půjčit jen těm prvním.
Banka má o klientech řadu informací, podle kterých se může rozhodovat (např. měsíční příjem klienta, počet závislých osob, délku současného zaměstnání klienta, příjem...). Některé z těch informací jsou důležité, jiné méně. Je důležité odlišit ty podstatné od těch nepodstatných a rozhodovat se jen podle těch, které mají na výsledek skutečně vliv. Tedy stanovit váhy informací - kritérií a určit způsob, jak výsledek ovlivňují.
Banka se k tomu může postavit dvěma způsoby. Může vybrat důležitá kritéria (a jejich hodnoty) na základě osobní zkušenosti expertů, zákonných požadavků a podobných informací "zvenku". Tato cesta nás teď ale nebude zajímat.
Druhým způsobem je podívat se, jak se kritéria osvědčila v minulosti, a podle toho rozhodovací proces nastavit, resp. upravovat. A o tom, jak to udělat, je tento článek.
Scoring se také používá pro odhadování potenciálních zákazníků. Pokud vám například telefonní operátor zavolá a nabídne nový tarif, je pravděpodobné, že jste dostali vysoké skóre, když operátor skóroval své zákazníky. Skóroval je s ohledem na to, jak je pravděpodobné, že budou chtít nový tarif a že za něj utratí hodně peněz. A pokud Vám operátor volá, zřejmě vám vyšlo skóre vysoké.
Tabulku si můžete stáhnout zde.
Mým úkolem je vytvořit předpovídací model, který mě umožní u každého budoucího potenciálního zákazníka, u kterého budu znát uvedené informace, určit, jestli si produkt koupí nebo ne. Nebudu tak zbytečně a draze oslovovat marné případy, a zároveň mi neuteče žádný potenciální dobrý klient.
Takto vypadá tabulka s údaji z minulosti, na základě které model vznikne:
Nejprve data označím a jdu na Vložit / Tabulka. Od této chvíle už s tabulkou Excel pracuje jako s uceleným souborem dat.
Pak jdu na Nástroje tabulky / Analyze. Pokud pod Nástroji tabulky kartu Analyze nevidím, musím si doinstalovat analytický doplněk k Excelu a připojit se na MS SQL Server.
Kliknu na Prediction Calculator.
V "Target" vyberu, co chci předpovídat. V našem případě předpovídáme, jestli uživatel uzavře nebo neuzavře smlouvu.
Odklikneme a počkáme na zpracování výsledků.
Výsledkem jsou hned tři nové listy s výsledky. Pojďme si je projít.
Teď už jsme v situaci, kdy máme potenciálního klienta, a chceme odhadnout, jesti uzavře nebo neuzavře smlouvu.
V tabulce vyplníme vlastnosti tohoto posuzovaného klienta. V našem případě je to například žena mladší než 30 let, bydlící v malé obci, která zatím není naším zákazníkem.
A hned po vyplnění vidím, že tato žena na nabídku nového produktu zřejmě zareaguje pozitivně a smlouvu uzavře. A tím jsme splnili účel našeho snažení - od teď už můžeme takto odhadovat každého klienta.
Výše skóre, kterou musela součtem svých parametrů překonat, se odvíjí mimo jiné od cen, zadaných na předchozím listě.
Scoring - příklad použití
Jeho typické použití je v bankách. Klient přijde požádat o úvěr, a banka rozhodne, jestli mu jej dát nebo nedat.Pokud mu úvěr dá, tak klient buď bude splácet (pak banka vydělá), nebo nebude (pak banka přijde o půjčené peníze). Pokud banka klientovi úvěr nedá, pak o žádné peníze nepřijde, ale také nevydělá. Je tedy nesmírně důležité rozdělit klienty co nejpřesněji na ty, kteří budou splácet, a na ty, kteří nebudou - a půjčit jen těm prvním.
Banka má o klientech řadu informací, podle kterých se může rozhodovat (např. měsíční příjem klienta, počet závislých osob, délku současného zaměstnání klienta, příjem...). Některé z těch informací jsou důležité, jiné méně. Je důležité odlišit ty podstatné od těch nepodstatných a rozhodovat se jen podle těch, které mají na výsledek skutečně vliv. Tedy stanovit váhy informací - kritérií a určit způsob, jak výsledek ovlivňují.
Banka se k tomu může postavit dvěma způsoby. Může vybrat důležitá kritéria (a jejich hodnoty) na základě osobní zkušenosti expertů, zákonných požadavků a podobných informací "zvenku". Tato cesta nás teď ale nebude zajímat.
Druhým způsobem je podívat se, jak se kritéria osvědčila v minulosti, a podle toho rozhodovací proces nastavit, resp. upravovat. A o tom, jak to udělat, je tento článek.
Scoring se také používá pro odhadování potenciálních zákazníků. Pokud vám například telefonní operátor zavolá a nabídne nový tarif, je pravděpodobné, že jste dostali vysoké skóre, když operátor skóroval své zákazníky. Skóroval je s ohledem na to, jak je pravděpodobné, že budou chtít nový tarif a že za něj utratí hodně peněz. A pokud Vám operátor volá, zřejmě vám vyšlo skóre vysoké.
Příklad a návod
Odhadování reakce zákazníků se bude týkat náš příklad. Máme sto zákazníků, kterým jsme v minulosti nabídli nový volací tarif. U těchto zákazníků víme nejen jestli si tarif koupili, ale také kolik jim je let, jakého jsou pohlaví, z jak velkého jsou města a navíc jestli při oslovení byli našimi zákazníky (pro jinou službu nebo tarif) nebo ne.Tabulku si můžete stáhnout zde.
Mým úkolem je vytvořit předpovídací model, který mě umožní u každého budoucího potenciálního zákazníka, u kterého budu znát uvedené informace, určit, jestli si produkt koupí nebo ne. Nebudu tak zbytečně a draze oslovovat marné případy, a zároveň mi neuteče žádný potenciální dobrý klient.
Takto vypadá tabulka s údaji z minulosti, na základě které model vznikne:
Nejprve data označím a jdu na Vložit / Tabulka. Od této chvíle už s tabulkou Excel pracuje jako s uceleným souborem dat.
Kliknu na Prediction Calculator.
V "Target" vyberu, co chci předpovídat. V našem případě předpovídáme, jestli uživatel uzavře nebo neuzavře smlouvu.
Odklikneme a počkáme na zpracování výsledků.
Výsledkem jsou hned tři nové listy s výsledky. Pojďme si je projít.
List "Prediction report for..."
V tomto listu jsou dvě oddělené tabulky.
Ve spodní tabulce našeho příkladu je na první pohled vidět, že v datech se projevují tři faktory, které předurčují zákazníky k tomu, aby si nový produkt koupili.
Je to věk do třiceti let, ženské pohlaví a to, že zákazník pro nový tarif už je naším zákazníkem. Méně významnými, ale existujícími vlivy jsou pak věk od 30 do 41 let a od 41 do 55 let a také bydliště ve velkém městě.
V horní tabulce se stanovuje limitní skóre. Tedy skóre, které když bude u klienta překročeno, vyplatí se jej oslovit - protože smlouvu asi uzavře.
K tomu ale musíme dodat další informace:
Ve spodní tabulce našeho příkladu je na první pohled vidět, že v datech se projevují tři faktory, které předurčují zákazníky k tomu, aby si nový produkt koupili.
Je to věk do třiceti let, ženské pohlaví a to, že zákazník pro nový tarif už je naším zákazníkem. Méně významnými, ale existujícími vlivy jsou pak věk od 30 do 41 let a od 41 do 55 let a také bydliště ve velkém městě.
V horní tabulce se stanovuje limitní skóre. Tedy skóre, které když bude u klienta překročeno, vyplatí se jej oslovit - protože smlouvu asi uzavře.
K tomu ale musíme dodat další informace:
- False Positive Cost
Zadávám, kolik bude stát, když se model splete a navrhne k oslovení klienta, který smlouvu neuzavře. Čím větší číslo, tím bude model opatrnější, a bude požadovat vyšší skóre k tomu, aby navrhl klienta k uzavření smlouvy. V našem případě třeba 50 - protože, dejme tomu, oslovení klienta stojí 50 Kč a pokud klient smlouvu neuzavře, tak o ty peníze přijdeme. - False Negative Cost - zadám, kolik mi bude stát, když se model splete a navrhne mi, že nemám oslovovat klienta, ač by tento klient ve skutečnosti smlouvu uzavřel. Čím větší číslo, tím nižší skóre bude model požadovat - protože se bude snažit falešně negativnímu hodnocení vyhnout. V našem případě můžeme nechat nulu - chybné neoslovení klienta nás nebude stát nic.
- True Positive Profit - zadám, kolik vydělám v případě, že model správně určí klienta k oslovení. Tedy potenciální tržby za klienta. Pokud budu vědět, že každý klient, kterého oslovím, a on uzavře smlouvu, mi vydělá 500 Kč, vyplním 500.
- True Negative Profit - pokud bych měl nějaký zisk z toho, že model vyhodnotí správně a negativně některého z klientů, vyplním to sem. V našem případě necháme nulu.
List "Prediction Calculator for ..."
Spodní tabulka je stejná jako u předchozího listu, zajímá nás tedy ta horní.Teď už jsme v situaci, kdy máme potenciálního klienta, a chceme odhadnout, jesti uzavře nebo neuzavře smlouvu.
V tabulce vyplníme vlastnosti tohoto posuzovaného klienta. V našem případě je to například žena mladší než 30 let, bydlící v malé obci, která zatím není naším zákazníkem.
A hned po vyplnění vidím, že tato žena na nabídku nového produktu zřejmě zareaguje pozitivně a smlouvu uzavře. A tím jsme splnili účel našeho snažení - od teď už můžeme takto odhadovat každého klienta.
Výše skóre, kterou musela součtem svých parametrů překonat, se odvíjí mimo jiné od cen, zadaných na předchozím listě.
Žádné komentáře:
Okomentovat