Záloha: Scoring v Excelu

V tomto článku navazuji na sérii článků o dataminingu v Excelu - tentokrát půjde o scoring. Než se pustíme do Excelu, chci v rychlosti vysvětlit, k čemu se scoring používá a jak funguje.

Scoring - příklad použití

Jeho typické použití je v bankách. Klient přijde požádat o úvěr, a banka rozhodne, jestli mu jej dát nebo nedat.
Pokud mu úvěr dá, tak klient buď bude splácet (pak banka vydělá), nebo nebude (pak banka přijde o půjčené peníze). Pokud banka klientovi úvěr nedá, pak o žádné peníze nepřijde, ale také nevydělá. Je tedy nesmírně důležité rozdělit klienty co nejpřesněji na ty, kteří budou splácet, a na ty, kteří nebudou - a půjčit jen těm prvním.
Banka má o klientech řadu informací, podle kterých se může rozhodovat (např. měsíční příjem klienta, počet závislých osob, délku současného zaměstnání klienta, příjem...). Některé z těch informací jsou důležité, jiné méně. Je důležité odlišit ty podstatné od těch nepodstatných a rozhodovat se jen podle těch, které mají na výsledek skutečně vliv. Tedy stanovit váhy informací - kritérií a určit způsob, jak výsledek ovlivňují.
Banka se k tomu může postavit dvěma způsoby. Může vybrat důležitá kritéria (a jejich hodnoty) na základě osobní zkušenosti expertů, zákonných požadavků a podobných informací "zvenku". Tato cesta nás teď ale nebude zajímat.
Druhým způsobem je podívat se, jak se kritéria osvědčila v minulosti, a podle toho rozhodovací proces nastavit, resp. upravovat. A o tom, jak to udělat, je tento článek.
Scoring se také používá pro odhadování potenciálních zákazníků. Pokud vám například telefonní operátor zavolá a nabídne nový tarif, je pravděpodobné, že jste dostali vysoké skóre, když operátor skóroval své zákazníky. Skóroval je s ohledem na to, jak je pravděpodobné, že budou chtít nový tarif a že za něj utratí hodně peněz. A pokud Vám operátor volá, zřejmě vám vyšlo skóre vysoké.

Příklad a návod

Odhadování reakce zákazníků se bude týkat náš příklad. Máme sto zákazníků, kterým jsme v minulosti nabídli nový volací tarif. U těchto zákazníků víme nejen jestli si tarif koupili, ale také kolik jim je let, jakého jsou pohlaví, z jak velkého jsou města a navíc jestli při oslovení byli našimi zákazníky (pro jinou službu nebo tarif) nebo ne.
Tabulku si můžete stáhnout zde.
Mým úkolem je vytvořit předpovídací model, který mě umožní u každého budoucího potenciálního zákazníka, u kterého budu znát uvedené informace, určit, jestli si produkt koupí nebo ne. Nebudu tak zbytečně a draze oslovovat marné případy, a zároveň mi neuteče žádný potenciální dobrý klient.
Takto vypadá tabulka s údaji z minulosti, na základě které model vznikne:

Nejprve data označím a jdu na Vložit / Tabulka. Od této chvíle už s tabulkou Excel pracuje jako s uceleným souborem dat.

Pak jdu na Nástroje tabulky / Analyze. Pokud pod Nástroji tabulky kartu Analyze nevidím, musím si doinstalovat analytický doplněk k Excelu a připojit se na MS SQL Server.
Kliknu na Prediction Calculator.

V "Target" vyberu, co chci předpovídat. V našem případě předpovídáme, jestli uživatel uzavře nebo neuzavře smlouvu.

Odklikneme a počkáme na zpracování výsledků.
Výsledkem jsou hned tři nové listy s výsledky. Pojďme si je projít.

List "Prediction report for..."

V tomto listu jsou dvě oddělené tabulky.
Ve spodní tabulce našeho příkladu je na první pohled vidět, že v datech se projevují tři faktory, které předurčují zákazníky k tomu, aby si nový produkt koupili.
Je to věk do třiceti let, ženské pohlaví a to, že zákazník pro nový tarif už je naším zákazníkem. Méně významnými, ale existujícími vlivy jsou pak věk od 30 do 41 let a od 41 do 55 let a také bydliště ve velkém městě.

V horní tabulce se stanovuje limitní skóre. Tedy skóre, které když bude u klienta překročeno, vyplatí se jej oslovit - protože smlouvu asi uzavře.

K tomu ale musíme dodat další informace:

False Positive Cost
Zadávám, kolik bude stát, když se model splete a navrhne k oslovení klienta, který smlouvu neuzavře. Čím větší číslo, tím bude model opatrnější, a bude požadovat vyšší skóre k tomu, aby navrhl klienta k uzavření smlouvy. V našem případě třeba 50 - protože, dejme tomu, oslovení klienta stojí 50 Kč a pokud klient smlouvu neuzavře, tak o ty peníze přijdeme.
False Negative Cost - zadám, kolik mi bude stát, když se model splete a navrhne mi, že nemám oslovovat klienta, ač by tento klient ve skutečnosti smlouvu uzavřel. Čím větší číslo, tím nižší skóre bude model požadovat - protože se bude snažit falešně negativnímu hodnocení vyhnout. V našem případě můžeme nechat nulu - chybné neoslovení klienta nás nebude stát nic.
True Positive Profit - zadám, kolik vydělám v případě, že model správně určí klienta k oslovení. Tedy potenciální tržby za klienta. Pokud budu vědět, že každý klient, kterého oslovím, a on uzavře smlouvu, mi vydělá 500 Kč, vyplním 500.
True Negative Profit - pokud bych měl nějaký zisk z toho, že model vyhodnotí správně a negativně některého z klientů, vyplním to sem. V našem případě necháme nulu.

Výsledkem je skóre. Tedy hodnota, kterou musí potenciální klient za všechny parametry (věk, pohlaví..) nasbírat, abychom jej oslovili s nabídkou smlouvy.

List "Prediction Calculator for ..."

Spodní tabulka je stejná jako u předchozího listu, zajímá nás tedy ta horní.
Teď už jsme v situaci, kdy máme potenciálního klienta, a chceme odhadnout, jesti uzavře nebo neuzavře smlouvu.
V tabulce vyplníme vlastnosti tohoto posuzovaného klienta. V našem případě je to například žena mladší než 30 let, bydlící v malé obci, která zatím není naším zákazníkem.

A hned po vyplnění vidím, že tato žena na nabídku nového produktu zřejmě zareaguje pozitivně a smlouvu uzavře. A tím jsme splnili účel našeho snažení - od teď už můžeme takto odhadovat každého klienta.
Výše skóre, kterou musela součtem svých parametrů překonat, se odvíjí mimo jiné od cen, zadaných na předchozím listě.

List "Printable Calculator for..."

Na tomto listě je obsahově to, co na tom předchozím, jen upravené pro vytisknutí a ruční vyhodnocování - třeba pro pracovníky v terénu.

Záloha

čtvrtek 7. listopadu 2013

Scoring v Excelu

Scoring - příklad použití

Příklad a návod

List "Prediction report for..."

List "Prediction Calculator for ..."

List "Printable Calculator for..."

Žádné komentáře:

Okomentovat