中国高校SAS数据分析大赛决赛考题.docx
- 文档编号:577440
- 上传时间:2023-04-29
- 格式:DOCX
- 页数:9
- 大小:163.26KB
中国高校SAS数据分析大赛决赛考题.docx
《中国高校SAS数据分析大赛决赛考题.docx》由会员分享,可在线阅读,更多相关《中国高校SAS数据分析大赛决赛考题.docx(9页珍藏版)》请在冰点文库上搜索。
中国高校SAS数据分析大赛决赛考题
2013年中国高校SAS数据分析大赛
——决赛考题
2013年11月9日
赛仕软件(北京)有限公司
北京市东城区东长安街1号
东方广场东一办公楼(E1)18层
邮编:
100738
Tel:
+860105913.2888
Fax:
+860105913.2999
Thematerialcontainedinthepresentresponseandanymaterialorinformationdisclosedduringdiscussionsoftheproposalrepresentsproprietary,confidentialinformationpertainingtoSASInstituteproductsandmethods.Byacceptingthisresponse,Clientagreesthattheinformationinthedocumentwillnotbedisclosedoutsideoftheorganizationandwillnotbeduplicated,used,ordisclosedforanypurposeotherthantoevaluatethisproposal.Thisproposalissubjecttoamutuallyapprovedagreementorcontractspecifyingfulltermsandconditions.
SASisaregisteredtrademarkofSASInstituteInc.intheUSAandothercountries.® indicatesUSAregistration.Copyright©2005,SASInstituteInc.Allrightsreserved.
版本信息
创建者
赛仕软件(北京)有限公司
日期
Nov.9th,2013
目录
一、决赛提交材料1
二、决赛题目1
一、决赛提交材料
Ø详细的建模报告,格式内容不限。
Ø模型开发的全部程序
二、决赛题目
商业银行在审批消费信贷业务时广泛使用了信用评分模型。
它能够根据申请人提供的申请信息(如年龄、学历、婚姻状态、收入和工作年限等)给出评估其风险高低的分数,这个分数也叫做信用评分。
其基本应用是:
银行审批政策管理层首先根据风险控制的要求估计并设定一个取舍点(cut-off),如果申请人的分数高于取舍点,则可以获得审批,反之,则该申请人被拒绝。
下面我们列举一个信用评分模型的简单例子来说明其作用。
假如某银行的信用评分模型只考虑三个特征因素:
年龄、性别和收入。
该银行对这些因素做了特殊的处理(比如把连续变量划分为若干个离散的区间,把水平数太多的离散变量做合并),模型的最终结果以评分卡的形式展现。
评分模型对不同的因素特征赋予不同的分数,这个分数是以统计分析为基础,在考虑如特征因素的预测强度、特征因素间的关系和可操作性等多方面因素之后得到的。
分数的总和就是表明消费者信用风险大小的度量,分数高的表明风险低,分数低的表明风险高。
表1评分卡样例
特征名字
品质属性
评分
年龄1
26岁以下
100
年龄2
26-35岁
120
年龄3
35-37岁
185
年龄4
37岁以上
225
性别1
女
180
性别2
男
90
收入1
1000元以下
120
收入2
1001-3000元
140
收入3
3001-5000元
160
收入4
5001-10000元
200
收入5
10001元以上
240
银行的风险经理会事先估计出最合适的临界值,假设在这个例子中,这个恰当的临界值为480分。
假如该银行新来了两个申请人甲和乙。
甲是32岁的女士,月收入为2000元,则她可获得的分数为120+180+140=440分,低于临界值480分,因此银行就拒绝了她的申请。
乙是40岁的男士,月收入为15000元,则他得到的评分为225+90+240=555分,远远的高于临界值480分,因此银行就批准了他的申请。
这种评分卡格式的模型非常容易解释,即使并不精通统计和数据挖掘的人也能接受。
这使得银行可以用一种简单的商业术语对客户、审计员和监管机构人员等来解释拒绝、低分、高分的原因,而不是给出一个“黑盒子”。
这就使得评分卡成为了备受推崇的信用风险模型风险的主要格式。
信用评分模型的本质就是计算每一位申请人在未来成为坏客户的条件概率
,这个条件概率也称为违约概率(ProbabilityofDefault,简称PD),其中
表示成为坏客户,
就是在评分模型中作为解释变量的若干个特征因素
。
信用评分模型的一般建模中,对于变量的分组处理非常关键,也就是如何对连续变量做离散化处理,对于取值水平太多的变量做归并处理。
通常,对于每一个变量,分成不多于五段。
对变量分组主要依赖于WOE这个统计量,WOE的计算方法如下:
表2WOE计算样例表
其中,WOE的计算公式为:
例如,23-26属性的WOE为:
信息量InformationValue(以下简称IV)是对于每个变量的预测能力的一个度量,计算公式如下:
其中,n是变量的取值被分成若干个区间的段数。
变量分组处理中最关键的就是对临界值的选择,比如为什么把18-22岁分为一组,23-26分为一组呢?
在信用评分领域,通常会把变量先进行细分组,比如分成50组或者20组(如果是属性分类变量,就取原始的分类水平值),计算出每个分组的WOE值,然后把WOE相近的组进行合并,合并时保证IV值损失的最小,直到不再能合并。
通常,最后的分组不多于五个。
评分卡模型主要采用Logistic回归。
在创建评分卡模型时可以直接把每个变量在每一个分组上的WOE值作为新的建模变量参与建模。
比如一个年龄在20岁的客户,他的WOE值为-108.98,创建logsitic回归不再用20这个年龄变量的取值而是用-108.98这个年龄变量的WOE值作为解释变量。
因此,每个变量在不同取值上的评分为:
其中,
表示模型中第i个解释变量的权重,
表示该解释变量第j个分组的WOE值,
表示模型中的截距项,n表示模型中解释变量的个数,
Factor=20/ln
(2)=28.8539,
Offset=600–(28.8539*ln(50))=487.123
请参考上述原理,利用数据集final开发一张房贷业务的信用评分卡(如表1所示),其中GB_MO为因变量(1表示坏客户,0表示好客户),其余变量为可选的解释变量(采用哪几个变量作为解释变量可以自行选择变量选择方法)。
对于开发出的信用评分卡将根据K-S统计量和ROC统计量作为评优的准则。
K-S统计量和AUC统计量可以自己编程写,也可以利用SAS过程步。
附录:
1.K-S统计量
K-S统计量被应用于信用评级模型主要是为了验证模型对违约对象的区分能力,是表现模型区分能力的验证指标。
首先利用模型会预测全体样本的信用评分或者PD值,然后将全体样本按正常客户和违约客户分为两组样本,然后用K-S统计量来检验这两组样本信用评分或者PD值的分布是否有显著差异。
有效的模型能够区别出违约客户和正常客户之间的差异,违约客户的评分或者PD分布应当不同于正常客户的评分或PD分布。
当正常客户和违约客户两个子样本的累积百分比的差异非常小,且差异为随机时,则可以认为两样本的评分或PD分布是一致的;反之当两个子样本的累积百分比的差异非常大时,则可以认为两样本的评分或PD分布不一致。
通常,如果模型的K-S统计量越大,表明模型区分正常客户和违约客户的能力越强。
K-S统计量除了用上图所示的图形表示以外,也可以有统计表的形式表现,这也是近似计算K-S统计量的一个常用方法。
PD\等级
%ofDefaults
%ofGoods
%of
CumulativeDefaults
%of
CumulativeGoods
Gap
KS
在K-S统计量的近似计算中,PD\等级这一列可以是PD的区间范围,也可以是客户的评级,PD区间的划分主要依据建模样本中的情况。
%ofdefaults这一列表示验证样本中违约客户的百分比。
%ofgoods这一列表示验证样本中正常客户的百分比。
%ofCumulativedefaults这一列表示验证样本中违约客户的累积百分比。
%ofCumulativegoods这一列表示验证样本中正常客户的累积百分比。
Gap这一列表示验证样本中正常客户的累积百分比和违约客户的累积百分比之差,而K-S就是最大的Gap值。
2.AUC统计量
ROC曲线及AUC统计量主要用来检验模型对客户进行正确排序的能力。
ROC曲线描述了在一定累计好客户比例下的累计坏客户的比例,模型的分别能力越强,ROC曲线越往左上角靠近。
AUC统计量表示ROC曲线下方的面积。
AUC统计量越高,模型的风险区分能力越强。
ROC曲线的图形表示如上图,具体绘制步骤如下:
(1)制作模型预测的结果交叉分类表:
预测
实际
违约
正常
违约
Y1=DD/TD
Y2=DN/TD
正常
X1=ND/TN
X2=NN/TN
给定一个截断点,那么:
·预测违约概率大于截断点,视为违约户
·预测违约概率小于截断点,视为正常户
ROC曲线为不同截断点下,Y1与X1之间的关系。
Y1(命中率)=DD/TD,含义为在给定临界值下正确划分为违约客户所占的比例,X1(误警率)=ND/TN,含义为在给定临界值下,错误的把非违约客户归类为违约客户的比例。
如,
则,命中率等于218/335=65.1%,误警率=1-589/665=11.4%
(2)绘制ROC曲线并计算指标值:
∙违约预测值由大排到小
∙分别以0.95、0.9、…、0(切割的单位可以更细,如0.99、0.98、…、0)为截断点,求出个别的X1与Y1
∙以X1为横轴,Y1为纵轴,即可绘制ROC曲线
ROC曲线越往左上,即ROC曲线下的面积越大,表示该模型的正确性越好。
ROC曲线下面积的大小可以作为模型预测正确性高低的评判标准,就是AUC统计量。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国高校 SAS 数据 分析 大赛 决赛 考题