内部评级系统的数据管理.docx
- 文档编号:7325879
- 上传时间:2023-05-11
- 格式:DOCX
- 页数:10
- 大小:98.11KB
内部评级系统的数据管理.docx
《内部评级系统的数据管理.docx》由会员分享,可在线阅读,更多相关《内部评级系统的数据管理.docx(10页珍藏版)》请在冰点文库上搜索。
内部评级系统的数据管理
内部评级系统的数据管理
中国建设银行风险管理部武剑
巴塞尔新资本协议于2004年6月正式公布,并将从2006年在全球范围开始实施。
新协议强调内部评级法(IRB)在风险管理和资本监管中的重要作用,倡导国际活跃银行基于内部数据和管理标准,建立内部评级系统和管理制度,以提高风险管理的精确性、敏感性和标准化程度。
从国际经验看,内部评级系统建设过程中,大量精力将被花费在数据清洗和数据整合上。
相比之下,我国商业银行的数据储备严重不足,数据缺乏规范性且数据质量不高,这些问题如不及早解决,将严重制约内部评级系统的应用和发展。
为此,国内银行应尽快完成数据清洗和补录工作,并实行更加规范、严格、一致的数据标准,制定数据质量管理规章,确保业务数据的及时性、准确性和全面性。
一、内部评级的数据要求
银行要实施内部评级法,数据是最重要的环节。
根据新资本协议,内部评级所用的数据既要有足够的样本容量,又必须达到一定质量标准,具体要求包括:
1.数据准确性
要满足内部评级要求,数据就必须是准确的、及时的、完整的、易懂的和可信的。
数据准确性与很多因素有关,但主要原因还是数据输入错误。
国外银行进行了很多努力,试图减少数据输入差错,但效果一直不理想。
研究表明,除非银行采取极端措施避免数据差错,否则数据差错率不会低于5、。
2.数据代表性
样本中的客户数目和数据收集期应能够充分地代表历史状况,从而保证基础数据分析和违约概率预测的精确性和稳健性。
要保证历史数据发生时的经济或市场状况与现在和将来可预期的状况具有可比性和可调整性。
3.数据一致性
银行如果使用内部评级法,就必须证明其模型测算结果能够反映其现行的承销标准。
如果数据不足或承销标准发生变化,银行在测算时应持谨慎态度。
若使用共享数据,则须阐明其他银行的内部评级系统及标准与其本身具有可比性,应尽量做到客观,并保持方法和数据方面的一致性。
4.数据观察期
就IRB初级法而言,无论银行使用外部数据、内部数据或组合数据,其数据观察期至少为5年,如果能收集到更长时期的数据,观察期也要相应延长。
对实行IRB高级法的银行,数据观察期至少应为7年。
5.相关数据资料
银行必须收集并保存与内部评级有关的所有信息资料,包括信贷业务流程的各种合同和管理文档。
二、数据处理流程
即便是国际先进银行,在内部评级体系开发过程中,也会有70、以上的资源和时间投到了数据基础建设方面。
目前,国内银行收集的客户数据质量普遍不高,有些是明显失真数据或无效数据,有些则含有深层逻辑错误。
因此,有必要对原始数据进行规范化预处理,这一过程包括数据收集、数据整合、数据清洗、反欺诈处理和数据评价等5个阶段,通过层层过滤生成高质量的数据样本,方能进入评级模型,正式开始风险计量分析(见图1)。
图1内部评级的数据流程
新资本协议指出,在满足标准化要求和保守原则的条件下,允许那些实施IRB初级法的银行使用外部数据来估计违约概率和其他关键因素。
这一方面为数据基础较弱的银行开辟了一条实施IRB法的通道,另一方面也要求这些银行在未来较短时期内解决内外部数据整合的问题。
这一过程涉及数据标准制定、系统接口衔接以及一致性检验等复杂技术问题。
当然,最关键的还是要加快建立标准化数据仓库,以及与之相联系的数据整合、数据清洗以及数据反欺诈管理工具,同时也要进一步完善数据管理制度和控制措施。
三、内部评级的数据收集
实施IRB初级法的银行,首先要收集和保存客户至少5年的经营管理资料、财务数据和违约记录,其中3年数据作为建模基础,2年观察期。
从数据来源看,上述信息可分为三类,一类是反映客户自身经营状况的财务信息,另一类是包括客户基本面、银行账户记录在内的非财务信息,第三类是与客户内部评级相关的宏观信息。
1.微观风险数据
1)财务数据
用于客户评级的数据信息分为微观和宏观两个部分。
微观层面上的风险数据包括财务数据和非财务数据。
财务数据主要是资产负债表、损益表和现金流量表,银行有时还要求客户提供更详细的二级科目报表。
财务分析首先从现金流开始,特别对大型公司类客户,该环节不可省略(而中小企业现金流量表一般难以获得,可直接进行财务比率分析,着重考察公司的流动性、杠杆比率和盈利能力,然后将财务比率与行业平均值比较。
此外,还要进行财务趋势分析,着重观测流动性和短期偿债能力的变化。
2)非财务数据
除财务数据外,银行还需掌握客户基本面信息、合同信息、账务信息、担保信息、清偿信息以及突发事件等,以此判断违约概率和长期发展趋势。
非财务数据分析是对客户财务分析的重要补充。
但许多银行忽视对非财务信息进行标准化处理,因而未能充分发掘和利用这类信息的潜在价值。
事实上,大部分非财务信息是客观化的定量信息,如企业成立时间、主要领导人年龄、所有制类型等,在一般评级模型中约有30%~50%的信息来源于专家判断。
这些定性信息的标准化处理是建立评级模型的一个重要因素,通过定序或定类的方式对其进行格式化,以便分析这些信息与违约纪录的相关性。
如果银行专家在经验上感觉客户的某些经营管理特征对其违约概率产生影响,那么就应当验证二者之间在统计学上是否存在相关性,以及相关性的显著程度。
假如统计上发现某非财务因素与违约概率之间存在相关性,那么银行在贷款管理时就应把它作为一个解释控制,将其体现在贷款营销和授信的标准中,以防范由于此类因素而产生的信用风险。
2.宏观风险数据
除微观风险数据外,宏观层面上的系统性风险分析对计算客户的违约概率同样具有重要意义,越来越多的研究也证实了这一观点,所以系统性风险研究正在成为银行内部评级的重要组成部分。
宏观数据包括国家风险。
行业风险。
区域风险和交叉风险等,这些方面的数据涵盖范围广,分析难度高,一般由银行总部负责收集。
整理。
分析和发布。
宏观分析结果可以直接或间接方式进入内部评级模型。
单纯基于微观信息的评级模型通常只能起到对信用风险的排序作用,而不能准确计算违约概率。
而且,如果不充分考虑宏观经济的周期变化,评级模型的整体预测能力就会大大降低,由此可能对信贷决策产生误导。
四、内部评级的数据整合
1.业务系统整合
评级数据主要从业务流程系统中直接获得,以确保数据的及时性和准确性。
前台业务流程系统与后台评级系统始终处于平行运作状态(如图2所示)。
授信业务一旦发生,相关数据会立即传送到后台,进行自动化的风险计量和分析;之后内部评级和资产组合的计算结果会以最快速度传给前台,使之发挥决策支持作用。
业务流程系统和内部评级系统生成的数据记录和分析结果都按照统一数据标准存入银行数据仓库。
内部评级定期所作的参数分析和返回经验都将基于仓库中的历史数据完成。
2.数据源整合
除了业务数据以外,还会有许多重要数据源于银行以外的政府部门或研究机构,例如宏观运行、产业结构、市场行情、法规变化等。
对于发展中国家的银行,内部管理信息系统大多处于初级阶段,数据积累不够充分,数据水分较大。
要在短时期内建立一个能应用于实际业务的评级系统,就必须以外部数据作为补充。
新资本协议指出,实施;()法的银行在缺乏数据的情况下,可以在一定程度上依靠外部数据,其前提条件是银行能够确认所用外部数据的真实性、有效性以及对于银行内部数据的代表性。
目前,国内商业银行可通过适当方式从财政部、人民银行、银监会、国家统计局、国务院发展研究中心等政府部门或相关的信息公司获取宏观和微观数据。
源于不同系统的数据须通过企业法人代码或贷款卡号进行映射和链接,从而形成完整的客户信息集合。
对于同一客户,不同的信息来源有时可能出现重叠字段,而信息内容又存在严重不一致,此时应通过适当方式加以核实。
如确实无法确认哪一个是真实数据,则应依据风险计量的保守原则,取风险较高的指标值。
3.数据整合方法
数据整合中的最主要问题是,不同数据源的客户标识和信息内容不同,造成对同一客户进行匹配十分困难。
这时,常用模糊匹配的算法寻找相同记录,进行客户匹配。
不同来源的客户信息所共同具有的客户信息片断可用于客户匹配,如电话号码、姓名和地址等。
图2系统间的衔接与整合
在客户记录匹配时,如果两两配对,随着数据量增多,计算量将大大增加。
为了减少这方面的工作量,可先对客户进行聚类分析,将其分成若干部分,只有分在相同部分的客户记录才可以相互匹配,这将大大减小运算量。
通过聚类和匹配,如果发现几个匹配记录,就需对这些记录进行合并。
实际上,这也是实行客户关系管理的初衷,也就是把不同来源的信息合并在一起,产生对客户的总体看法,如账户信息、信用等级、投资活动、对直接营销的反应等。
在合并记录时,客户信息片断经常是重复的,这种情况较容易处理。
但有时客户信息片断互相矛盾,这时需要为信息合并建立一些规则,比如经常账户上的地址要比退休账户上的地址权威一些,越接近当前日期的信息片断准确性可能越高,重复率高的信息可能越准确,如果三个信息源中的两个顾客电话号码是相同的,那么重复的电话号码可能是正确的。
记录匹配的完整性和准确性是很重要的。
如果没有对相同客户进行匹配,银行会把一个客户当作两个甚至更多客户对待,客户数量就被夸大了。
例如,根据美国Meta集团的研究,医疗机构病历约有3%~5%是重复的。
另一方面,如果把本不应合并的记录合并了,这时对客户的看法也是歪曲的。
这些不完整、不准确和不可靠的匹配都会导致不准确的分析结果和决策,导致银行费用增加和利润减少:
如对客户信用等级有着错误的认识,就可能导致投资风险;对某个客户价值没有充分认识,就可能导致失去顾客;错误记录可能导致营销资源的浪费。
五、内部评级的数据清洗
1.数据清洗的基本方法
1)简单比较法
这是数据清洗的最简单、最基本的方法,即将数据的值与其真实值相比较。
例如,要查清客户数据是否正确,可以每年做一次客户调查,确认其正确的地址与工作单位。
当然,这样比较的成本最昂贵,并且比较与真实的差别对避免将来的错误没有任何帮助。
但对于抽样数据来说,由于样本量较少,应用该方法能以较小成本得到较准确的数据。
2)数据库撞击法
该方法是比较两个或多个数据库记录,从而避免花时间与实际数据进行比较。
这个方法可推广到多数据库的情形,比较一致的数据就认为是正确的,否则就是不正确的,需要进一步考查与更正。
这个方法最大好处就是易于控制,只需要一次性成本。
3)数据编辑法
数据编辑法是一个计算机程序,它检查数据值是否满足预先设定的限制,这些限制有时称为规则,如邮政编码不能超过六位。
数据编辑法既可以针对整个数据库,也可以是信息过程的过滤。
在后面这种情况下,可以用来控制和改进过程表现。
这种方法有两个好处:
①在很多情况下,数据编辑法可以消除数据的不一致;②比数据库撞击法的成本更低,且更易于实施。
一般情况下,在数据需求出现的同时就可以将编辑方式开发出来。
但这种方法也不能对数据质量进行持续改进,虽然该方法能获得数据完整性,但仍不能保证数据的准确性。
2.缺失值处理
数据清洗中最主要的两个问题就是缺失值处理和重复值处理。
尽管采取预防措施使空缺值数量最小化,但在处理数据的过程中缺失值现象还是经常出现。
将缺失数据补齐的办法一是替代法,即找到一个尽可能与缺失项类似的替代值;二是推算法,即以现有统计资料为基础,根据事物的联系及其发展规律推算缺失数据。
常用的补救方法有以下几种:
1)演绎估计法
有时,变量缺失值是由某些变量决定的,这类替代要求这些变量之间存在已知的函数关系,可以由其他变量线性表示出来,由此直接由已知变量推算出未知变量。
这种方法称为演绎估计法。
例如,已知年龄,就可以推算出生年份。
2)完全替代法
替代值和缺失值具有相同的测度,但它取自该数据源以外的记录。
这样,就可以从外部数据资料得到缺失值。
3)比例推算法
比例推算法就是根据某一时间或空间资料中的一定比例关系,来推算另一类似时期、空间的缺失数据。
应用比例推算法时,要求不同时期的情况基本稳定,不同空间的条件基本类似。
4)因素推算法
此法是利用事物间有关因素的内在联系,从已知因素的资料推算未知数值。
例如,税金=营业收入×税率,已知税金和税率就可以推算出营业收入。
此法关键在于确定符合事物本身联系的数学恒等式。
5)插补推算法
这是一种预测性估算方法。
如果字段为时间序列函数,可用前期数据的均值替代当前字段中的缺失值;也可用缺失值前后几年数据的均值作为替代值。
使用此法需注意所估计时期的客观条件应具有稳定性,无突发因素的影响。
6)样本量替代法
首先,根据一定标志交叉分组,形成同质子样本组作为替代单元,然后将替代单元内的全部数据的均值或随机抽取某数据作为替代值。
此法使用同一样本数据替代,操作相对容易,可有效降低点估计的偏差。
7)最近距离替代法
最近距离替代法就是根据与无应答数值(缺失值)距离最近的数值来确定替代值。
由于无应答字段中的变量值及其替代值之间可能存在较大差异,寻找最接近数据替代可减少这类问题出现的可能性。
例如,缺失某个公司的利润额,可依照已知各公司营业收入的多少按序排列,位于无应答位置两边的数值被确认为候选替代值,其中与无应答单位营业收入相差最小的值,被认为与这个无应答距离最近,其利润额作为无应答数据的替代值。
8)回归替代法
在样本变量中,如变量X和变量Y之间存在高度相关,可利用应答数据拟合回归预测模型,预测出未知无应答缺失值。
例如,缺失变量和已知变量是线性回归关系,其预测模型为根据最小二乘法求得的线性模型。
回归替代值是一个预测值,而不是取自当前调查的应答单位的实际值。
3.重复数据处理
在检测相似重复记录之前,需要先对数据进行一些处理。
可从自由格式文本字段中抽取结构,分离各个部分,加以验证和改正。
根据查找表来验证字段值的正确性,若发现错误,则加以改正。
如果提供合适的领域知识,该过程也可验证字段之间的依赖关系,然后进行数据标准化)将同一类型数据用统一格式表示)比如日期、电话号码、性别等。
国外研究人员提出过很多消除重复数据的算法,这些算法有两个重要的评价标准:
记忆率和准确率。
记忆率是识别相似重复记录占所有相似重复记录的百分比;准确率是指在算法识别出的相似重复记录里,那些真正相似重复记录所占的百分比。
提高记忆率的同时会损害准确率,反之亦然。
因此,在这两个指标之间需要进行权衡。
1)匹配重复记录方法
该方法是解决重复记录问题的方法,也是一个非常耗时的过程。
因为是模糊匹配,所以整个过程相当于对两个记录作笛卡尔乘积。
然后,根据相似度进行排序,那些相似度超过某一阈值的记录被认为是重复记录,低于某一阈值的记录被认为不是重复记录,而相似度介于这两个阈值之间的记录是候选的相似重复记录,需要银行作出决定。
2)专家系统方法
先用抽样方法从大数据集中取出样本,在此基础上通过专家的参与产生预处理规则和匹配规则。
在得到初步规则后,把它们应用到样本数据上,通过观察中间结果,银行可以修改已有的规则,或者添加新的领域知识。
如此反复,直到银行对所得结果满意为止。
这时,可以将这些规则应用到整个数据集中。
系统利用了机器学习和统计方法来帮助建立匹配规则,以减少手工分析工作量。
3)数据挖掘方法
可以使用数据挖掘技术来检测数据质量问题,并加以改正。
例如,通过发现字段之间的关联规则,如果该关联规则的置信度接近100%,那么违反该规则的记录很可能有问题。
六、内部评级的数据挖掘
1.数据挖掘的应用基础
数据挖掘是研究数据趋势、特征及内在联系的自动化分析过程。
从内部评级角度看,数据挖掘最为突出的功能在于它可以使用不同技术来发现新的信息和知识,从而进行风险的判断和预测。
例如,数据挖掘发现某行业的客户通常在违约前其透支账户有一段时间都是高用量,这方面的分析可给予银行多一些思考,可在客户违约前作出相应防范措施。
又比如,银行可通过数据挖掘,很快发现未婚女性的按揭贷款很少出现违约,但换作人工分析,单看性别或婚姻状况不会得到上述结果。
要在数百个风险因素中找出这个组合(女性、未婚),没有数据挖掘工具是很难有效找出有用信息的。
因此,一个形象的比喻就是,数据挖掘就如同在黑夜中寻找走失了的宠物:
手工分析好比使用手电筒搜索,它虽然可以协助你在黑夜中看得清楚一点,但最后还须靠肉眼将目标找出来;而数据挖掘工具就像雷达一样,它可以直接告诉你目标的具体位置。
对银行而言,数据挖掘是一种从大型数据仓库中提取隐藏的预测性信息的新型分析技术,它能开发出潜在的模式,找出最有价值的信息,指导信用风险的分析和预测。
原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。
发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。
已有的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。
因此,数据挖掘是一门广义的交叉学科,它汇聚了数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。
正因如此,随着银行业务复杂程度的不断提高,数据挖掘将被越来越广泛地应用于内部评级及其相关领域中。
2.数据挖掘流程
1)数据取样
为了实现内部评级的数据处理要求,首先要从企业大量数据中取出一个与问题相关的样本数据子集,而不是动用全部银行数据。
通过对数据样本的精选,不仅能减小数据处理量,节省系统资源,而且能通过数据筛选,使数据更加具有规律性。
2)数据探索
数据探索就是通常所进行的对数据深入调查的过程,从样本数据集中找出规律和趋势,用聚类分析区分类别,最终要达到的目的就是搞清楚多因素相互影响的、十分复杂的关系,发现因素之间的内在相关性。
3)数据调整
通过上述两个步骤的操作,对数据的状态和趋势有了进一步了解,这时要尽可能对问题解决的要求明确化、量化。
针对问题需求,对数据进行增删,按照对整个数据挖掘过程的新认识组合或生成一个新变量,以体现对状态的有效描述。
4)模型化
在内部评级所需解决的问题进一步明确、数据结构和内容经过调整的基础上,就可以建立数理分析模型。
5)评价与检验
经过上述过程将会得出一系列分析结果、模式和模型,多数情况会得出对目标问题多侧面的描述,这时就要综合它们的规律性,提供合理的决策支持信息。
评价的办法一是直接使用原先建立的模型样本和样本数据来进行检验;二是另找一批数据对其进行检验,或在实际运行环境中取得新鲜数据予以检验。
3.数据挖掘功能
数据挖掘通过预测未来趋势,做出前瞻的、基于知识的决策,它的目标是从数据库中发现隐含的、有意义的知识。
数据挖掘主要有以下四类功能。
1)趋势预测
数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可迅速由数据本身得出结论。
一个典型例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其他可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。
2)关联分析
数据关联是数据库中存在的一类重要的、可被发现的知识。
若两个或多个变量的取值之间存在某种规律性,就称为关联。
关联可分为简单关联、时序关联、因果关联等。
关联分析的目的是找出数据库中隐藏的关联网,关联分析生成的规则带有一定可信度。
3)聚类分析
数据库中的记录可分为一系列有意义的子集,即聚类分析。
聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。
聚类技术主要包括传统的模式识别方法和数学分类学。
20世纪80年代初,Mchalski提出了概念聚类技术,其要点是在划分对象时不仅考虑对象之间的距离,还要划分出的类别具有某种内涵描述,从而避免传统技术的片面性。
4)偏差检测
数据库中的数据常有一些异常记录,因此从数据库中检测这些偏差便非常有意义。
偏差包括很多潜在知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。
偏差检测的基本原则是寻找观测结果与参照值之间有意义的差别。
4.数据挖掘工具
1)神经网络工具
由于对非线性数据的快速建模能力,基于神经网络的数据挖掘工具现在越来越流行。
其开采过程基本上是将数据聚类,然后分类计算权值。
神经网络很适合非线性数据和含噪声数据,所以在市场数据库的分析和建模方面应用广泛。
2)基于规则发现和决策树的工具
大部分数据挖掘工具采用规则发现或决策树分类技术来发现数据模式和规则,其核心是某种归纳算法。
这类工具通常是对数据库的数据进行开采,然后对新数据进行分析和预测。
这类工具的主要优点是规则和决策树都是可读的。
3)模糊逻辑工具
模糊逻辑工具的发现方法是应用模糊逻辑进行数据查询排序。
该工具使用模糊概念和,最近,搜索技术的数据查询工具,它可以让用户指定目标,然后对数据库进行搜索,找出接近目标的所有记录,并对结果进行评估。
4)综合方法工具
不少数据挖掘工具采用了多种开采方法,这类工具一般规模较大,适于大型数据库,包括并行数据库。
这类工具开采能力很强,但价格昂贵,并要花很长时间进行学习。
内部评级与外部评级的重要区别在于,内部评级基于大量银行内部数据库,更加强调统计分析在风险计量中的重要作用,从而在整体上提高了风险敏感度,有利于监管和控制金融风险,这正是巴塞尔委员会推出新资本协议的根本宗旨。
用发展的眼光看,随着银行数据的不断积累,以及金融业务和衍生产品日趋复杂,数据挖掘技术在内部评级和风险分析领域将展现出日益广阔的应用前景。
七、结束语
不积跬步,无以至千里;不积小流,无以至江海。
金融软件测试大中心是在我国金融企业信息技术发展过程中诞生的新思路,是我国金融业迎接WTO挑战,提高自身竞争力所迈出的具有探索意义的重要一步。
“223模型”设想是对建设组织严密合理、工作紧凑流畅、拥有规范流程并且在此基础上建立起点面结合流程控机制的大规模金融软件测试中心的思考。
我国金融业IT链条将在此思路下逐步发展,走向成熟,为业务进步和发展提供稳定、高效的技术平台,为金融业参与激烈的全球市场竞争提供坚实的技术支持。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 内部 评级 系统 数据管理