基于数据挖掘的中小企业信用评估研究.docx
- 文档编号:17950699
- 上传时间:2023-08-05
- 格式:DOCX
- 页数:34
- 大小:372.63KB
基于数据挖掘的中小企业信用评估研究.docx
《基于数据挖掘的中小企业信用评估研究.docx》由会员分享,可在线阅读,更多相关《基于数据挖掘的中小企业信用评估研究.docx(34页珍藏版)》请在冰点文库上搜索。
基于数据挖掘的中小企业信用评估研究
摘要
新世纪初以来,在国家支持民间经济发展,经济进入新的常态的情况下,中小企业的经济主旋律之间的信贷业务越来越频繁。
开发受到限制,因此必须建立良好的评级体系作为保证。
另外信用评估也可以为中小企业的风险评估,银行信贷提供有价值的参考。
本文重点是对CART分类算法的研究,通过对中小板企业财务数据的数据挖掘,得出了10个信用评估的财务指标,然后选取了层次分析法进行信用评估,通过对数据挖掘后指标的权重分析,利用标准普尔公司指数,对某地中型电气A企业进行了信用评估,并分析了结果。
关键词:
中小企业;信用评估;CART;层次分析法
第1章绪论
1.1课题研究的背景和意义
1.1.1研究背景
随着社会和经济发展的必然会产生针对中小企业有各种信贷、入股以及投资,这是现代社会和经济生活不可分割的一部分,为了降低银行或者股东及投资人的风险必须评估中小企业信贷风险,可以降低双方的交易成本。
客观科学的能力是指基于共识和广泛分析的评估。
经济、证券市场和市场控制在有效保护和保护信用风险方面发挥着积极的作用,促进投资者和整个市场的利益。
具体有以下三点:
第一:
特别是,大多数个人投资者应了解相关发行人,优化投资机会,以保护投资者的利益和资本市场的组织。
第二:
客户增加对公司投资的兴趣,同时对企业信用的科学分析可以最大限度地发挥信用评级的作用。
第三:
企业风险评级是确定信用风险和信用管理的基础。
信贷公司的生产经营取决于银行信贷的安全与效率、银行的生存与发展、金融机构的稳定以及信贷风险的大小。
改革开放以来,中小企业已成为国民经济的重要力量,通过提供就业机会,为我国经济发展作出了重大贡献。
在中国工商注册的1000万中小企业中。
当工业总产值转化为销售额时,实现的利润、税收和出口总额分别占全国总产值的67%、44%和64%,创造了75%以上的城市就业机会。
然而,中小企业生存发展环境不理想,融资渠道不畅,中小企业融资难已成为制约中小企业发展的主要障碍。
中小企业如何融资成为我国金融业的一个重要课题。
中小企业融资困难的主要原因有以下两个方面:
第一:
我国中小企业基础设施薄弱,规模小,储蓄低,个别企业有逃税漏税事件发生,导致中小企业信贷总量减少。
第二,社会信用体系不完善,贷款渠道单一。
从理论上讲,SME的资金筹措方法应该包括所有企业的资金筹措方法,除了内部的资金筹措方法以外,外部的资金筹措方法也可以使用。
外部融资方式包括资本融资、股票资本融资、债券融资和商业期票。
融资、商业信用融资等直接融资,以及银行融资和租赁融资等间接融资。
由于中国社会信用体系不完善,中小企业除了内部融资外,还可以使用外部融资。
外部融资包括投资资本、股票融资、债券发行等直接融资、商业债务证券发行、商业信用融资、银行贷款和租赁融资等间接融资。
但是,对于中国的中小企业来说,直接融资是非常困难的。
1.1.2研究意义
进入新世纪以来,我国中小企业发展迅速,为经济发展和就业增长做出了重大贡献,与大企业相比,中小企业更容易受到冲击,在历次金融危机期间,中小企业抵御外部风险的能力较弱,因此,对我国中小企业信用评估进行研究,可以有效识别信用风险,对于避免美国次贷危机等金融危机的不利影响,具有重要的理论和现实意义,保持我国金融信贷市场正常运行,保持经济持续稳定增长。
1.2国内外研究现状
1.2.1国内研究现状
近年来,关于中小企业信用等级的研究十分活跃,主要集中在中小企业信用等级体系和指标体系的建立上。
中小企业的情况,建模所需的数据非常不足,因此,中小企业的信用评价被模型化方法主要数学分析,回归分析,职业比特分析法、多重辨别分析,主要是上市企业或大企业的信用等级被使用。
近年来,关于中小企业信用等级的研究比较活跃,主要集中在中小企业信用等级体系和指数体系的建立。
SME评级建模的主要方法有专家评级法、层次分析法、模糊数学法、Logitic回归分析法、Probit回归分析法,多元判别分析和BP神经网络。
西安交通大学研究生提出了公司贷款指标的选择,并完成了财务指标确定因素的分析。
为了考察信贷额度,内蒙古大学的牛曹林对中小企业评估体系进行了评审,建立了适应于中小企业的信用指标体系。
广西大学的研究设计了中小企业财务分析系统,涵盖中小企业的资本结构、偿付能力、盈利能力、可行性、成长性、流动性和财务整合。
1.2.2国外研究现状
约翰·穆迪于1900年在美国成立了穆迪独立服务公司。
1909年他第一次分析了各种各样的美国铁路公司和他们发行的债券的风险,记录了美国证券评级事业的诞生。
关于海外企业信用等级的研究的序章。
国外对企业信用评价的研究起步较早,已有100多年的历史,评价体系和测定模型的开发比较成熟。
作为现有评价模型的基础的统计判别法,是菲舍尔在1936年进行启蒙研究后提出的。
SME模型、VAR模型和信用风险模型主要用于计算财务活动中的企业违约概率,或者基于每个企业的已知信用等级计算财务风险。
这些模型从不同的角度提出了信用风险管理的要点。
虽然焦点、目的、适用方向和时期不同,但这些都是高度发达的管理概念,基本上涵盖了整个信用风险管理过程。
但是,这些模型在实际应用中还存在一些问题,因为这些模型主要由模型建立的数学条件和假设难以确定。
信用评估机构,即模型是离散的,假设相同信用等级的债务人的汇款是完全相同的,违反实际违约率的概率等于过去统计的平均违约率。
由于现实并非完全正确,这些模型的使用受到限制。
1.3论文的研究内容和组织结构
本论文的研究工作重点是研究关联分析算法在中医古籍数据挖掘上的应用。
本文主要由以下几个章节组成:
第一章是引论,介绍这篇论文研究的重要性和相关背景,以及与这篇论文相关的国内外研究开发现状。
最后,展示论文的整体组织结构。
第二章第二章中小企业概念及信用评级方法,主要论述了中小企业的概念、中小企业信用评级方法、指标提取和评估方法。
第三章主要论述了数据挖掘理论及中小企业信用指标的挖掘。
论述了使用CART算法对中小板上中小企业569条数据挖掘的具体实现流程,并得出了10个评价信用的重要指标。
第四章基于层次分析法对中小企业数据进行评估。
详细介绍了层次分析法的原理,并对10个指标进行权重求解,最后对某中型电气企业进行信用评估。
第五章的摘要和展望。
总结了论文的工作,并展望了将来的研究开发。
第2章中小企业概念及信用评级方法
2.1中小企业的概念
中小企业的国际分类通常基于三个标准,第一是员工人数,第二是实际资本,第三是一定期间的销售额。
中小企业的领域,有地域的,现代的,和产业的特征。
为了洗练中小企业的定义,中小企业评级系统的建立必须满足中小企业的需求,评估标准和行业评级系统也需要根据企业的特定特性进行调整。
2003年原国家经贸委,原国家计委,财政部,国家统计局等部门联合制定发布了《中小企业标准暂行规定》[1]。
如表2-1
表2-1中小企业标准
行业
中小企业标准
工业
中小企业需要满足以下条件。
员工人数不超过2000人,营业额不超过3亿元,或者总资产不超过4000万元。
其中,骨干企业必须满足员工300人以上,销售3000万元以上,总资产4000万元以上。
建筑业
中小企业必须满足以下条件。
员工人数不足3,000人或销售
不足3亿元,或者总资产不足4000万元。
其中,中型企业需要同时见面,员工超过600人,营业额超过3000万元,总资产超过4000万元。
批发和零售业
零售业的中小企业必须满足以下条件。
员工人数不超过500人,或者营业额不超过1.5亿元,其中中型企业也需要满足100人以上的员工人数,营业额在1000万以上。
批发的中小企业必须满足以下条件。
在200人以下或3亿元以下的销售额中,中坚企业必须满足100人以上,同时满足3000万元以上的员工人数。
交通和邮政业
运输行业的中小企业必须满足以下条件。
员工人数不超过3000人,或者营业额不超过3亿元,其中中型企业也需要满足500人以上的员工人数,营业额在3000万以上。
邮政行业的中小企业需要满足以下条件。
职工人数不足1000人,或者销售金额不足3亿元,其中,骨干企业需要满足400人以上的职工人数,销售金额在3000万元以上。
住宿和餐饮业
中小企业需要满足以下条件。
员工人数不超过800人,或者营业额不超过1.5亿元,其中中型企业也需要满足400人以上的员工人数,营业额在3000万元以上。
2.2中小企业信用评级方法
从指标提取和评估方法两大角度入手:
2.2.1指标提取
指标提取的方法主要分为统计分析和数据挖掘两种方法:
统计分析:
包括层次分析法、逻辑回归分析法、主成分分析法和因子分析法。
首先,层次分析法采用了灵活实用的多准则决策方法,特别适用于难以定量分析的问题,需要层次结构模型和判断矩阵,主观性强,使用方便,结果形状直观用指标权重表示。
Logistic回归分析是广义线性回归分析,从现有指标体系中剔除关联性较低的指标,建立新的指标体系,结合后续的评价得出企业信用评价结果。
与主成分分析和因子分析算法一样,Logistic回归分析模型是由数据指标本身建立的,其结果更加客观[3]。
数据挖掘:
主要有粗糙集和wrapper算法,在原始的索引系统中,具有冗余信息的冗余属性被减少,最优功能的子集被提取,后续的评估模型的训练时间被缩短。
前者通常与其他方法(主要是数据挖掘算法)组合以建立后续评估模型;后者的提取标准实际上与后续的评估模型(通常是数据挖掘算法)相关联(即,根据评估模型)来确定最优的功能子集的分类性能。
2.2.2评估方法
目前国内研究的评估方法主要有以下三种
(1)数理统计模型
判别分析和逻辑回归分析具有最广泛的统计模型,前者是基于线性判别的。
前者的应用中,Altman最具代表性。
基于多变量线性判别分析,5个指标被筛选,公司是否设定担保贷款违约预测模型,即5因子z分数模型,以此为基础确立被改善,57因子扩张因子,并确立了zeta模型。
这两个模型有广泛的影响,对逻辑回归分析有普遍的使用价值。
在这个研究中,发现预测精度比线性判别分析要高。
张佳敏(2014)使用了150家昆明高新科技微型贷款企业作为调查样本。
分为默认和非默认,构建逻辑回归模型和代理回归模型,发现前者的假阳性率比后者低[4]。
(2)专家分析法(Expertanalysis)。
20世纪50年代以前,外国的信用评价技术主要依赖于专家的经验和判断,即综合研究企业主的基本个人信息、与事业运营相关的财务信息、事业竞争力、经济环境、开发等方面的专家分析。
评估企业主的个人资质和公司资产评估等的前景及其他因素,以决定是否投资该项目。
其中,5c法(品质、能力、资本、抵押贷款,条件),5p法(个人因素,资金使用的因素,前因素、债券偿还保证因素,企业前景的因素),5w法(借入人,偿还贷款的目的、偿还期限、担保、方法),lapp法(流动性、收益性,活动,可能性)等企业的信用评价历史上重要的创意是英里,斯通作为其内核此前广为流通,但那是个人的判断,专家的资质,依赖于专家的道德修养太过分了。
之后,逐渐进行定性分析,定量信息被添加到结果中,如分析分级过程和模糊综合评价方法等,更加直观。
比如,ZhangChaoetal。
(2014)从中小企业的财务状况、信用状况、发展状况以及互联网财务状况出发,选择了12个指标,将其细分为17个二级指标。
信贷索引系统根据所获取的索引加权结果,使用Q品牌网上旗舰店2013年的营业数据,验证模型的有效性[6]。
(3)数据挖掘算法。
很多因素在不同程度上影响着中小企业的信用等级计算。
特征选择和属性相关计算等数据挖掘方法有助于确定与重要要素无关的要素。
例如,与支付偿还风险相关的因素有支付率、资金筹措期限、负债比率、偿还收入比率、信用记录等。
根据SaedSayad博士的理论,数据挖掘算法分为两个类别。
一是说明过去的数据探索,二是预测将来的建模。
中小企业的信用评价的分类算法,算法包括回归,回归算法及算法,决定树,及人工神经网络被广泛使用。
图2-1数据挖掘算法
2.3本章小节
本章主要介绍了中小企业信用评级领域的相关知识,具体算法见第三章。
分别叙述了中小企业的概念,技术流程和中小企业信用评级的概念流程。
重点介绍了指标提取和评估方法。
第3章数据挖掘理论及中小企业信用指标的挖掘
3.1数据挖掘概述
“数据中发现有用的模式”,是数据挖掘(数据挖掘),发现知识提取(知识提取)、信息(情报)发现,收集情报(信息)收集数据,考古学考古学(数据)等,经常经常被称为了。
3.数据图形处理。
数据挖掘(kdd),也被称为机器学习、统计及其他科技基于学生数据的高度自动化的实施进行分析,可以信赖的推论和新颖有效的处理完成。
或者,从数据库中提取有趣且能理解的知识。
这里面包含着事先隐藏的不明确的有用信息。
获取的知识以概念、规则、标准、规则等形式存在,以便管理者做出正确的决策[7]。
数据挖掘,机器学习,模式识别,智能数据库,统计知识的获取、数据可视化、高性能计算机、专家系统及信息管理、过程控制、科学研究等其它领域横向合并的东西。
侧面。
数据挖掘技术的应用开发在海外发展迅速,已经开发了DBMiner、Quest、EXPLORA等几种产品和原型。
在中国,这个领域的研究起步较晚。
初期的研究主要着眼于相关规则的分解。
Web数据挖掘越来越受到关注,受到研究支持。
成功开发了原型系统和数据挖掘工具,然后,继续改善。
3.2数据挖掘的具体步骤
数据挖掘的整个过程是从数据中找到所需的数据,使用合适的算法根据需求进行建模,最后根据预测和模型测试模型的稳定性。
1.数据挖掘的目的是从数据中找出有用的数据。
为了建立一个有导向的数据挖掘模型,我们首先需要理解并定义模型要估计的几个目标变量。
找到解释一组输入变量和目标变量之间关系的模型。
这在很多情况下是数据挖掘的中心,如果目标变量没有被适当地定义,并且适当的输入变量没有被确定。
2.选择合适的数据
寻找企业信用数据的第一个地方是企业的数据仓库。
问题是,在许多企业组织中,这样的数据保护系统实际上是不公开的。
在此阶段,几乎所有的sme金融机构和商业系统提供的数据是比较容易掌握,但数据的质量和整合性仍然是问题,数据挖掘需要更有效的数据之前,有必要慎重筛选。
3.识别数据
在数据建模之前,人们经常会忽略数据研究时间的重要性。
实际上,数据挖掘工程师非常依赖直觉。
使用直觉可以缩小数据集的范围。
4.建立模型集
模型集包含建模过程中使用的所有数据。
模特局的数据,根据适当的比率,例如,训练、测试套装,有必要分类验证局。
模特局制定,复数的密集型数据从源数据,并分析用数据有必要准备[8]。
3.3中小企业信用指标体系建立
3.3.1选择分类模型原则
指标的选择也需要遵循特定的规则。
这篇文章的主要选择是中小企业的财务数据指标。
财务数据指标的建立主要遵循以下相关规则。
(1)概括性。
财务指标的设计应全面反映上市公司的盈利能力、增长水平、支付能力、现金流和其他条件,并对企业的各个方面进行分析,尽可能全面地揭示企业的财务状况。
(2)重要性。
因为财务指标很多,所以不可能把所有的指标添加到模型中,相反,如果指标过多,可能会对模型的有效性和实用性产生负面影响。
选择主要的指标,反映它们的重要性。
(3)灵敏度。
被选择的指标,对公司变化的敏感度良好。
更改后会马上反映出来。
(4)科学。
公司财务索引系统的建立需要根据公司的财务状况科学地设计,索引系统可以科学地解释原因[9]。
3.3.2中小企业信用指标数据源选取
本文主要选取了wind金融库和choice金融终端,共采集了569条来自中小板的企业数据记录,每一条记录由32个字段组成,30个信用评级指标以及数据来自wind金融库还是choice金融终端,使用Matlab2018b将数据库30个企业指标保存为.mat格式
图3-1部分企业数据
3.4CART分类算法
3.4.1CART分类算法原理
CART算法是生成一颗决策树,输入X(各种特征条件)输出Y(该样本分类结果)
图3-2CART原理图
决策树算法采用从上到下的递归方式,树上分叉节点为对一个属性取值的测试,叶子节点代表结果,按照验证集的属性集确定对应的分支,在CART算法中,基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。
当一个节点中所有样本都是一个类时,基尼不纯度为零假设存在y的K的可能值,作为样本值的概率,我们可以用下式[10]来计算基尼索[10]。
公式(3-1)
在选择根节点属性时,计算每一种属性分类后的基尼指数Gini,选择Gini最小的那种属性作为该节点的分类依据。
训练时会尽可能多得生成枝子,往往对训练集分类效果很好,但在验证集分类误差大。
为防止过拟合,提高决策树的泛化性,需要修剪一些分支。
剪枝过程:
首先将样本分为训练集和验证集。
1)预剪枝
预剪枝要对划分前后,验证集精度进行估计,如精度提高则进行划分。
2)后剪枝
后剪枝先从训练集生成一棵完整决策树,再依次对每个叶枝剪除前后,验证集精度进行评估,如精度提高则剪枝。
3.4.2Matlab对中小企业数据进行分类挖掘提取指标
使用数据挖掘的实现工具选择了适合于高效自主算法开发的Matlab2018b,可以用来完成一些数据挖掘任务,例如决策树、朴素贝叶斯、逻辑回归、支持向量机(SVM)等。
使用Matlab进行科学计算的流程应该是获取数据,数据探索和建模,分析结果。
首先在Matlab2018b中导入数据文件,数据文件就会到入进matlab的工作区(当前内存中的变量),并且以列向量的形式显示,cd查看当前目录,userpath()修改目录,savepath保存修改,如图3-3
图3-3导入数据
数据探索和建模目的是评估企业中指标,除了使用分类树数据挖掘算法,尝试用图的形式呈现数据信息。
以下为部分代码,完整代码在附录。
%.创建决策树分类器
ctree=ClassificationTree.fit(P_train,T_train);
%查看决策树视图
view(ctree);
view(ctree,'mode','graph');
%%IV.仿真测试
T_sim=predict(ctree,P_test);
leafs=logspace(1,2,10);
N=numel(leafs);
err=zeros(N,1);
forn=1:
N
t=ClassificationTree.fit(P_train,T_train,'crossval','on','minleaf',leafs(n));
err(n)=kfoldLoss(t);
end
%%设置minleaf为13,产生优化决策树
OptimalTree=ClassificationTree.fit(P_train,T_train,'minleaf',13);
view(OptimalTree,'mode','graph')
%%
%计算优化后决策树的重采样误差和交叉验证误差
resubOpt=resubLoss(OptimalTree)
lossOpt=kfoldLoss(crossval(OptimalTree))
%计算优化前决策树的重采样误差和交叉验证误差
resubDefault=resubLoss(ctree)
lossDefault=kfoldLoss(crossval(ctree))
%剪枝
[~,~,~,bestlevel]=cvLoss(ctree,'subtrees','all','treesize','min')
cptree=prune(ctree,'Level',bestlevel);
view(cptree,'mode','graph')
%计算剪枝后决策树的重采样误差和交叉验证误差
resubPrune=resubLoss(cptree)
lossPrune=kfoldLoss(crossval(cptree))
运行结果:
图3-4分类树截图
图3-5部分运行截图
统计所有根节点处评价企业信用的指标,可以得到如下重要指标,如表3-1:
表3-1
重要性代号
X1
X2
X6
X11
X14
X15
X21
X22
X24
X28
指标
资产负债率C1
利息支付倍数C2
流动比率C3
现金流与流动负债率C4
应收款账周转率C5
存货周转率C6
现金流与流动负债比率C7
主营业务增长率C8
净利润增长率C9
净资产增长率C10
3.5本章小节
本章首先介绍了数据挖掘算法的具体实现流程和中小企业指标的选取,然后设计了CART算法,介绍了使用Matlab2018b对企业财务数据进行数据挖掘的过程,并得出了重要的10个信用指标。
第4章中小企业信用模型评估
4.1层次分析法概述
4.1.1层次分析法简介
AHP也被称为AHP,是20世纪70年代匹兹堡大学教授萨蒂提出的系统分析方法。
人的思考过程的模拟,是定性分析和定量分析相结合的总括性的方法。
ahp使用解决问题的想法是,问题应该实现的种类和目标分割问题,并根据复数的不同要素,解决问题,根据它们之间的相互作用问题是易于被分离,人们对客观现实的判断,根据模型的各因素的相对重要度系数分量被定量描述,使用被区分,最终形成模式。
4.1.2层次分析法的建模流程
在对社会、经济、科学管理问题的系统分析中,人们面临着相互关联、相互制约的复杂系统,在许多情况下,缺乏定量数据。
ahp,这种问题的决策和等级的新提供简洁实用的建模方法。
图4-1示出AHP建模过程。
图4-1层次分析法流程图
要构建层级结构,首先要把问题结构化、层级化,构建层级结构模型。
把复杂的问题分解成组件。
这些要素根据属性和关系形成若干等级。
前一级的要素,作为基准支配下一级的相关要素。
这些等级可以分为三个类别。
如表4-1
表4-1层次分析法分层
上层
这个水平只有一个要素。
这一般是分析问题的预定目标或理想结果,因此也称为目标水平。
中层
这个级别包括与目标达成相关的中间链路。
这也被称为基准层,因为基准层可以包括所考虑的基准和子基准。
低层
这个水平,包含为了达成目标可以选择的各种专业和决策选项,所以也被称为专业水平或计划水平。
层次结构的层数与问题的复杂性和分析所需的详细度有关,一般层数没有限制。
各等级的各要素支配的要素,通常不超过9要素。
因为支配要素过多的话,就很难判断彼此。
(2)在层次上最难确定的是各基准索引的值。
确定基准指标的比率时,对于决策者来说最大的困难是,这些指标的比率常常难以量化,很多因素会影响特定的指标。
直接考虑特定因素的影响程度的话,决策者经常会提供错误的数据。
将单位重量为1的对象分割成n个,设定为这个。
如果你不知道每个小片的重量,那么很难给你提供n个小片的总重量的正确比例,这可能会相互冲突。
因此,为了比较n个因子对特定因子Z的影响,美国的操作研究专家Saaty等采用因子的配对比较方法,建立了配对比较矩阵。
也就是说,每次取两个因子的总和,表示Z的总和的冲击大小之比,所有比较结果都用矩阵A=表示,其中A被称为ZX之间的比较确定矩阵(被称为确定矩阵)[11]。
如果对Z的影响的比率是Z,那么很容易理解对Z的影响的比率是适当的
公式(4-1)
则称之为正互反矩阵。
标度值:
表4-1判断矩阵标度值
标度
含义
1
两个因素是同等重要的。
3
前者比后者更重要。
5
前者比后者明显重要
7
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据 挖掘 中小 企业信用 评估 研究
![提示](https://static.bingdoc.com/images/bang_tan.gif)