基于SOM和引力场聚类的金融数据可视化.pdf
- 文档编号:3434766
- 上传时间:2023-05-05
- 格式:PDF
- 页数:9
- 大小:1.38MB
基于SOM和引力场聚类的金融数据可视化.pdf
《基于SOM和引力场聚类的金融数据可视化.pdf》由会员分享,可在线阅读,更多相关《基于SOM和引力场聚类的金融数据可视化.pdf(9页珍藏版)》请在冰点文库上搜索。
第24卷第4期计算机辅助设计与图形学学报V0124No42012年4月JournalofComputerAidedDesignComputerGraphicsApr2012基于SoM和引力场聚类的金融数据可视化刘芳,田凯,周志光,林海(浙江大学CAD&CG国家重点实验室杭州310058)(1iufangcad巧ueducn)摘要:
平行坐标技术是信息可视化中重要的分析手段。
可以实现多维数据在二维空间上的可视化为了给用户提供一种快捷、方便的金融数据可视化及分析工具,提出一种基于引力场聚类的金融数据可视化方法首先利用自组织映射(s()M)对初始金融数据进行分类,使每类数据都含有特定的经济意义;然后进行视觉聚类,利用引力场原理对每个类中的折线进行聚拢,对类与类之间进行排斥,再通过设置不透明度以及交互操作等手段对可视化结果进行增强实验结果表明,该方法可以形成清晰的可视化聚类结果,便于发现数据的变化规律关键词:
聚类;平行坐标;金融数据;可视化分析;引力场;自组织映射中图法分类号:
TP391VisualizatiOnOfFinanciaIDataBasedonSOMandGraVitationalFieldClusteringLiuFang,TianKai,ZhouZhiguang,andLinHai(S缸把KPyk6DmfD叫o,CAD8LOGZ巧i口刀gLhiwrs缸y,H口雄g柚D越310058)Abstr舵t:
ParallelcoordinatestechniqueisanimportantanalysistoolininformationVisualizationItprovidesanintuitivewaytovisualizethemultidimensionaldataontwo-dimensionalspaceInthispaper,anapproachoffinancialdatavisualizationbasedonthegraVitationalfieIdclusteringisproposedFirstly,self-organizingmap(SOM)isusedtoclassifytherawfinancialdata;thereforeeachclassofdatacontainsspeci“ceconomicsignificanceThenthegravitationalfieldtheoryisusedtocongregatefoldlineineachclassandmeanwhiletosettheexclusionbetweentheclassesFinaUy,thevisualizationresultsareenhancedbysettingtheopacityandinteractionTheexperimentalresultshowsthattheproposedmethodformsaclearvisualclusteringresuItanddiscoversthevariationlawofdataKeywords:
clustering;paranelcoordinate;financialdata;visualanalysis;graVitationalfield;self-organizingmap当前多维数据普遍存在,特别是在经济领域中,烦琐的多维金融数据给用户的分析和理解带来了极大的困难随着金融数据的容量不断增大、复杂度不断提高,传统的可视化技术很难满足用户的需求,快捷、方便的多维信息数据可视化分析已经成为金融领域的研究热点20世纪90年代初,由Inselberg等口1提出的平行坐标技术是一种表示多维数据及对其相互关系进行分析的重要可视化技术该技术将靠维数据属性空间通过挖条等距离的平行轴映射到二维平面上,每条轴线代表一个属性维,轴线上的取值范围从对应属性的最小值到最大值均匀分布,则每一个数据项都可以根据其属性值用一条折线段在行条平行轴上表示出来,相似的对象就具有相似的折线走向收稿日期:
2011一0724;修回日期:
201110一12基金项目:
国家自然科学基金(6087312260903133)刘芳(1976一)女。
博士研究生,主要研究方向为科学计算可视化、信息可视化;田凯(1987一)。
男硕士研究生主要研究方向为科学计算可视化、信息可视化;周志光(1983一)男博士研究生主要研究方向为科学计算可视化、信息可视化、计算机图形学l林海(1965一)。
男,博士。
研究员,博士生导师。
主要研究方向为科学计算可视化,信息可视化、计算机图形学、虚拟现实等万方数据436计算机辅助设计与图形学学报第24卷趋势利用平行坐标技术可以在二维空间有效地表达多维信息数据,并且能够对初始数据的相似性进行分析然而,随着金融数据规模的不断扩大,折线重叠交错,大大妨碍了用户对数据的交互操作以及进一步的分析与认知为了有效地提高平行坐标的认知规律,减少视觉杂乱,聚类被广泛地应用于各个领域,其中大多数的聚类方法都是单一的基于数据的或基于视觉空间上的聚类基于数据的聚类是在绘制之前对数据进行预处理分类,但是由于数据集的范围很大,聚类后在平行坐标中绘制的结果可能还是很杂乱,很难识别出每个分类的数据特点和趋势基于视觉空间上的聚类方法是在平行坐标中通过分析线段间的几何关系来变换和分类的,这样就会导致聚类结果常常没有考虑到数据本身的实际意义,影响了聚类的准确性由于金融数据中数据本身所含有的特定经济含义,所以单一的基于数据的聚类方法可以有效地对数据进行分类,进而有效地辅助领域专家对初始数据的观察与分析然而,由于金融数据的规模很大,聚类后的平行坐标绘制结果依然杂乱且难以辨别,为进一步识别每个分类的特点和趋势带来了很大的挑战同时,由于单一的基于视觉空间的聚类方法单纯依赖平行坐标可视化后的结果,通过分析线段间的几何关系进行聚类,并没有集成数据本身所代表的含义,在一定程度上降低了分类的准确性,且影响平行坐标技术在金融领域的应用和推广根据上述分析,本文提出一种新的基于引力场聚类的金融数据可视化分析方法首先利用无监督的自组织映射(sel卜organizingmap,SOM)对初始金融数据进行预分类;然后在平行坐标可视化过程中引入引力场的物理模型,对平行坐标可视化的结果进行一次视觉聚类同类线段表现的是吸引力,而不同类之间的线段表现的是排斥力,利用曲线改变线段的形状可以减少视觉混淆根据金融数据分析的特殊性,用户可以调节吸引力的尺度因子,亦可以对不同属性轴设置权重值,进而获得自己感兴趣的平行坐标可视化结果;为进一步增强可视化效果,采用传输函数以及交互的可视化技术可以更好地分析初始金融数据,给予投资者一定的参考信息我们采用“2008年中国951家工业上市公司的年报信息”这一真实的金融数据案例作为研究对象来验证本文算法的有效性实验结果表明,基于引力场聚类的平行坐标技术可以快捷地对公司的财务状况进行显示与分析,进而有效地对公司进行分类和排序用户可以方便地选择出财务状况优秀和有投资价值的公司,做出投资决策1相关研究在信息可视化领域,关于多维数据的表示、分析和可视分析一直是研究热点问题,各种各样的可视化技术被应用到多维数据的显示与分析中平行坐标作为该领域中的重要可视化技术,已经广泛应用于多维数据的可视化与分析传统的平行坐标技术根据线段的显示分布对多维数据进行分析,有效地拓展了多维数据可视化的应用1然而,经典的平行坐标技术依然存在许多不足,比如针对复杂多维数据的可视化,线段的分布混淆、杂乱,难以辅助用户对初始数据做进一步的分析因此,近年来众多学者从聚类、减少杂乱和交互等方面对平行坐标进行了改进,使用户能够快速、准确地在平行坐标中发现数据的规律及发展趋势分层平行坐标采用分层显示的方法21对数据集进行多种层次的显示,克服平行坐标中数据显示杂乱的问题分层显示中利用分层聚类算法构造分层聚簇树,分层聚簇树可以从不同抽象层次上构造和表达大型数据集Novotny3提出了用多边形区域来表示每个类,先对原始数据用愚一means算法进行分类,然后用不透明度和纹理区分不同的类Zhou等41提出一种新的技术平行坐标的视觉聚类方法,通过最小化曲率和最大化相邻边缘的平行来优化曲线边缘,以便加强聚类的效果,并进一步通过叠加半透明线段来增强重要的信息5Guo等6提出了一种交互的聚类方法,用户用鼠标点击平行坐标中感兴趣的区域,使周围某个范围内的直线受到影响,以这个点为中心向其聚拢形成一类;该方法不同于其他应用于全局数据的聚类方法,而是关注于某个区域,并在该区域内进行直接的交互操作,达到聚类的效果并减少杂乱问题坐标轴重排技术7基于属性的相似性来重新排列坐标轴的顺序,减少了视觉上的杂乱除了坐标轴重排技术,Yang等建议在平行坐标中通过改变坐标轴间的距离和过滤掉坐标轴(过滤坐标轴是指当维度过多时减少一些维度,只将用户关心的属性显示出来)来减小平行坐标图的复杂度,减少杂乱以便更好地揭示多维数据集Miller等【9和Wegman等1叩在平行坐标中引入了线段密度的概念,利用密万方数据第4期刘芳,等:
基于s0M和引力场聚类的金融数据可视化度值来绘制原始数据,能更好地认识和识别数据规律Andrienko等m3通过计算数据的频率或密度信息,并根据这些结果在平行坐标中筛选用户关注的信息,从而减少视觉杂乱,强调属性问的重要关系Yuan等”3在平行坐标中集成了散点图,为了避免折线和散点在内容上的跳跃,把折线变成曲线并经过散点为了进一步方便用户对数据进行操作,人们引入了交互技术其中刷是一种突显数据子集的可视化交互技术在相邻的平行坐标轴的折线中根据特定的趋势或属性选择或设置一个焦点,突显一部分折线而使其他折线不明显,可使用户更清晰地了解局部数据的变化规律,以及更直观地观察感兴趣的数据wong等啪设计了小波刷,通过在ward【“1的多维数据刷中引人多分辨率的多层次逼近来浏览大量的多维变量数据集,并在多分辨率刷中应用了小波近似,所以命名为小渡刷Hauser等“51提出了基于角度的刷技术,其根据两相邻坐标轴间线段的斜率范围来确定需要刷的数据,斜率在2条线段夹角范围内的数据被刷出来虽然平行坐标技术在一定程度上克服了初始数据可视化结果的混淆及杂乱,但是由于交互聚类等技术有很大的不确定性,尤其是针对多维金融数据的可视化分析很可能在数据分析阶段产生较大误差,不利于后续分析和处理针对金融数据的可视化,本文利用SOM对初始金融数据进行预处理,并利用平行坐标进行可视化分析在充分利用金融领域先验知识的基础上,本文方法将为用户提供更加准确、方便、快捷的金融数据分析工具及可视化平台2基于引力场的金融数据可视化算法本文以数据为中心,采用sOM对数据进行预处理,然后对分类数据利用平行坐标技术进行可视化,再通过引力场实现视觉聚类为进一步增强可视化效果,采用传输函数设置不透明度以及交互的可视化技术,以更好地分析初始金融数据,给予投资者更有价值的参考信息本文算法的总体流程如图1所示图1本文算法总体流程21金融数据预分类SOM是由Kohonen1”提出的对神经网络的数值模拟方法,该方法是人工神经网络的重要分支之一sOM是对生物神经系统进化过程的计算机模拟,能够根据样本出现在输入空间的概率密度,白组织地形成与这个概率分布密度相对应的神经元空间分布密度关系,是一种自组织和自学习的网络sOM描述了从一个高维输入空间映射到低维空间映射“”soM的基本结构分成输入和输出(竞争)2层输入层神经元与输出层神经元为全互连方式,且输出层中的神经元按二维形式排列,它们中的每个神经元代表了一种输入样本所有输人节点到所有输出节点之间都有权值连接,而且在二维平面上的输出节点相互间也可能是局部连接的输入层的加权和对改变节点竞争结果起决定作用所以在判断竞争网络节点胜负的结果时可忽略竞争层节点之间的权值连接sOM的自组织学习的特点和聚类功能在财务万方数据计算机辅助设计与图形学学报第24卷模式识别上具有保持分类标准客观性的作用同时,sOM将模式上相近的样本归为一类,它实际上是一种特征提取功能,能够将上市公司财务的结构性特征提取出来sOM在金融数据分析中广泛使用“Eklund等“”利用sOM,以77家上市公司的财务业绩为例进行了分析,研究结果证明sOM能有效地对大量的金融数据进行分类本文采用SOM对初始金融数据做预分类,可以更准确地进行平行坐标的可视化分析相关参数及结果分析见第3节22平行坐标可视化对经sOM预处理的金融数据,根据其不同属性采用平行坐标技术进行可视化由于金融数据存在相似性,线段分布呈现集中、交错、重叠等特点,本文引入引力场原理对线段进行类内聚类和类间聚类,将混淆的、具有不同特征的数据分离出来,以辅助用户做进一步的金融分析221类内聚类方法如第1节所述,很多方法用于减少可视化的杂乱如滤波、聚类和维度重排等在Guo等提出的交互式聚类方法的基础上,本文直接考虑每个类内线段之间的吸引力和类问的排斥力,提出了引力场模型假设平行坐标中的每条线段受到2个力的作用,即同类线段的凝聚力和类间线段的排斥力,同类中的线段所表示的数据集是属于同一类的数据,因此设置一个特征点吸引同类中的线段,如图2所示:
i(H)(J口ymJ;k雨图2类内聚力图2中,类的特征点的坐标是(z。
,y。
),z,由相邻的2个属性轴的均值和用户所设定的属性轴的权重值来确定;(z,孰)是线段的中点;插值点的坐标是(z口,y),z一丑一z。
,y十定义为,4一F。
弘+(1一FIt,),其中F|。
是类内引力强度因子,范围在o,1之间F-。
值越大,引力强度越小;F。
值越小,引力强度越大采用Fn=e卜4k讪,出cos口G,d一,。
一yfl计算F。
其中。
d“lht是类的整个高度,d表示线段与类中点的距离;a是类的中心线与该线段的夹角,cosn表示角差,范围在o,1,就是线段和中心线之间角度的相似性,其对于每一条线段都是唯一值;e是尺度因子,在0,1之间,可以通过改变它的值来调节引力的强度通过上述引力作用使同类线段聚拢使在一定程度上实现了不同类别数据的分离但由于类间线段交错、重叠分布,仍然使得平行坐标的可视化结果混淆、难以分辨222类间聚类方法本文将不同类线段间的作用力设置为排斥力由于线段在类内已经向中心聚拢。
将每个类所有的线段作为一个整体分析并计算类间的排斥力类所受到的排斥力如图3所示“二盔二一一一一;缕第炭t,心线由a孚el叫排J十月排斥力模型,f=啦。
蚤J?
赢专扛其中,表示第i类所受到其他类的排斥力的和,m表示第类的线段个数,啦是第f类的线段个数,L表示第类的类中心线长度;k表示第f类的中点到第类的中心线的垂直距离,Il,白一yhJcos口,卢为2类中心点连线与中点到中心线垂线的夹角是个矢量,用于计算垂直方向的力,表示为f。
=|。
3¥其中,7为与垂直方向的夹角,I值为正表示向上的力,为负表示受到向下的力,绝对值越大表示受到的力越大,移动的距离就越大,相反受到的排斥力越小,移动的距离就越大万方数据第4期刘芳,等:
基于soM和引力场聚类的金融数据可枧化最后,线段经过类内的聚力和类之间的排斥力作用得到了新的插值点,采用自然三次样条连接线段的2个端点和插值点形成曲线23可视化效果增强为了更好地提高可视化的效果,本文根据线段的密度来设置不透明度线段的密度由线段的2个端点所在的属性轴的密度决定,因此可以通过线段的密度值,利用传输函数映射成线段的不透明度这样可以减少线段的密度,并且区别不同的类使各个类更有层次,以便用户可以快速、准确地找到自己感兴趣的区域,进行进一步的分析当用户对某个具体的类感兴趣时,可以选中该类,该类就突出显示,而其他的类就减小不透明度这样的交互方法使用户能够更好地对数据进行分析,进而发现隐藏的数据规律3实验及结果分析为了验证本文算法的有效性,我们将基于引力场的平行坐标可视化算法应用到金融数据可视化分析中本文所选取的数据来自于国泰安csMar数据库中2008年951家工业上市公司的年报信息,我们选取了流动比率、资产负债率、应收账款周转率、总资产周转率、净资产收益率、总资产报酬率、净利润增长率和总资产增长率091这8项指标,可以比较全a原始数据川矿删一面准确地反映企业的财务状况,体现企业的偿债能力、运营能力、盈利能力和成长能力本文实验环境为Intelcore(TM)i5cPu,4GB内存的Pc机数据为951支股票,每支股票为8个属性,算法计算时间为19885s31实验结果对比分析首先对这些数据进行预处理,利用sOM对公司进行分类将归一化处理后的数据输入网络进行训练,经过计算调整,最终取分类数为6用户可以根据投资侧重方向不同对各个指标设置权重值根据国有资本金效绩评价规则及财务比率综合分析法州设置权重值如下:
流动比率10,资产负债率12,应收账款周转率9,总资产周转率9,净资产收益率12,总资产报酬率30,净利润增长率9和总资产增长率9;然后用平行坐标显示预处理后的数据,如图4所示图4a所示为未进行处理的原始数据,可以看到这些数据杂乱无章,很难理解,用户根本不可能选出财务状况好的公司,做出投资决策图4b所示为对数据用sOM聚类后的结果,虽然这些数据分成了6类,但仍是错综复杂的,且各类数据交叉绘制出来虽有个大概的轮廓,但还是很难辨别需要进一步的处理。
使用户能更清晰地看到数据的内在联系以及可以快速地找到自己所感兴趣的数据图4c所示为斟4台融数据的蜘b聚类着的数据触油tHd设置不透明度后c,=O05V万方数据计算机辅助设计与图形学学报第24卷采用本文算法的效果,能够很清楚地看到6个类的范围图4d是在图4c的基础上加传输函数,设置了不透明度,以便减少线段的密度和区别不同的类别,用户可以快速、准确地找到自己感兴趣的区域,进行进一步的分析对图4d做进一步的分析可以看到,粉红色和深绿色这2类公司的曲线基本位于上部,表示这2类公司的财务状况比较好用户可以选择这2类公司,再对其中的公司进入深入的分析,做出投资决策32可视化效果增强结果为了更好地提高可视化的效果,可以通过调节参数使类间线段聚拢,减少类与类之间的重叠算法中尺度因子在o,1之间取值。
可以调节引力强度,如图5所示从图5可以看出,图5a的效果最好,类间线段聚拢的比较好;而在图5b,5c中线段比较分散,类与类间重叠,很难发现其中的趋势33实验结果验证为了进一步验证本文算法的有效性,我们从经济学角度对数据进行金融分析以各个指标总体的平均值作为标准对各类公司的指标进行打分优秀值表示行业的最高水平,打100分;良好值表示行业的次高水平,打80分;中等值表示行业的中等偏上水平,打60分;平均值表示行业的总体平均水平,打40分;较低值表示行业的较低水平,打20分;较差值表示行业的最差水平,打。
分(资产负债率为反向指标,打分则恰恰相反)综合评价结果如表1所示裹l综台评价结果从表1中可以看出,粉红色和深绿色是比较好的,各个方面都比较均匀,和从图4d中分析的结果是一致的再以盈利能力为例,盈利能力由净资产收益率和总资产报酬率判断,所以在图4d中观察这2个属性轴间的曲线看到,深绿色所表示的公司盈利能力最好,依次为粉红色、深蓝色、浅绿色和桔红色,最差的为浅蓝色这个结论和表1所得结果一致34交互操作不同的投资者有不同的投资策略,进而选择投资不同的公司例如成长能力由净利润增长率和总资产增长率2个相关属性决定,如果投资者认为公司的总资产增长率比较重要,可以把该指标的权重值调高,使得总资产增长率的因素比重加大,在评价公司在成长能力高低方面起主导作用设定总资产增长率为60和净利润增长率为5,如图6所示,可以看出桔红色的在最上面,表明这类公司的成长能力最好对这些公司深人分析,选择经营业绩上乘的公司,并结合理性分析和偏好等自身情况做出最佳投资决策用上面提到的金融分析方法可得到和图中一致的结论,证明本文方法有一定的效果。
更能直观地看到简化了分析的过程万方数据第4期剂芳,等t基于soM和引力场聚类的金融数据可视化4414结论、7蔓!
f,。
凰6用户自定义权重值本文方法降低了可视化的混乱度,提高了可视化聚类的效果首先根据金融数据的实际经济含义用soM对数据进行预处理,然后利用引力场中的吸引力和排斥力原理进行视觉聚类,从而形成清晰的可视化的聚类结果,以便于发现数据的变化趋势;而且采用传输函数设置了不透明度,使可视化的聚类效果更清晰对于金融数据有很多可视化方法,本文提出用平行坐标显示,使用户能同时看到大量公司的信息快速地找到财务状况比较好的公司进行深入的分析,减少了用户的工作量另一方面,对于聚类,大多数的方法都是单一的基于数据或基于几何空间的方法,结果存在一定的不足本文方法既考虑到了数据的内在含义,又考虑到了视觉角度最后本文算法中引入了物理的引力场的概念,用吸引力和排斥力来进行可视化聚类,使各类之间能够清晰可见在交互方面,考虑到投资的侧重点不同,用户可以设置指标的权重值,选出感兴趣的区域在未来工作中,我们计划进一步对数据进行可视化分析,找出更多的数据隐藏的规律如果选取更大的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 SOM 引力场 金融 数据 可视化