基于支持向量机的股市组合预测模型研究资料下载.pdf
- 文档编号:5976231
- 上传时间:2023-05-05
- 格式:PDF
- 页数:5
- 大小:331KB
基于支持向量机的股市组合预测模型研究资料下载.pdf
《基于支持向量机的股市组合预测模型研究资料下载.pdf》由会员分享,可在线阅读,更多相关《基于支持向量机的股市组合预测模型研究资料下载.pdf(5页珍藏版)》请在冰点文库上搜索。
为此,首先我们用逐步回归模型、偏最小二乘回归模型、均生函数回归、多层递阶权重分别赋权生成最终的预测输出。
1.逐步回归分析方法。
逐步回归是多元线性回归模型中选择回归变量的一种常用数学方法。
其基本思想是将回归变量逐个选入,选入的条件是其偏回归平方和显著;
每选一个新的变量后,对已选入的各变量逐个进行显著性检验,并剔除不显著变量。
如此反复选入、检验和剔除,直至无法剔除且无法选入变量为止。
逐步回归分前向逐步回归和后向逐步回归两种。
前向逐步回归分析开始时没有任何模型变量,每一步选入待选项中一个显著性最高的项(具有最大的F统计量值或最小的p-值),直至没有待选项为止。
后向逐步回归则首先将模型中的所有项纳入,然后剔除最不显著的变量,直基于支持向量机的股市组合预测模型研究李蓬宁(广西柳州师范高等专科学校财务基建处,广西柳州545004)摘要:
首先利用线性回归模型提取股市系统的线性特征,其次神经网络提取股市系统的非线性特征,共同生成预测个体;
最后利用支持向量机回归组合,时变权重分别赋权生成最终结论。
建立基于支持向量机的股市组合预测模型,并对上证指数的日开盘价,收盘价实例分析,结果表明该方法取得较好的效果。
关键词:
线性回归;
神经网络;
支持向量机;
预测中图分类号:
F830.91文献标志码:
A文章编号:
1673-291X(2009)22-0038-05收稿日期:
2009-04-08基金项目:
广西教育厅面上项目(200807MS098)作者简介:
李蓬宁(1973-),女,广西来宾人,会计师,学士,从事金融工程、智能计算在经济中应用研究。
38至剩余的变量均显著为止。
本文采用前向逐步回归方法作为组合预测的一种子方法。
2.偏最小二乘回归方法。
偏最小二乘回归方法是一种新型的多元统计数据分析方法,它能对系统进行有效降维和特征提取。
该方法已经被广泛应用在工程技术领域,它与主成分分析回归建模方法的基本思路相同,主要区别在信息综合与筛选过程中,它不但考虑自变量的降维与信息综合,而且要考虑新的信息对因变量具有最佳的解释能力。
可以说偏最小二乘回归方法集多元线性回归分析、典型相关分析和主成分分析的基本功能为一体,将数据分析方法和对模型认识分析方法有机结合10,设自变量矩阵为:
X0=(xij,i=1,2,n,j=1,2,m),因变量矩阵为:
Y0=(yi1,i=1,2,n),具体计算步骤如下:
1)标准化自变量矩阵和因变量矩阵,得到标准化数据X*0,Y*0。
2)计算主轴:
i=X*i-1Y*i-1X*i-1Y*i-1i=1,2,T
(1)相应地得到第i个综合变量Fi=X*i-1i,Fi和X*i-1进行普通最小二乘回归估计,回归系数Pi=(X*i-1ti)ti2,并计算残差矩阵X*i=X*i-1-FiPi。
3)检验交叉有效性,若Q2i0.0975,继续计算,否则停止。
4)提取T个成分F1,F2,FT建立X*0和Y*0在其上的回归方程。
由于F1,F2,FT均是X*0的线性组合,故最终可以改写成Y0关于X0的回归方程。
3.均生函数回归方法。
自从魏凤英等20世纪90年代提出均生函数预测模型8以来,在许多科学研究领域中得到了广泛的应用7。
均生函数模型是由时间序列按不同的时间间隔计算均值,生成一组周期函数,然后用原时间序列与这组函数建立回归预测方程。
该模型是基于系统状态前后记忆的基本思想,构造一组周期函数及其延拓序列(包括原序列、一阶差分、二阶差分序列的均生函数延拓序列),通过分析原序列与这组周期函数间的统计关系,建立相应的统计预测模型,其主要的数学原理可归纳为:
设某一时间序列为:
xt=x1,x2,xn,对该时间序列作一阶差分运算xt=xt+1-xt,t=1,2,n-1由此得到一阶差分序列:
x
(1)t=x1,x2,xn-1,同样再对该时间序列作二阶差分运算:
2xt=xt+1-xt,t=1,2,n-2,由此得到二阶差分序列:
x
(2)(t)=2x
(1),2x
(2),2x(n-2),进一步采用以下公式:
xl(i)=1NlNl-1j=0x(i+jl)
(2)对上述原序列、一阶差分和二阶差分序列作均生函数计算,式中i=1,2,l,1lm,Nl=INT(n/l)。
然后利用fl(t)=xlt-l*INT(t-1l)(3)对原序列和各阶差分序列的均生函数作周期性延拓计算,在式(3)中t=1,2,n,l=1,2,m。
这样就可以使各均生函数的定义域扩展到整个需要的同一时间轴上。
在此基础上,就可以建立原序列x(t)与fl(t)均生函数序列之间的回归方程。
x(t)=a0+qi=1aifl(t),qm(4)由式(4)利用均生函数外延值即可对原序列作多步预测。
4.多层递阶回归方法。
动态系统预测的多层递阶方法自从20世纪80年代初发表以来,已引起了国内外专家学者的很大兴趣,并在实际中应用,而最近张晓东11,针对以往多层递阶预报方法存在的问题提出了一种改进模型,该模型的预报输出为:
y(k)=mi=1aia*i(k)xi(k)+(k)(5)式中ai为回归系数,a*i(k)为时变参数,(k)是随机噪声,m为预报因子个数。
将这种多层递阶回归分析方法的计算步骤归结为:
1)按照回归分析方法的计算步骤,分别求得各因子的回归系数a0,a1,am。
2)将回归系数ai与某对应的预报因子x(k)相乘,并看成一个新的因子x*i(k),即x*i(k)=aixi(k)(6)3)将预报对象y(k)减去回归方程的常数项a0得到新的预报对象y*(k),即y*(k)=y(k)-a0(7)将式(16)、(17)代入式(15),可得y*(k)=mi=1a*i(k)x*i(k)+(k)(8)4)应用多层递阶方法的计算步骤对式(17)求解,其时变参数递推公式为:
a赞*i(k)=a赞*i(k-1)+x*i(k)y*(k)-mi=1x*i(k)a赞*i(k-1)mi=1x*i(k)2(9)5)对计算得到的时变参数估值序列a赞*i(k)进行分析,根据不同的变化特点,通过适当的方法,如均值近似法、定常量法、分段周期变量法、多层AR模型递阶法等方法建立时变参数模型,则可得到各时变参数预报值a赞*i(k)。
5.神经网络方法。
神经网络作为一种人工智能技术,具有分布并行处理、非线性映射、自适应学习和鲁棒性和容错性等特点,使得它在模式识别、控制优化、智能信息处理以及故障诊断等方面都有广泛的应用。
神经网络的特点是在对一些复杂的系统我们不知道其内部机理时,只要有输入与输出向量的历史观测数据,它能够通过学习仿真其内在的相互关系,从中寻找观测数据的规律12。
一般的三层前向神经网络包含输入层、隐层、输出层,通过训练算法可以实现复杂的非线性影射。
网络的输入与输出之间的关系如下:
y赞k(t)=pj=1vjkfmi=1wijxi(t)+j+rk(10)其中f(x)=1/1+e-x,k=1,2,n,t=1,2,Nl,xi为网络39的输入,y赞k为网络的输出,wij为输入层i节点到输出层j节点的权值,vjk为隐层j节点到输出k层节点的权值,j为隐层j节点处的阀值,rk输出k节点处的阀值,f为激活函数。
设定网络总的误差小于1,则有:
E1=12Nlt=1nk=1yk(t)-y赞k(t)21(11)一般采用梯度规则,由E对求导数,以E减小的负梯度方向作为权值调整方向,来求解网络参数,目前的神经算法很多,本文训练算法分别采用Matlab神经网络工具箱13中的Powell-Beale共轭梯度反向传播算法(traincgb)、自适应学习速率梯度下降反向传播算法(traingda)、Levenberg-Marquardt反向传播算法(trainlm),弹性反向传播算法(trainrp)、由初始训练集各自训练,这样可以得到四个神经网络组合预测个体。
6.支持向量机回归。
支持向量机是Cortes和Vapnik在1995年提出的14,是近年来机器学习研究的一项重大成果,它是在Vapnik等人提出的小样本统计学习理论基础发展而来,其算法是基于结构风险最小化准则15,与传统的神经网络相比,支持向量机不仅结构简单而且各种技术性能明显优于神经网络,这已被大量的实验证实1617,尤其他在处理非线性问题时,通过非线性核函数,将输入向量映射到高维线性特征空间,在这个空间构造样本最优超平面,以此将非线性问题就转化为高维空间中的线性问题,然后用一个核函数来代替高维空间中内积计算,从而巧妙地解决了复杂计算问题,并且能有效地克服维数灾和有效提高泛化能力。
对于给定的数据集合xi,yi,i=1,2,N,确定回归函数f(x)=(覫(x)+b,采用-不敏感损失函数,并引入上下松弛变量i和*i以描述带外样本数据的拟合损失,其可以转化成求关于变量、b、i和*i的最优化问题。
min122+CNi=1(i+*i)s.t.yi-(覫(x)+b+i(覫(x)+b-yi+*ii,*i0,i=1,2,N(14)式中C为惩罚系数,用于控制对带外样本数据的惩罚程度,并实现函数f(x)的复杂度和拟合精度之间的平衡,上述优化问题二次优化问题,引入数乘因子可得如下对偶表达显示:
max-12Ni=1Nj=1(ai+a*i)(aj+a*j)K(xixj)+Ni=1yi(ai+a*i)-Ni=1(ai+a*i)s.t.Ni=1(ai+a*i)=0ai,a*i0,C,i,j=1,2,L,N(15)其中K(xi,xj)=覫i覫j为核函数,一般取为K(xi,xj)=exp(-xi-xj2/22)它是满足条件的任何对称的核函数对应于特征空间的点积,于是可以得到回归函数的表达式为:
f(x)=Ni=1(ai+a*i)K(xix)+b(16)7.基于支持向量机组合股市预测模型的建立。
股票市场一个复杂系统,而且受政治、经济、社会的众多因素影响,加之人们对其内部的运行机制缺乏深刻的认识,无法有效确定哪些变量对系统有较大影响。
目前股市上的技术指标经常被作为神经网络的输入变量来预测股市,而且取得一定的效果。
本文所建立的模型是依据文献18选取六个变量作为神经网络的输入变量:
x1-10日乖离率(BIAS(10);
x2-5日移动平均线相对30日移动平均线的乖离率;
x3-14日相对强弱指标;
x4-26日人气指标;
x5-随机指数值;
x6-6日OBV能量潮。
神经网络的输出变量:
Y=(y1,y2),y1上证指数开盘价,y2上证指数收盘价,在训练时对于输入变量取值范围不在0,1的按下式归一化到0,1。
xi=xi-min(xi)max(xi)-min(xi)(17)本文选取2007年1月4日至2008年7月10日共400个交易日上海证券交易所的六个技术指标的数据资料作为自变量,上证综合指数开盘价、收盘价数据作为因变量输出来建立预测模型,对后40个交易日的数据预测(2008年7月11日至9月4日),用于检验模型的效果。
统计模型都是在回归模型和回归系数非常显著时建立,每一个神经网络结构均采用形式,即网络的输入层和隐层节点个数一样多,输入层的节点由输入变量确定,输出的是股市的开盘价和收盘价两个变量。
网络的训练次数1000,学习因子0.9,动量因子0.7,总体误差0.001。
以上的支持向量机组合股市预测模型可以归纳为:
(1)利用逐步回归模型、偏最小二乘回归模型、均生函数回归、多层递阶归模型分别建立四种子预测模型;
(2)利用不同的神经网络算法建立四种子预测模型;
(3)利用支持向量机回归组合,生成最终预测输出,运算流程如图1所示。
股市自变量、因变量提取线性特征提取非线性特征生成组合个体支持向量机回归组合Trainrp算法Trainlm算法Traingda算法Traincgb算法多层递阶回归均生函数回归偏最小二乘回归逐步回归图1运算流程二、实例分析为考察模型的效果,我们用六个技术指标作为自变量,通过线性回归方法和不同神经网络训练算法共产生八个组40合个体,对其简单加权平均,建立线性组合模型(LineRegressionCombinationModel,记为:
LR-CM);
用支持向量机回归建立非线性建立组合模型(SupportVecortRegressionNonlinearCombinationModel,记为:
SVR-CM),分别对400个样本拟合和后续40个样本预测,比较结果用来检验预测模型的效果。
设yn和y赞n分别表示实际值和组合预测输出,n为样本个数,根据数理统计的基本原理,我们采用四个指标来检验模型的拟合和预测效果。
引入以下四种统计指标:
1)平均相对百分比误差MAPE=1nnt=1yt-y赞tyt100(18)2)均方根误差RMSE=1nnt=1(yt-y赞t)2姨(19)(3)趋势准确率F=1nni=1Ii100%(20)其中Ii=1yi+1-yiy赞i+1-y赞i00yi+1-yiy赞i+1-y赞i姨姨姨姨姨姨姨姨姨姨姨姨姨姨姨0i=1,2,n4)非线性回归复相关系数R2=1-ni=1(yi-y赞i)2ni=1(yi-y)2(21)式(21)是用来反映股市在下一个交易日和当前交易日变化情况,如果下一个交易日股市相对当前上涨,预测也是上涨,则记为趋势预测准确,若下一个交易日股市相对当前下跌,预测也下跌,也记为趋势预测准确,反之则极为趋势预测错误,该式可以用来衡量股市趋势预测准确率。
下表是两种模型对开盘价的400个交易日上证指数样本拟合和对40个交易日预测的各种误差统计值,图2是两种模型对开盘价400个训练样本拟合效果,图3是两种模型对开盘价40个样本预测效果,从下表的两个模型的拟合和预测数据,以及图2、3可以看出SVR-CM模型、无论是拟合还是预测效果均要优于LR-CM模型。
两种模型对开盘价的拟合和预测统计结果模型MAPERMSEFPRLR-CM模型拟合10.52633.31520.8318预测44.15196.46450.7024SVR-CM模型拟合2.6389.15750.9966预测12.3755.45620.9705从上表的结果可以看出,SVR-CM模型对训练样本和检测样本的各种统计指标均小于LR-CM模型,显示出SVR-CM模型具有很好的学习能力和预测能力,而且预测精度也要高于LR-CM模型。
股市的预测要在数值精度很高相当难,但是如果能对上涨或者下跌趋势预测,在一定程度上相当有益,及实际股市明日上涨,预测为上涨;
实际股市明日下跌,预测下跌,对于投资相当有益,而本文式(20)可刻画股市下一个交易日相对当前的趋势,从上表可以看出,SVR-CM模型在拟合时,400个交易日的数据,有300次趋势正确,准确率为75%,在预测40个交易日时,25次趋势正确,准确率为62%,对未来具有很好的跟踪能力。
而LR-CM模型在拟合时的趋势准确率为52%,预测的准确率为45%,相对来说只能预测基本趋势,从图2和图3也可以看出。
图2LR-CM和SVR-CM模型对开盘价的拟合效果图图3LR-CM和SVR-CM模型对开盘价预测效果LR-CM模型是40个组合个体简单平均,实质是一个不变权重方法的组合,而没有对其个体进行有效建模,误差精度自然无法保证,四种统计方法提取股市系统线性有效成分,四种神经网络提取股市系统非线性有效成分,再次把它们用非线性方法支持向量机回归方法有效组合,实质是时变权重赋权的组合,从图2和图3可以看出,它具有很好地学习股市开盘价规律的能力,对检测样本也具有很强的跟踪能力,显示出很好的预测能力,其拟合和预测精度高于LR-CM模型,由于它把线性统计方法和非线性神经网络的优良性质,利用支持向量机技术集为一体,使得它的误差精度极大提高。
为进一步说明模型的稳定性,比较二者的优劣,利用本文提出的方法对收盘价的400个样本拟合和对40个样本预测的各种统计指标,结果表明同样表明SVR-CM模型在趋势预测,精度预测方面明显优其他模型,这说明SVR-CM模型具有较好的学习能力和预测能力。
41参考文献:
1刘涛.解读金价M.上海:
上海财经大学出版社,2004.2范为,宋鸿兵,房四海.金融危机与黄金定价模型R.北京:
宏源证券研究所,2009.3黄继汇,高健,董凤斌.美联储购入国债应对金融危机N.中国证券报,2009-03-24.责任编辑吴高君(上接32页)很有可能继续快速增长,并且不排除美国政府支出突破3.55万亿美元年度预算框架的可能性。
为政府债务特别是财政赤字提供融资,不仅将牺牲美联储货币政策的独立性,而且债券货币化等同于该机构直接开动印钞机,大量增加货币供给,黄金价格的走势就相当明了。
结束语综合黄金的商品属性和货币属性分析,金融危机爆发以来黄金价格上涨主要依赖于避险资金的推动。
在未来预期全球经济出现拐点的时段,黄金将面临这些避险资金的获利回吐压力,价格必然会面临短期的剧烈振荡(例如,2009年4月2日,G20伦敦金融峰会落下帷幕,投资者对世界经济的预期开始乐观起来,金价出现回调)。
但由于全球救市释放的大量流动性在经济好转时同样会促使黄金的货币属性还原,最终将导致黄金价格继续上涨。
参考文献:
1臧玉卫,张慎峰,吴育华.中国股票市场的非线性分析J.天津大学学报:
社会科学版,2005,(6).2杨一文,刘忠贵.基于神经网络、多分辨分析和动力学重建理论的股市趋势预测J.系统工程理论与实践,2001,(8):
19-23.3Guoqiang,P.Z.Aninvestigationofneuralnetworkforlineartime-seriesforecastingJ.Computers&
Operationsresearch,2001,(28):
1183-1202.4李民,等.用ARIMA模型预测深沪股市J.长沙铁道学院学报,2000,
(1):
78-84.5马思齐,马刚.股票市场风险、收益与市场效率:
ARMA-ARCH-M模型J.世界经济,2000,(5):
19-28.6张玉林,仲伟俊,常松.指数预测的一种混合模型J.系统工程理论方法与应用,2002,
(2):
157-162.7魏凤英,曹鸿兴.长期预测的数学模型及其应用M.北京:
气象出版社,1990:
9-12.8卢奇,顾培亮.组合预测模型在中国能源消费系统中的建构及应用J.系统工程理论与实践,2003,(3):
78-82.9马永开,唐小我.线性组合预测模型优化问题研究J.系统工程理论与实践,1998,(9):
110-123.10王惠文.偏最小二乘回归方法及其应用M.北京:
国防工业出版社,1999:
9-12.11张晓东,韩志刚.一种改进的多层递阶预报方法研究J.哈尔滨工业大学学报,2002,(6).12SimonHaykin.神经网络原理M.叶世伟,史忠植,译.北京:
机械工业出版社,2004:
56-78.13T.MartinHagan,B.HowardDemuth,HMarkBeale.神经网络设计M.戴葵,译.北京:
机械工业出版社,2002.14CCortes,VVapnik.SupportvectornetworksJ.MachineLearning,1995,(20):
273-295.15PLBartlett,JShawe-Taylor.GeneralizationperformanceonsupportvectormachinesandpatternclassifiersC.inB.Sholkopf,C.Burges,andA.SmolaEds.,AdvancesinKernelMethods-SupportVectorLearning,Cambridge,MA:
MITPress,1999.16BSholkopf,KSung,CJCBurges,etal.ComparingsupportvectormachinewithGaussiankerneltoradialbasisfunctionclassifiersJ.IEEETrans,SignalProcessing,2001,(45).17王国胜,钟义信.支持向量机的若干新进展J.电子学报,2002,(10).18陈兴,孟卫东,严太华.基于T-S模型的模糊神经网络在股市预测中的应用J.系统工程理论与实践,2001,
(2):
66-72.责任编辑吴高君!
结语复杂的股票市场面临一个变化迅速的外界环境,由于预测的不确定性因素显著增加,利用单个预测模型进行预测的缺陷表现为信息源的不广泛性以及对模型设定形式的敏感性等,采用单纯线性或者非线性系模型很难达到理想的预测效果。
本文利用四种不同线性回归模型提取股市系统的线性特征,生成一组预测个体;
利用四种不同的神经网络算法提取股市系统的非线性特征,生成一组预测个体,进一步把两组预测个体合并,再利用支持向量机回归组合,时变权重分别赋权生成最终结论,以此建立基于支持向量机的股市预测模型,并对上证指数开盘价、收盘价进行预测。
实例计算结果表明,该方法具有显著提高系统的预测能力,预测精度、股市涨跌趋势准确率高。
42
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 支持 向量 股市 组合 预测 模型 研究