书签分享收藏举报版权申诉 / 57

立即下载加入VIP,免费下载

当前位置：首页 > 解决方案 > 学习计划 > 基于数据挖掘的股价走势预测.pdf

基于数据挖掘的股价走势预测.pdf

文档编号：3432408
上传时间：2023-05-05
格式：PDF
页数：57
大小：5.75MB

基于数据挖掘的股价走势预测.pdf

《基于数据挖掘的股价走势预测.pdf》由会员分享，可在线阅读，更多相关《基于数据挖掘的股价走势预测.pdf（57页珍藏版）》请在冰点文库上搜索。

基于数据挖掘的股价走势预测.pdf

华中科技大学硕士学位论文基于数据挖掘的股价走势预测姓名：

张胜权申请学位级别：

硕士专业：

概率论与数理统计指导教师：

周晓阳20090517华华中中科科技技大大学学硕硕士士学学位位论论文文I摘摘要要随着社会经济的发展和人们投资意识的不断增强，股票已经成为投资理财的一种重要工具，从而股票走势的预测具有十分重要的意义，然而，股票市场是一个极其复杂的系统，股价走势的预测问题是一个非常困难的问题，尽管如此，股价走势的预测还是引起了越来越多人的关注和研究。

数据挖掘，是90年代中后期发展起来的人工智能分支，它以发现海量数据中隐含的、新颖的、有价值的信息和模式为目标，是一种高层次的数据分析。

股票市场中积累了大量的交易数据，数据中隐含了大量有用的信息，采用数据挖掘的相关技术对股市数据进行分析，探索股价走势中的规律，建立股价走势的预测模型，无疑具有重大的现实意义。

本文以中国股票市场为背景，利用数具挖掘的相关技术建立了用于预测股票走势的定性预测模型和定量预测模型，并得到了比较好的结果，由于采用的数据是沪深股市其中550只个股近十年累计约120万个交易日的数据，数据具有很好的代表性，因此，模型具有良好的泛化能力，模型产生的结论也具有较强的说服力，模型具有一定的参考价值，同时，本文的研究页表明了采用数据挖掘的相关技术进行股价预测是可行的。

关键词关键词：

股票数据挖掘预测聚类k-均值两步聚类Kohonen决策树分类最近邻算法华华中中科科技技大大学学硕硕士士学学位位论论文文IIAbstractWithsocial-economicdevelopmentandstrengtheningofpeoplesinvestmentconsciousness,Theforecastofstockpricemovementisveryimportantandmeaningful，stockshavebecomeanimportantinvestmentinstrument.However,asstockmarketisaverycomplicatedsystem,forecastofstockpricemovementhasbecomeverydifficult;despitethechallenges,peoplearepayingmoreattentiontothisareaandaredoingmoreresearch.Data-mining，anewArtificialIntelligencebranchdevelopedsince1990s，focusondiscoveringvaluablemodeswhicharehiddeninmega-dataanditishigh-levelofdataanalysis.alargenumberofstockmarkettransactiondataisaccumulated,agreatdealofusefulinformationisimpliedinstockdata,Thus,usingdata-miningtechniquestoanalyzestockdataandexplorethelawinthestockpricemovement,buildingforecastmodelonstockpricemovementisverymeaningful.Thispaperbuildsboththequalitativeandquantitativeforecastmodelsofstockpricemovementusingdata-miningontheChinesestockmarketwithsatisfactoryresults.AmongthestockstradedontheShenzhenandShanghaiStockExchange,550stockshaverecordsof1.2milliontradingdaysaccumulatively,Dataarewellrepresented,sothemodelscanbewidelyextendedwithpervasiveconclusions.Webelieveitisworkabletoforecaststockpricemovementusingdata-mining.Keywords:

stocks,Data-Mining,forecast,clustering,k-means,Two-stepClustering,kohonen,DecisionTree，classification,nearestneighbor独创性声明独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。

尽我所知，除文中已经标明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。

对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。

本人完全意识到，本声明的法律结果由本人承担。

学位论文作者签名：

日期：

年月日学位论文版权使用授权书学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：

学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。

本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

保密，在__年解密后适用本授权书。

不保密（请在以上方框内打“”）学位论文作者签名：

指导教师签名：

日期：

年月日日期：

年月日本论文属于华华中中科科技技大大学学硕硕士士学学位位论论文文11绪论绪论1.1课题的研究背景课题的研究背景随着经济体制改革的不断深化，我国股票市场也在不断地完善和发展，股票市场已经成为我国证券业以及金融业不可或缺的组成部分，人们的金融意识和投资意识日益增强，股票投资已经成为一种人们愿意承担其风险的理财手段，股市投资的收益与风险往往是强正相关的，也就是投资收益越高，冒的风险也越大，因此，股票数据的分析和预测具有十分重大的理论意义和非常诱人的应用价值，然而，股票市场是一个极其复杂的动力学系统，高噪声、严重非线性和投资者的任意盲目性等诸多因素决定了股价走势预测的复杂性，股票的投资决策问题已成为金融工程及系统工程领域的前沿课题之一，也是迄今为止尚未很好解决的一个国际热点难题。

1.2当前研究的现状当前研究的现状随着人们对股市认识的不断加深，金融理论与数理工具的日趋完善，各种各样的预测方法也应运而生，特别是近年来，随着计算机技术、混沌、分形理论的发展，人们开始将股票市场的行为纳入非线性动力学研究的范畴。

己有不少研究文献表明股票市场是具有混沌现象的非线性动力系统，因此，迫切要求人们找到直接从数据中建立模型的方法。

人工神经网络（ANN）是被广泛应用于股市预测的方法之一，Mendelsohn和Stein（1991）用德国市场三年的日交易数据训练人工神经网络来产生买和卖的信号，使用一年的数据进行验证，表明神经网络产生的24个买入信号中一半是正确的，并可以带来满意的回报1，Sheng-chaiChi（1999）在研究中将灰色关联度引入到神经网络的输入变量，并对不同的网络拓扑结构进行了测试，研究表明灰色关联度的引入，提高了模型的预测精度并减少了网络训练所需要的时间，同时也表明更多的神经元数量并没有带来更高的预测精度2.国内方面，霍建军3，张秀艳4等针对中国股票市场，华华中中科科技技大大学学硕硕士士学学位位论论文文2用神经网络建立了相关的预测模型。

支持向量机（SVM）技术也被人们用于股市预测，SVM具有坚实的统计学理论基础，能很好的用于高维数据，文献5正是利用支持向量机的技术对股市进行预测，在支持向量机用于时间序列预测的理论基础上，给出了基于时间序列的支持向量机预测模型。

然而，很多文献尤其是国内的许多文献（如文献5,6），建立起来的对股市进行预测的模型或者方法均缺乏足够的数据作为支撑，它们建模时采用的一般是市场指数或者几只个股的某一小段行情数据，过少的数据不仅使模型在训练时容易产生过拟合现象（Overfitting），而且，由于股票之间存在差异，各段行情走势之间也存在差异，因此，对于整个市场的大部分情况，在几只股票或者某段行情基础上建立起来的模型的可靠性是值得怀疑的，总而言之，在小数据量的基础上建立起来的模型的泛化能力会比较差，得到的结论也缺乏足够的说服力1.3本文研究的目的及主要工作本文研究的目的及主要工作大量研究表明，股市具有一定的可预测性，因此，关键的问题在于找到一种能够描述实际价格波动各种特性的模型，并据此建立相应的预测方法，获得比较准确的预测，这正是本文的目的所在。

数据挖掘（DataMining）是从海量数据中寻找隐含的、未知的、非平凡的、有应用价值的信息或者模式，中国股票市场经过十几年的发展，积累了大量的交易数据，用数据挖掘的技术从海量的股票交易数据中寻找有价值的模式无疑具有可观的前景和重要的现实意义。

本文正是以沪深股市其中的550只股票近十年累计约120万个交易日的收盘价数据为数据对象，采用数据挖掘的相关技术，建立具有较好泛化能力的预测模型。

本文的主要工作包括：

（1）介绍了股价的可预测性问题，并认为股价具有一定的可预测性.

（2）.分别使用k均值聚类，两步聚类和Kohonen聚类技术，对沪深股市其中550只股票近10年累计约120万个交易日的收盘价数据生成的相对涨幅向量进行了聚华华中中科科技技大大学学硕硕士士学学位位论论文文3类分析，并在此基础上以“投票”的方式确定最终的聚类结果。

（3）.在

（2）聚类分析产生的结果的基础上，建立决策树分类模型，该模型用于对相对涨幅向量的后面几个分量进行定性的预测。

（4）.应用k最近邻技术建立对股价走势进行定量预测的模型，由于该模型分析的对象是沪深股市其中550只股票近10年约120万个交易日收盘价数据，数据具有广泛的代表性，模型具有良好的泛化能力，产生的结果具有较强的说服力，因而用该方法进行股价走势预测具有一定的参考价值。

1.4论文的结构安排论文的结构安排本文的结构如下：

第一章阐述了本文研究的课题背景，论述了相关研究的现状及进展情况，讨论了本文研究的目的及意义。

第二章阐述了股价的可预测性问题，并简单介绍了股价预测的方法。

第三章介绍了数据挖掘的基本知识，并比较详细的介绍了本文用到的：

k均值聚类，两步聚类，Kohonen聚类，C4.5决策树算法。

第四章对沪深股市其中550只股票累计约120万个收盘价数据进行聚类分析，并在其结果的基础上建立了股价走势的定性预测模型。

第五章使用k最近邻技术建立对股价走势进行定量预测的模型。

第六章对本文的工作进行总结，对研究中尚未涉及的相关问题和尚须深入的相关内容进行了展望。

华华中中科科技技大大学学硕硕士士学学位位论论文文42股价走势预测股价走势预测2.1股票价格的可预测性问题股票价格的可预测性问题一直以来，股票价格的可预测性就是一个充满争议的问题，更是国内外诸多学者感兴趣的重大课题。

20世纪60年代，经济学家森穆逊（Samueson）提出了资产价格随机游走理论，认为在信息有效市场，股票价格是不可预测的，随机游走理论认为，所有未来的价格变化都是对过去价格的随机偏离，如果信息未受到阻碍而且信息立即在股票价格中得到反映,那么明日的价格走势将仅仅反映明天的信息并独立于今天的价格变化。

并且信息被定义为无法预知的并因此所导致的价格变化一定是随机的和无法预测的。

后来，美国芝加哥大学财务学家法默（Fama）提出了著名的有效市场假说理论（EMH），对股票价格的不可预测性进行了比较权威的阐述，认为在一个充满信息交流和信息竞争的社会里，一个特定的信息将迅速被投资者知晓，随后，股票市场的竞争将使股票价格充分并且及时地反映该信息。

法默将证券市场区分为三种类型：

弱式有效，半强式有效和强势有效。

根据有效市场理论，在弱式有效市场，股票价格充分反映历史上一切交易价格和交易量中所隐含的信息，从而投资者通过技术分析预测股价走势将是徒劳的，在半强式有效市场，股票当前价格不仅反映历史信息，还反映了当前所有公开的信息，如公司价值，宏观经济形势和政策方面的信息，在半强式有效市场，仅仅以公开资料为基础的分析将不能提供任何帮助，因为针对当前已经公开的资料信息，目前的价格是合适的，未来的价格依赖于新的公开信息，在这样的市场，基于历史价格信息的技术分析和基于公开资料的基础分析将毫无用处。

在强式有效市场，股票价格将及时而充分的反映所有相关信息，包括公开的信息和内幕消息，投资者对信息的任何分析将无功而返78然而，有效市场假说基于投资者完全理性和信息自由流通的前提让很多研究者对现实中的股票市场遵从有效市场假说产生了质疑，他们开始寻求其他的理论方法华华中中科科技技大大学学硕硕士士学学位位论论文文5来解释资本市场的异常现象，这其中包括非常著名的分形市场假说。

此后，许多学者都相继运用分形理论对不同的市场进行了实证研究，发现了资本市场的分形特征，股票市场并不符合有效市场理论，股指及股指收益呈现明显的分形特征9。

近年来，越来越多的研究表明，无论是有效市场假说还是随机游走模型都不符合股票市场的现实，股票市场具有有限可预测性，股票价格在过去价格模式以及特定“基础性”价值度量基础上存在一定程度上可预测性。

就中国股票市场而言，众多学者对中国股票市场的可预测性进行了研究和实证，例如：

文献9从检验上海股票市场的效率入手，经过实证检验对有效市场假说提出质疑，并由此引入了分形理论。

文献10以上证综指为例，分析得出中国股票市场既没有达到弱有效，也不遵从随机游走模型，而是存在一定的可预测性，文献11运用股市预期收益率模型从理论上阐述了股票市场具有某种程度的可预测性;同时,运用ARCH-M模型对中国沪深股票市场是否具有可预测性进行了实证检验,检验结果表明中国沪深股票市场具有可预测性。

另外，还有许多学者运用了各种具体的方法对股票价格进行了预测，从侧面也论证了股票价格的可预测性。

2.2股价预测的方法股价预测的方法7股价走势预测的方法主要包括基本分析，技术分析和组合分析法。

基本分析又称“基本面分析”，是指投资者根据经济学、金融学、财务管理学及投资学等基本原理，对决定股票价值和价格的基本要素，如宏观经济指标、经济政策、行业发展状况、公司财务状况等进行分析，从而判断股票价格的走势，基本分析的理论基础在于

（1）股票有它自身的内在价值。

（2）市场价格和内在价值之间的差距最终会被市场纠正。

基本分析坚持股票价值是股票价格未来走势的决定性因素，多用于判断股票价格的中期和长期走势。

技术分析是以证券市场过去和现在的市场行为为分析对象，运用数学和逻辑的方法，探索出一些典型的变化规律，并据此预测股票市场未来变化趋势的技术方法，技术分析多用于股价走势的短期预测。

技术分析的理论基础建立在如下三个假设之华华中中科科技技大大学学硕硕士士学学位位论论文文6上，

（1）市场行为涵盖一切信息，任何一个影响股票市场的因素，最终都必然体现在股票价格的变动上。

（2）股票价格沿着趋势变动。

股票价格的变动是有一定规律的，即保持原来运动方向的惯性，股票价格变动的方向由供求关系决定，供求关系一旦确定，股票价格的变化趋势将会一直持续下去，只要供求关系不发生根本改变，股票价格的走势就不会发生反转。

（3）历史会重演，该假设是从人的心理因素方面考虑的，在股票市场，一个人在某种情况下按一种方法进行操作取得了成功，那么以后遇到相同或者相似的情况，他就容易按同一种方法进行操作，如果前一次失败了，后面这一次就不会按前一次的方法操作，股票市场的某个行为给投资者留下的阴影或者快乐是长期存在的，因此技术分析认为，根据历史资料概括出来的规律已经包含了未来股票市场的变动趋势，所以根据历史可以预测未来。

在价、量历史资料的基础上进行统计、数学计算、绘制图表是技术分析的主要手段，技术分析的方法繁多，传统上的方法包括指标类方法，切线类方法，形态类方法，K线类方法，波浪类方法等，随着计算机技术的方法以及各学科之间的不断融合，越来越多的学者将一些现代科学中的方法引入到股票市场，这些方法包括支持向量积（SVM），神经网络，小波分析等等。

组合分析是将基本分析和技术分析结合起来，媒体上股评家们和投资机构对与股市的预测多是采用组合分析方法。

就模型而言，预测模型可以分为定性预测模型和定量预测模型。

华华中中科科技技大大学学硕硕士士学学位位论论文文73数据挖掘数据挖掘3.1数据挖掘的定义和任务数据挖掘的定义和任务随着数据库技术的应用越来越普遍，人们逐渐陷入“数据丰富，知识贫乏”的尴尬境地，因为大量数据淹没了数据中隐含的模式和有用信息，于是，致力于摆脱这一困境的数据挖掘技术从20世纪90年代起步并且得到迅猛发展，数据挖掘是一门交叉学科，内容涉及模式识别、统计分析、人工智能、数据库等多门学科，能够有效地帮助人们从海量数据中发现非平凡的、隐含的、有价值的知识和信息，进而帮助人们科学地作出决策。

一般而言，数据挖掘任务分成两大类：

描述和预测，描述性数据挖掘任务的目标是导出概括数据中潜在联系的模式（相关、趋势、聚类，轨迹和异常），本质上，描述性数据挖掘任务通常是探查性的，并且常常需要后处理技术验证和解释结果。

预测性数据挖掘任务根据其他属性的值预测特定属性的值，是数据挖掘的主要任务。

在实际应用中，往往根据模式的实际作用可以将数据挖掘任务细分为以下几种:

概念描述、关联规则挖掘、分类规则挖掘、聚类分析、序列模式挖掘、时间序列挖掘、以及其它，如回归模式挖掘、趋势分析、异常值分析等。

3.2数据挖掘方法论数据挖掘方法论-CRISP-DM1996年包括SPSS在内的三家公司创建了数据挖掘方法论和过程的标准，即CRISP-DM（Cross-IndustryStandardProcessforDataMining交叉行业标准），该标准提供了数据挖掘生命周期的全面描述（如图3-1）。

一个数据挖掘项目的生命周期包含六个阶段。

这六个阶段的顺序是不固定的，经常需要前后调整这些阶段。

这依赖每个阶段或是阶段中特定任务的产出物是否是下一个阶段必须的输入。

图3-1中箭头指出了最重要的和依赖度高的阶段关系。

图华华中中科科技技大大学学硕硕士士学学位位论论文文8中的外圈象征数据挖掘自身的循环本质-在一个解决方案发布之后另一个数据挖掘的过程才可以继续。

在这个过程中得到的知识可以触发新的，经常是更聚焦的商业问题。

后续的过程可以从前一个过程得到益处。

图3-1数据挖掘生命周期业务理解（BusinessUnderstanding）最初的阶段集中在理解项目目标和从业务的角度理解需求，同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。

数据理解（DataUnderstanding）数据理解阶段从初始的数据收集开始，通过一些活动的处理，目的是熟悉数据，识别数据的质量问题，首次发现数据的内部属性，或是探测引起兴趣的子集去形成隐含信息的假设。

数据准备（DataPreparation）数据准备阶段包括从未处理数据中构造最终数据集的所有活动。

这些数据将是模型工具的输入值。

这个阶段的任务有可能执行多次，没有任何规定的顺序。

任务包括表、记录和属性的选择，以及为模型工具转换和清洗数据。

Data商业理解数据理解数据准备数据建模模型评估部署华华中中科科技技大大学学硕硕士士学学位位论论文文9数据建模（Modeling）在这个阶段，可以选择和应用不同的模型技术，模型参数被调整到最佳的数值。

一般，有些技术可以解决一类相同的数据挖掘问题。

有些技术在数据形成上有特殊要求，因此需要经常跳回到数据准备阶段。

模型评估（Evaluation）到项目的这个阶段，已经从数据分析的角度建立了一个高质量显示的模型。

在开始最后部署模型之前，重要的事情是彻底地评估模型，检查构造模型的步骤，确保模型可以完成业务目标。

这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。

在这个阶段结束后，一个数据挖掘结果使用的决定必须达成。

部署（Deployment）通常，模型的创建不是项目的结束。

模型的作用是从数据中找到知识，获得的知识需要便于用户使用的方式重新组织和展现。

根据需求，这个阶段可以产生简单的报告，或者是实现一个比较复杂的、可重复的数据挖掘过程。

在很多案例中，这个阶段是由客户而不是数据分析人员承担部署的工作。

3.3数据挖掘中的聚类分析数据挖掘中的聚类分析3.3.1什么是聚类分析什么是聚类分析聚类分析根据在数据中发现的描述对象及其关系的信息，将数据对象分组。

其目标是，组内的对象之间是相似的（相关的），不同组中的对象之间是相异的（不相关的）。

组内的相似性（同质性）越大，组间的相异性（异质性）越大，聚类的结果就越好。

在多数情况下，聚类分析只是其他目的（如数据汇总，数据压缩，数据离散化，分类等）的起点。

以下主要介绍本文将要用到的三种聚类分析的算法，即：

k均值聚类，两步聚类，Kohonen（自组织映射）：

华华中中科科技技大大学学硕硕士士学学位位论论文文103.3.2k均值聚类（均值聚类（meansk）k均值是一种最老的、最广泛使用的聚类算法。

其主要思想是试图对n个对象给出k个划分（nk），其中每个划分代表一个类。

首先，随机地选择k个对象，每个对象初始地代表一个类的平均值或中心。

对剩余的每个对象，根据其与各个类中心的距离，将它赋给最近的类。

然后重新计算每个类的平均值，对数据库中的每个对象与每个类的平均值相比较，把对象赋给最相似的某个类。

这个过程不断重复，直到类中的对象都是“相似的”，而不同类中的对象都是“相异的”，即准则函数收敛使平方误差和最小。

k均值算法的优缺点13：

用k-均值算法来聚类时，当结果类是密集的，而类与类之间区别明显时，它的效果较好。

对处理大数据集，该算法是相对可伸缩的和高效率的，因为它的复杂度是（）nkt，其中n是所有对象的数目，k是类的数目，t是迭代的次数。

这个算法经常以局部最优结束。

但是，k均值方法只有在类的平均值被定义的情况下才能使用。

这对于处理离散属性的数据不适用，它还要求用户必须事先给出k（要生成的类的数目）值。

另外，对于“噪声”和孤立点数据是敏感的，少量的该类数据能够对平均值产生极大的影响。

k均值算法的基本过程可概括如下41：

输入：

类的数目k和包含n个对象的数据库。

输出：

k个类，使平方误差和（SSE）最小。

方法：

（1）选择k个对象作为初始的类中心；

（2）repeat；（3）根据类中对象的平均值，将每个对象（重新）赋给到最近（距离最小）的类；（4）更新类的平均值，即计算每个类中对象的平均值；（5）until不再发生变化华华中中科科技技大大学学硕硕士士学学位位论论文文11对象之间距离一般采用欧氏距离,即对给定的两个对象）,（21pxxxX=，）,（21pyyyY=，它们之间的欧氏距离为：

2112）（）,（=piiiyxYXdist（3-1）平方误差和定义如下：

21（,）ikiiXCSSEdistcX=（3-2）其中iC表示第i个类，ic表示第i个类的类中心，定义为=iCXiiXmc1，im为第i个类中对象的个数。

3.3.