2论文模板.docx
- 文档编号:3193501
- 上传时间:2023-05-05
- 格式:DOCX
- 页数:22
- 大小:348.47KB
2论文模板.docx
《2论文模板.docx》由会员分享,可在线阅读,更多相关《2论文模板.docx(22页珍藏版)》请在冰点文库上搜索。
2论文模板
华南师范大学
物理与电信工程学院
论文题目:
基于深度学习的中文网络评论细粒度分析
指导老师:
.
队长:
温德广.
组员:
摘要
互联网的快速发展,商业评论成为了商家不可忽视的口碑影响之一。
面对浩瀚如海的网络评论,数据挖掘技术凸显出其极大的作用。
本文先对RAE模型和传统模型进行对比,然后列举商品评论的情感分析的具体应用。
接着,将介绍细粒度分析的概念和步骤,以及RAE模型的构造过程。
接着,进行实验的测试,以热水器评论数据为研究对象,实现了基于深度学习的RAE模型的情感预测,以及细粒度的情感分析,得到一个最优化的模型,具有一定的实用价值。
最后,总结模型的测试结果和对下一步工作进行展望。
关键词:
深度学习RAE模型细粒度情感分析可视化
ABSTRACT
TherapiddevelopmentofInternet,thebusinessreview,becomeoneofthewordofmouthinfluencethebusinesscannotbeignored.Inthefaceofthevastnetworkcomments,suchastheseaofdataminingtechnologyhighlightsthetremendousrole.ThisarticlefirsttoRAEmodelswerecomparedwiththetraditionalmodel,andthenlistthegoodscommentsemotionalanalysisofthepracticalapplication.Thenintroducetheconceptandstepsoffine-grainedanalysis,aswellastheRAEconstructionprocessofthemodel.Then,experimenttesttowaterheaterreviewdataastheresearchobject,hasrealizedtheRAEmodelbasedondeeplearningemotionprediction,aswellasthefeelingsoffine-grainedanalysis,anoptimalmodel,hasacertainpracticalvalue.Finally,summarizethemodeltestresultsandthepaperpointsoutthenextstepofwork.
Keywords:
DeepingLearning,RecursiveAutoEncoders,emotionfinegritanalyze,dynamicvisualization
目录
1绪论1
2细粒度情感分析的概述2
2.1方案对比2
2.2情感分析具体应用3
3实验原理4
3.1细粒度情感分析4
3.1.1细粒度的情感分析基本概念4
3.1.2细粒度的情感分析基本步骤4
3.2RAE模型5
3.2.1RAE模型的基本概念5
3.2.2RAE模型的特点5
3.2.3RAE模型的构建步骤5
3.3动态可视化9
4实验设计部分10
4.1实验的设计与算法流程10
4.1.1实验环境10
4.1.2数据集10
4.1.3评价指标10
4.2算法流程11
4.3实验总结16
5总结与展望16
5.1本文总结16
5.2未来工作展望16
参考文献17
1绪论
窗体顶端
随着信息技术的快速发展,互联网受到广泛的应用,电子商务也在快速发展,人们可以在网络上发布对不同产品的主观评论主动分享用户体验,国际著名市场研究公司JupiterResearch调查分析显示:
超过75%的消费者在线购买商品之前,会参考互联网用户所写的产品评论信息:
超过90%的大型企业相信,用户推荐和评论会对其他消费者的购买决策的起决定性因素的作用。
同样,用户的网络评论成为了电商企业口碑的主要来源,为了以更好的口碑吸引更多的消费或者减少负面口碑对企业的信誉度的影响,企业需要利用各种方法对海量数据进行准确的、深层次的分析,找出数据背后隐藏的有价值的信息。
大数据分析技术应运而生,并且受到各界各学者的高度重视,它可以帮助我们正确地处理数据,实现对网络评论的智能分析。
另一方面,网络评论的主观情感因素对电商企业有着不可忽视的影响,因此,作为数据挖掘的新兴领域的情感分析技术正好适应了这种需求。
情感分析通过分析评论文本,挖掘文本的主要观点、看法,在这基础上对文本的情感倾向及强度做出判断。
一般的词袋模型忽略文本的语序和语法,难以进行深层次情感分析,而且传统的情感预测模型使用到的情感词典、句法工具,需要人工进行大量的标注,也不便于进行移植,预测问题也局限于赞成/反对两种情况,不利用进行更深入的情感分析。
鉴于传统情感模型的种种不足,美国斯坦福大学的socher团队在2011年开发一种基于递归自编码(RAE)的半监督情感预测模型。
小组成员通过学习并且对RAE模型的参数稍做调整,将在本文中具体展示RAE模型的实验原理和具体实现。
传统的情感分析往往是面向篇章和句子的粗粒度分析方法,不能有效的解决电商深入了解产品的优缺点并且提供个性化的商品和服务的问题,所以亟需从细粒度情感分析来对情感倾向进行分析,从句子中的特征词层次加以细粒度分析分析评估,通过细粒度观点挖掘,我们从海量评论中不仅可以提取出人们对该产品的整体评价,还可以提取出人们对产品的某个特征的意见或者褒奖。
许多学术专家提出了许多基于特征的细粒度观点挖掘算法,用来从评论中抽取消费者对于产品或服务的不同属性的不同些方法把产品的评论数据集作为输入,然后输出产品的特征属性词,通过这些特征属性词的输出可以使用于产品的个性化推荐以及对用户的兴趣挖掘等。
这些情感信息在经过复杂的算法和调整之后得出的数据由于并不容易被大众理解,因此提出了。
对信息的动态可视化窗口的实现,使信息及数据准确简洁地显示在大众眼中,并被大家广泛理解与接受。
实现动态可视化有多种工具与观点。
这方法,如ROSTCM6,标签云,以及用JAVA等编程语言写成的各种便于理解的统计图形分析等等。
2细粒度情感分析的概述
2.1方案对比
(1)Bagofwords,也叫做“词袋”,在信息检索中,Bagofwordsmodel假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。
这种假设虽然对自然语言进行了简化,便于模型化,但是其假定在有些情况下是不合理的,例如在新闻个性化推荐中,采用Bagofwords的模型就会出现问题。
例如用户甲对“南京醉酒驾车事故”这个短语很感兴趣,采用bagofwords忽略了顺序和句法,则认为用户甲对“南京”、“醉酒”、“驾车”和“事故”感兴趣,因此可能推荐出和“南京”,“公交车”,“事故”相关的新闻,这显然是不合理的。
一般的词袋模型忽略文本的语序和语法,难以进行深层次情感分析。
(2)SVM方法是通过一个非线性映射p,把样本空间映射到一个高维乃至无穷维的特征空间中,使得在原来非线行移植。
首先将分析对象定义为评语,通过编程预处理后然后进行情感词汇和产品属性的提取,再进行人工标记匹配集成一个测试集,最后基于SVM的思想的到情感的权重,即情感的倾向。
其中产品属性的提取的方法有,基于词典的特征抽取和基于语料的特征抽取,由于网络的评语的不规范性和语料的不完整性,综合比较这里选择基于hownet的词典构造词典分析方法性可分的问题转化为在特征空间中的线性可分的问题。
其使用到的情感词典、句法工具,需要大量的人工标注,也不便于进。
情感词汇的提取方法有,人工提取法、统计的方法、语义的方法。
(3)多重标记的CRF方法,通过三个层次结构来分析句子的情感极性,将句子分成主客观判断、褒贬分类、褒贬分级三个层次,并且将三者整合一起,首先,对句子进行主观句和客观句的分类,然后将主观句划分为褒义和贬义,再将两类各分为强烈和微弱两种程度。
通过这样的多层分级模型算法来计算句子的极性。
但是数据来源都是报刊,或者专题网页,没有大型的成熟的标记语料库。
没有对文本进行细粒度的情感分析。
(4)RAE模型(基于递归自编码)的半监督学习模型是一种机器学习方法,该方法学习向量空间表示多词短语,力,它学习到的特征对样本数据有着更加本质的刻画,使其更加有利于图像可视化或者文本等的分类任务。
度神经网络在训练的时候存在一定的难度,这些可通过“逐层初始化”(layer-wisepre-training)的方法不需使用任何预定义的情感词典或者极性改变规则,可以对句子进行情感预测。
机器学习的第一次浪潮是浅层学习,深度学习则是机器学习的第二次发展浪潮。
以往的情感分析主要是采用浅层学习,但是无法学习文本语义信息,随着技术的发展和科技的进步,人们的要求也随之越来越高,多隐层的人工神经网络具备着优异的学习特征的能来有效的克服掉,在文章中是采用无监督学习来完成逐层初始化的工作的。
传统的递归自编码(简称RAE)是自编码方法的一个变种,它属于深度学习一种方法,近年来被Socher等人应用于情感分析领域,这种深度学习的方法是多隐层的神经网络结构,可以逐层分析,优化每一层学习得到的特征向量表示,因此它抽取的文本特征向量可以更准确的表达语义信息,提高分类结果。
2.2情感分析具体应用
(1)用户兴趣挖掘:
根据用户在购物网站中发表的言论,关注的商品,如果可以在系统中运用大数据技术,并对用户数据进行整理和分析,来建立用户的兴趣模型。
其中对用户可能感兴趣的进行兴趣分析,对不同用户进行分类,对其进行推广。
(2)商家数据分析:
网络评论在与日俱增,商家需要对用户评论进行归纳整合,对其好的评价需要总结,对其不好的评价需要改进,但是不同属性的评价可能会有数量上的差别,需要对不同属性的评价进行不同的权重判断,得到数据的最优处理。
(3)零售超市或商场,可以通过对产品评论的分析,指导产品合理摆放,方便顾客最购买更多其所需要的产品。
最常见的就是超市里面购买肉和购买蔬菜水果等货架会摆放得很近,目前就是很多人会同时购买肉与蔬菜,产品的合理摆放也是提高销售的一个关键。
(4)寻找更多潜在的目标客户。
例如:
100人里面,购买A的有60人,购买B的有40人,同时购买A和B的有30人,说明A里面有一半的顾客会购买B,反推而言。
如果推出类似B的产品,除了向产品B的用户推荐(因为新产品与B的功能效果比较类似)之外,还可以向A的客户进行推荐,这样就能最大限度地寻找更多的目标客户。
(5)通过关联规则,推出相应的促销礼包或优惠组合套装,快速帮助提高销售额。
如前面所说的:
飘柔洗发水+玉兰油沐浴露、海飞丝洗发水+舒肤佳沐浴露等促销礼包;还比如全家里面推出的牛奶+面包、豆奶+面包的早餐组合。
3实验原理
3.1细粒度情感分析
3.1.1细粒度的情感分析基本概念
细粒度的情感分析,也称为属性级情感分析,是指从文本中提取出与情感倾向性论述相关联的各个要素,这些要素涉及到文本语言特征规律、统计分析、机器学习和自然语言处理等姿势。
中文由于语言比价复杂,细粒度的情感分析主要针对于用户的商品评论。
中文由于语言比价复杂,细粒度情感分析中最重要的研究是评论对象的识别,归类与关联。
中文由于语言比价复杂,往往一词多义、词类缺乏变化,但是语义表达却非常丰富,汉语词类和句法成分的关系错综复杂,例如对于评价“价格合理”,“口感甚佳”,“包装精美”等。
“价格”和“合理”、“口感”和“甚佳”、“包装”和“精美”这些关联是显性关联。
然而“这家店坑人钱”、“喝起感觉很棒”等等就是讲得是蒙牛牛奶的隐形属性。
还有就是对某种属性的情感倾向程度也会因为某个词的改变而发生量的变化甚至质的变化。
比如“喝起来很好”、“喝起来还好”、“喝起来很不好”这几句中的语义虽然改变了一个词却对这个句子的情感倾向产生了很大的影响。
3.1.2细粒度的情感分析基本步骤
而正确的细粒度分析和正确的对象识别与关联是建立在模型的正确选择和大量调整与训练的基础上的。
因此,细粒度情感分析的模型大概分成3个步骤:
(1)领域特征词的提取
从评论中提取描述产品某个方面的词语,例如对于蒙牛产品的价格,口味,包装以及广告等,来源可以来源于商家的产品详细资料,也可以来源于用户评论。
(2)情感属性词的提取
情感属性词是从领域评论数据集中,提出用户对领域特征词表达情感时使用的情感词。
例如对价格的“合理”、对“口味”的“轻”与“重”、对于包装的“精美”等等。
(3)用户情感倾向的计算与判定。
用户情感倾向判定就是判断消费者所表示的意见、评估和观点的倾向性问题,细粒度情感分析集中在对词语和短语层次对情感进行计算与判定,进而可以分析消费者的偏好,进行有针对性的产品改进与提高。
3.2RAE模型
3.2.1RAE模型的基本概念
这是基于半监督递归自编码(RAE)的句子级情感标签分布预测的机器学习方法,该方法学习向量空间表示多词短语,不需使用任何预定义的情感词典或者极性改变规则,是一种半监督的情感预测方法。
该模型先将句子中的每个词进行词向量化,然后利用贪心算法构建一棵哈夫曼树,再在每个父节点利用分类器,得到这个节点的特征,接着设置权重后,将所有父节点(包括根节点)的特征值迭加,最后通过一个softmax分类器,得到这个句子的情感预测。
图一RAE模型示意图
3.2.2RAE模型的特点
(1)相比于传统的词袋模型忽略文本的语法和语序,用一组无序的单词(words)来表达一段文字或一个文档的方式,该模型将句子层次化,并利用组合语义学理论来理解情感。
(2)该模型适用于无标签和有标签的数据,不需要任何语义分类的情感词典和句法工具,是一种半监督的情感预测方法。
(3)相比于赞成/反对的单一情感分类问题,该模型能将用户复杂的情感进行多维的划分,提高情感分类的精准度。
3.2.3RAE模型的构建步骤
图二RAE树的构建
(1)首先,进行单词的向量化。
利用高斯分布x~N(0,σ2)生成随机向量x∈Rn,用来代表句子中的每一个词,将这些随机向量构建向量空间L∈Rn*|V|。
这样,一个句子就能表示成一个向量组(x1,…,xm)的形式,矩阵L中的每一行就是表征每一个句子的向量组。
假设我们现在有m(m<=n)个词,每个词对应一个索引k,指向单词向量空间第k个位置,其他位置均为0,于是要求出每个单词就变成了一个投影运算,如公式
(1)所示,其中bk为二值化向量:
(1)
(2)然后,利用贪心算法构建一棵树。
将句子中相邻的词向量两两配对,每次选取误差最小的那个组合以得到parent节点,直到得到树的根节点。
具体方法如下:
A.令(c1;c2)=(x1;x2),利用公式
(2)计算y1,其中tanh为激活函数,W
(1)∈Rn*2n为激活权重矩阵,b
(1)为偏置项,以此类推,直到(c1;c2)=(xm-1;xm),计算出ym-1,得到向量y=(y1,…,ym-1),如公式
(2)所示。
(2)
B.评价父结点特征表征两个子节点特征的能力的标准之一:
利用父节点重构出两个子节点,然后计算原子节点与重构后子节点之间的相对误差。
首先,利用利用公式(3)计算y的重构子节点[c’1;c’2],其中W
(2)为重构权重矩阵,b
(2)为偏置项,接着,利用公式(4)欧氏距离计算重构之后的误差值Erec。
(3)
(4)
C.从得到所有重构误差值中选出最小值,将相关的父节点特征y表征两个子节点。
假如最小值是ym-1,则用ym-1代替(xm-1;xm),得到新向量组(x1,…,xm-2,ym-1)。
D.构建好第一个自编码后,继续使用贪心算法,每次选取误差最小的那个组合,直到得到树的根节点,该根节点就是句子的特征表示。
但考虑到除第一个自编码之外的其余自编码所包含的节点数不同,需增加一个权重表征节点的重要程度,公式(5)如下:
(5)
E.使用贪心算法时,同一层的节点可能有若干个相同的最小误差,导致可能有若干棵不同形状的树生成,所以必须选取整个树所有节点的重构误差作为该树的总体重构误差进行优化,如公式(6)所示。
(6)
F.将得到的具有最小总体重构误差的树进行归一化,使之可以比较不同维度的向量特征,p=p/||p||。
(3)接着,利用softmax进行分类。
图三softmax分类器
因为每个节点都有其向量特征,我们可以通过softmax分类器将每个节点的情感分布dk预测出来,如公式(7)所示。
然后将预测标签dk与真实标签tk进行比较,利用交叉熵的思想,得到预测误差EcE,如公式(8)所示,其中Wlabel为分离器的权重矩阵,θ=(W
(1),b
(1),W
(2),b
(2),L)。
(7)
(8)
(4)进行反向传导,对J求偏导,优化模型。
得到重构误差Erec和预测误差EcE后,构建模型的总体代价函数J,利用L-BFGS算法,最优化参数θ=(W
(1),b
(1),W
(2),b
(2),L)。
当J达到最小值时,参数θ达到最优,模型构建完成。
其中α为重构误差和预测误差的权重,λ为正则项惩罚系数。
(9)
(10)
RAE模型的最优化过程如下:
◆构建半监督RAE的模型:
通过人工标记,得到积极、消极评论各占一半左右的数据集用于模型的构建,将经过预处理和文本矩阵转化的数据集作为输入,通过以下步骤构建半监督RAE深度学习模型(本实验中的训练集和测试集是在模型训练过程中按照分别占60%和40%随机分配的)。
◆训练模型:
训练数据集作为输入,利用L-BFGs算法训练模型,实现程序见附件;
◆评价模型:
将随机生成的测试集用来测试上一步中构建的半监督RAE模型并进行评价在情感分析研究中,常用的评价指标有准确率,召回率,F值等,本文中采用的是准确率。
本次建模的测试结果如图13所示,用测试集测试模型,达到了85.13%的准确率;
◆情感分析:
利用上一步中构建的半监督RAE深度学习模型,分析本次实验的实验数据,分析得到每句评论的情感倾向性,结果如图14所示:
第k列的情感标签表示相应停用词过滤后的评论数据中第k行的评论的情感倾向性,0表示消极,1表示积极。
3.3动态可视化
运用C#语言编写程序实现动态可视化,显示细粒度属性:
利用标签云按钮引进词频txt文件,在窗口中显示属性,按词频的高低显示词语的大小,将鼠标移动进如显示的词语中可以看到对应的数据。
图四可视化工具“云标签”
4实验设计部分
4.1实验的设计与算法流程
4.1.1实验环境
1.eclipse环境,利用java程序对评论数据进行词向量化;
2.MATLAB环境,利用RAE模型对商品评论进行情感极性分析和细粒度分析;
3.C#环境,利用“标签云”实现用户对商品细粒度的情感倾向的可视化。
4.1.2数据集
本实验采用某品牌热水器的用户评论进行模型的训练和测试,该数据集共有2389条评论,含有丰富的情感信息和商品属性信息,适合用于进行商品评论的细粒度的情感分析。
实验时,先将数据集按6:
4的关系划分为训练集和测试集,同时,利用交叉检验思想训练模型,防止模型的过拟合问题,提高泛化能力。
4.1.3评价指标
表示正确的分类到类别
中的样本数量;
则是属于类别
但是没有分到该类别中的样本数;
表示不属于类别
但是错误的分到该类别中的样本数量。
1.准确率(Precision),其目的是衡量分类结果的准确性定义为分类器正确的分到类别
中的样本数,与分类器分到类别
中的所有样本数量的比值,公式如下:
(11)
2.查全率(Recall),又称为召回率,其定义为分类器正确分到
中的样本量与该类实际应该有的样本数量的比值,目的是衡量分类结果的完整性
(12)
3.F值(F-measure),综合了查全率和查准率的结果,可以更加全面准确的反应整个分类的性能。
其中β是用户定义查全率和查准率的重要度。
(13)
一般的,取β=1;成为F1,其公式变为:
(14)
4.2算法流程
步骤一:
评论数据的词向量化
词向量化是指用高维向量代替词语在特定情境中的语义,目的是为了让计算机识别,进行矩阵运算,提高运行效率。
词向量化在java环境中进行。
首先,将已完成预处理的商品评论导入词向量模型,将评论中的所有的词语按出现的先后顺序排列,构成一个词汇表。
然后,根据各条评论中词语的出现情况,用词语在词汇表中对应的序号代替词语的位置,构成一个新的含有词语的位置信息的数字矩阵。
最后,保存词汇表和词向量矩阵,完成词向量化。
在实验中,,词汇表共有4440个词语,句子评论有2389条,而最长句子的词语数目为244,所以,构成一个2389*244的词向量矩阵。
步骤二:
划分训练集和测试集
在实验中,我们将评论数据按6:
4的比例,划分为训练集和测试集。
这是因为模型中的词向量需要经过迭代训练,才能够使词向量代表词语在特定语境中的语义;另外,判断模型性能的优劣,需要有一个测试集来测试模型预测情感的准确率,所以有必要将评论数据划分为训练集和测试集。
步骤三:
最优化模型
◆训练模型:
训练模型就是最优化模型的过程,目的是得到一组使模型性能达到最佳的参数。
在实验中,我们以迭代次数、重构误差与分类误差的权重参数α(以下称为α)以及非根节点分类权重β(以下称为β)三者为自变量,以准确率、预测率、召回值、F值四者为因变量,使用控制变量法对模型的最优化参数进行测试,得到如下数据:
图五迭代次数与模型性能的关系
迭代次数从10次开始,以20次为步进长度,测出5组评价指标,β为0.5,α为0.2。
由图分析可得,当迭代次数大于30次时,准确率超过90%,从50次开始,模型性能没有随迭代次数的增加而出现太大变化。
另外,迭代次数越多,训练模型的时间开销越大,所以,在满足正常预测情感准确度的前提下,尽可能减少迭代次数,提高模型的效率。
图六β与模型性能的关系
β是权衡非根节点分类的一个重要参数,范围为(0,1)。
实验时,我们设置β从0.1开始,步进长度为0.2,,迭代次数为35次,α为0.2,测出5组数据,由图可得,当β为0.5时,模型的性能最优。
另外,β的选取与模型的时间开销无关。
图七α与模型性能的关系
α是权衡重构误差与分类误差重要性的参数,范围为(0,1)。
实验时,我们从0.2开始,以0.2为步进长度,,迭代次数为35次,β为0.5,测出4组实验数据,由图可知,当α为0.4时,模型的性能达到最优,α的选取也与模型的时间开销无关。
综合上述分析,模型准确率与模型时间复杂度是一对矛盾,如果要想得到更好的准确率,必然花费更长的训练时间。
经过权衡分析后,我们选择迭代次数为35,α为0.4,β为0.5这一组数据作为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 论文 模板