基于hadoop的推荐系统设计与实现-计算机技术专业论文.docx
- 文档编号:18940750
- 上传时间:2024-03-14
- 格式:DOCX
- 页数:102
- 大小:1.86MB
基于hadoop的推荐系统设计与实现-计算机技术专业论文.docx
《基于hadoop的推荐系统设计与实现-计算机技术专业论文.docx》由会员分享,可在线阅读,更多相关《基于hadoop的推荐系统设计与实现-计算机技术专业论文.docx(102页珍藏版)》请在冰点文库上搜索。
南京邮电大学学位论文原创性声明
本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。
尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。
与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
本人学位论文及涉及相关资料若有不实,愿意承担一切相关的法律责任。
研究生签名:
日期:
南京邮电大学学位论文使用授权声明
本人授权南京邮电大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档;允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索;可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。
本文电子文档的内容和纸质论文的内容相一致。
论文的公布(包括刊登)授权南京邮电大学研究生院办理。
涉密学位论文在解密后适用本授权书。
研究生签名:
导师签名:
日期:
摘要
现在手机上各式各样的软件,每天都在推送着海量的信息,但是信息的质量良莠不齐。
如何使用户既能获取到需要的信息,又能避免被信息轰炸所困扰,是推荐系统需要解决的问题。
随着数据量的爆炸式增长,传统的推荐系统已经无法满足要求。
基于云计算平台的推荐系统能够处理更大的数据量,运行更复杂的推荐算法,当然也能够提供更加强大的推荐服务。
本文提出了基于Hadoop的并行化推荐算法H-ICSR(ItemClusteringBasedSocialRecommendationAlgorithmonHadoop)。
H-ICSR采用社会化推荐的思想,利用历史评分数据和社交数据产生推荐结果。
它使用推荐对象的文本属性资料对推荐对象进行聚类,划分为若干个项目类别;根据用户历史评分,计算用户对不同类别的项目的喜好程度;利用推荐对象的互动数据和历史评分数据建立项目推荐度模型;将用户对项目类别的喜好程度和项目的推荐度结合,预测用户对未知项目的评分,按照预测评分排序,为用户推荐评分最高的项目。
对H-ICSR算法做了并行化设计。
并行化设计是基于Hadoop平台的,使用MapReduce分布式计算模型来设计算法程序,将算法分为4个Job,每个Job由若干个MapReduce计算过程组成,这4个Job之间或并行或串行,由JobControl来控制。
算法的输入数据、中间结果和输出数据使用HDFS分布文件系统存储。
通过实验证明了H-ICSR算法在冷启动和数据稀
疏时比其他算法有更好的性能。
基于H-ICSR算法实现了系统推荐模块,将推荐模块分为源数据采集层、数据预处理层、推荐生成层和用户接入层。
关系型数据库和HDFS之间的数据传输交给源数据采集层,大量的基础计算和建模交给数据预处理层,个性化列表生成交给推荐生成层,推荐结果展示和反馈交给用户接入层。
以推荐模块为核心实现了基于Hadoop平台的推荐系统。
系统分为Android客户端、Web服务器和Hadoop集群三部分。
Android客户端实现和用户的交互,Web服务器实时响应客户端的业务请求,Hadoop集群离线运行H-ICSR推荐算法。
对原型系统进行了功能性测试,结果表明该系统具备了较完善的功能,能为用户提供个性化的推荐。
关键词:
社会化推荐,推荐系统,聚类,并行计算
I
Abstract
Today'ssmartphoneshaveallkindsofsoftware,whichpushvastamountsofinformationtouseveryday.Notalloftheinformationhashighquality.Howtheusercanaccesstotheneededinformation,andcanavoidbeingtroubledwiththerest,istheproblemthatrecommendationsystemshouldsolve.Withtheexplosionofdatavolumes,traditionalrecommendationsystemshavebeenunabletomeettherequirements.Recommendationsystembasedoncloudcomputingplatformiscapableofhandlingagreateramountofdata,runningmorecomplexrecommendationalgorithm,and,ofcourse,providingmoreefficientrecommendationservice.
ThispaperpresentsanewparallelizationrecommendationalgorithmbasedonHadoop,whichiscalledH-ICSR(ItemClusteringBasedSocialRecommendationAlgorithmonHadoop).Itprovidesrecommendationsbyadoptingtheideaofsocialrecommendation,usinghistoryratingsandsocialdatatoproduceresults.
H-ICSRclustertheitemsbyattributedataatfirst,dividingthemintoseveralcategories.Secondly,calculatingthepreferencesofcertainuserfordifferentcategoriesthroughratingdata.Next,amodelbasedoninteractiondataandratingsissetuptocalculatetherecommendationscoreofitem.Finally,predictingauser’sratingsforunknownitemsthroughcombiningtheuserpreferencesforacategorywiththerecommendationscoresoftheitemsinthecategory.Auser’srecommendationlistisgeneratedbysortingthecandidateitemsbypredictedscoresindescendingorder.
AdistributedimplementationofH-ICSRismadeonHadoop,soH-ICSRisabletorunonHadoopclusters,makingfulluseofcomputingresources.TheapplicationisprogrammedinMapReduceframework,andtheresultsisstoredinHDFS.Weuse4jobswhicharecontrolledbyJobControlinH-ICSR.ExperimentsshowthatH-ICSRalgorithmhasbetterperformancethanotheralgorithmswhenencounteringacold-startproblemordatasparseproblem.
H-ICSRconstitutesthecoremoduleofrecommendationsystem,whichisdividedinto4layers:
TheSourceDataAcquisitionLayer(SDAL),TheDataPretreatmentLayer(DPL),TheRecommendationsGeneratorLayer(RGL)andTheUserAccessLayer(UAL).ThetransmissionofdatabetweenrelationaldatabaseandHDFSisinSDAL,andalargenumberofcomputationandmodelingisinDPL.RGLisresponsibleforgeneratingpersonalizedrecommendationlist.InUAL,recommendationsareshownandusers’feedbackisrecorded.
Weintegratetherecommendermoduleintoexistingprojects,andimplementaprototypeofthe
II
recommendationsystemonhadoop.Thesystemiscomposedofthreeparts:
theandroidclient,thewebserverandthehadoopcluster.Theandroidclientinteractswithusers,thewebserverresponsestherequestfromclientatreal-timeandthehadoopclusterrunsH–ICSRoffline.Thissystemcanprovideuserswithpersonalizedrecommendationsthroughandroiddevices.
Attheendofthispaper,afunctionaltestontheprototypesystemisdescribedindetail.Resultsshowthatthesystemstrongenoughandcanprovideuserswithpersonalizedrecommendation.
Keywords:
socialrecommendation,recommendationsystem,clustering,parallelcomputing
III
目录
第一章绪论.............................................................................................................................................................1
课题背景及意义........................................................................................................................................1
论文来源与组织结构................................................................................................................................2
第二章相关技术研究.............................................................................................................................................4
推荐算法研究............................................................................................................................................4
2.1.1基于内容推荐.................................................................................................................................4
2.1.2协同过滤推荐.................................................................................................................................6
2.1.3社会化推荐.....................................................................................................................................9
2.1.4推荐算法研究小结.......................................................................................................................10
基于Hadoop的推荐系统研究 11
2.2.1Hadoop平台简介 11
2.2.2基于Hadoop的推荐系统 15
本章小结..................................................................................................................................................16
第三章基于Hadoop的推荐系统总体设计 18
需求分析..................................................................................................................................................18
系统架构设计..........................................................................................................................................18
系统功能模块..........................................................................................................................................20
3.3.1推荐功能.......................................................................................................................................20
3.3.2其它功能.......................................................................................................................................21
系统数据库设计......................................................................................................................................23
本章小结..................................................................................................................................................24
第四章基于Hadoop的并行化推荐算法设计 26
算法提出的背景......................................................................................................................................26
H-ICSR算法思想 27
4.2.1项目推荐度计算...........................................................................................................................29
4.2.2项目聚类的方法...........................................................................................................................29
4.2.3用户兴趣度计算...........................................................................................................................31
4.2.4推荐列表生成...............................................................................................................................32
H-ICSR算法并行化设计 33
4.3.1总体流程.......................................................................................................................................33
4.3.2项目推荐度计算过程并行化.......................................................................................................34
4.3.3项目聚类过程并行化...................................................................................................................35
4.3.4用户兴趣度计算过程并行化.......................................................................................................36
4.3.5推荐结果生成过程并行化...........................................................................................................38
验证H-ICSR算法的推荐效果 39
4.4.1实验数据.......................................................................................................................................39
4.4.2实验内容.......................................................................................................................................40
4.4.3结果分析.......................................................................................................................................43
本章小结..................................................................................................................................................43
第五章基于Hadoop的推荐系统详细设计 44
推荐模块详细设计..................................................................................................................................44
5.1.1源数据采集层.............................................................................
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 hadoop 推荐 系统 设计 实现 计算机技术 专业 论文