基于CF的个性化电子商务推荐系统研究Word格式文档下载.docx
- 文档编号:4470526
- 上传时间:2023-05-03
- 格式:DOCX
- 页数:77
- 大小:58.21KB
基于CF的个性化电子商务推荐系统研究Word格式文档下载.docx
《基于CF的个性化电子商务推荐系统研究Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《基于CF的个性化电子商务推荐系统研究Word格式文档下载.docx(77页珍藏版)》请在冰点文库上搜索。
sellers
Systemis
a
very
important
technologyof
E-colIlnlerce
to
thatimitate
recommendproductsthatcustomerpreferences.How
improvethequalityof
E—commerceRecommendationSystem,hasbecome
scholars.Inthisarticle,data
hotresearchbyexpertsand
warehouse
technology
is
usedin
E—commerce.We
get
normativedataforE-commerceidentification,path
dataminingbycleaning,data
sessionidentification,customerintegration,data
on
identification,data
loadingetc.collaborative
PersonalizedE-commerce
System
proposedbased
filtering,whichclassifycustomers,anddifferentpatternminingalgorithms
according
customerclassification,adopt
based
customercharacteristics.Thisarticle
proposedContent-basedTrackingTree,AR-baesdCollaborativeFiltering,andpullinZoningconcepttoprovidecustomerswithpersonalizedserviceto
enhancetheanalysis
recommendationqualityofe-commercerecommendationsystem.Finally,weoftheaigorithm.Keywords:
Data
Warehouse,DataMining,E-commerce
System,
CollaborativeFiltering,Customer—oriented
II
原创性声明
本人郑重声明:
本人所呈交的学位论文,是在导师的指导下独立进行研究所取得的成果。
学位论文中凡引用他人已经发表或未发表的成果、数据、观点等,均已明确注明出处。
除文中已经注明引用的内容外,不包含任何其他个人或集体已经发表或撰写过的科研成果。
对本文的研究成果做出重要贡献的个人和集体,均已在文中以明确方式标明。
本声明的法律责任由本人承担。
论文作者签名:
互童}盟日
期:
塑!
!
:
±
垡
关于学位论文使用授权的声明
本人在导师指导下所完成的论文及相关的职务作品,知识产权归属兰州大学。
本人完全了解兰州大学有关保存、使用学位论文的规定,同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版,允许论文被查阅和借阅;
本人授权兰州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用任何复制手段保存和汇编本学位论文。
本人离校后发表、使用学位论文或与该论文直接相关的学术论文或成果时,第一署名单位仍然为兰州大学。
保密论文在解密后应遵守此规定。
论文储擗:
芈剔磴轹
日期:
踟/口.t.沙
基于cF的个性化电子商务推荐系统研究
第一章
1.1选题的背景和意义
绪论
随着科学技术的发展,尤其是计算机技术和信息技术的迅猛发展,互联网的
普及,电子商务也取得了快速的发展。
电子商务为客户提供了丰富的商品,同时电子商务网站在运行时也产生了大量的数据。
然而作为顾客在电子商务网站上购物时,因为没有传统销售模式下的营销员的引导,往往很难快速定位到自己需要的商品,这样容易造成客户对电子商务的兴趣度降低,从而导致客户的流失。
如
何解决这个制约电子商务发展的瓶颈问题?
如何将电子商务产生丰富的数据转化为知识?
如何让客户在丰富的商品中快乐的购物?
针对这些问题,在电子商务网站上使用数据仓库技术、进行数据挖掘和商品推荐势在必行。
1.1.1电子商务的发展现状
根据新华网公布的数据【11,2007年我国电子商务交易总额已经达到2.17万亿元,比2006年度增长了90%:
跟据商务部的预计,未来的10年内,将会有
70%的贸易额通过电子交易来完成,电子商务将会成为主流的商业经济模式。
国
内的电子商务网站淘宝网由阿里巴巴于2003年7月建立,在不到3年的时间里,就成为了亚洲最大的电子商务网站。
截止到2008年底,淘宝网注册会员达到了
9800万人。
如图1.1所示,导致电子商务迅猛发展的主要原因有以下几个方面:
1、网络用户的大幅增加,为电子商务提供了广泛的客户来源。
根据《第23
次中国互联网络发展状况统计报告》【2】’截至2008年年底,我国网民已经达到2.98
亿人,比2007年增长了41.9%,互联网普及率也达到了22.6%;
其中网络购物用户人数已经达到7400万人,年增长率为60%。
2、客户在电子商务上购物,不出门,便可以享受网络购物带米的便捷和快乐。
3、电子商务网站节省了传统经营模式下的经营店面、营业人员和仓储没施所必需成本投资。
4、电子商务的进入和退出成本降低,规避了投资风险,即使企业因经营不利而退出电子商务,损失也不会很大。
5、传统的店面具有商品陈列的限制,而电子商务消除了这个界限,可以为客户提供一个无限大的商品陈列空间。
图1.1电子商务迅猛发展原因剖析
1.1.2数据仓库在电子商务应用的必要性
电子商务的迅猛发展,引起了企业界的广泛关注,电子商务越来越受到企业的青睐。
同时电子商务在运行过程中产生大量的数据,包括网络客户注册数据、电子商务提供的商品数据、网络客户的消费行为数据等。
如何对这些数据进行处理,如何从这些数据中获取知识,了解顾客的消费行为,为企业的决策提供支持,
对企业的发展来说至关重要。
数据仓库技术与传统的数据库技术相比,具有以下优势:
1、传统的数据库技术,对电子商务过程中产生的数据应用仅仅局限于简单的数据处理与存储,无法有效的利用这些数据或信息为管理者制定决策提供重要参考和依据。
2、传统数据库技术无法实现数据的分类、合成以及深层次处理等功能。
3、电子商务围绕决策的主题组织数据,并利用历史数据做决策时,这些是
2
传统数据库技术无法满足和实现的。
4、数据仓库技术能够实现把决策者需要的主题信息从原始的操作型数据中提取出来;
同时实现把难以访问的、分散的原始操作型数据经数据消噪、数据集成、数据转换等处理后转化成随时可访问的、主题集中的信息。
数据仓库技术能够对数据信息实现全面、高效、合理的管理。
因此,研究数据仓库技术并将其应用于电子商务系统中对电子商务的发展将起到至关重要的作用。
1.1.3数据挖掘在电子商务应用的必要性
电子商务网站为顾客提供了丰富的商品,但是电子商务网站又没有传统营销
模式下的销售员进行个性化的导购。
这样导致客户无法在短时间内迅速的定位到
自己所需要的商品或自己感兴趣的商品,使客户面临严重的“信息超载”(informationoverload)[31现象。
在这种状况下客户难免会浏览大量不相关的信息,从而导致使客户产生购物疲劳甚至失去购物兴趣而离丌,造成客户流失和企业的损失。
因此,挖掘客户的购买行为,对客户进行分析,为客户推荐其感兴趣的商品势在必行。
电子商务在运行当中会产生大量的数据,这些数据为电子商务进行数据挖掘提供了基础。
在电子商务中进行数据挖掘具有以下便利条件:
1、收集信息的便利性,通过网上购物系统可以很方便的获取客户的注册信
息并记录客户的交易行为;
通过web使用日志可以获取客户的浏览行为。
如客户浏览了哪些页面,浏览路径是什么,客户将哪些商品放进了购物车,又有哪些商品最终购买。
2、电子商务系统收集信息的准确性和完整性,电子商务中大多数数据都是通过系统自动的收集,这样可以大大减少手工收集数据产生的错误。
3、在电子商务系统的基础上实现数据挖掘相对较为容易。
电子商务系统具
有较高的自动化、网络化和信息化,这些特性使数据挖掘系统容易和电子商务系
统进行结合。
基于客户的需求、企业的需求以及电子商务本身进行数据挖掘的优势,我们认为基于电子商务的数据挖掘足必要的,而且是可行的。
3
1.2电子商务推荐系统研究现状
目前,很多大型的商务网站已经开始使用电子商务推荐系统,如新浪商城
(http:
//mall.sina.com.饥)、网易商城(http:
//mall.163.eom)、eBay(http:
//www.ebay.eom)
等。
随着电子商务推荐系统的广泛应用,电子商务推荐技术也成为目前研究的热
点。
目前,国内外的大量专家、学者对电子商务推荐技术已经开展了大量的研究。
Pennock从社会选择理论(social
choice
theory)14],Yager从模糊集(fuzzyset)
【5】、making)
【6】的角度对其进行了剖析;
lijima等人多准则决策(multi—criteria
decision
Nasraoui等人通过对客户访问模式进行聚类的方法预测客户的未来访问行为【.刀;
Schechter等人以客户的访问路径为研究对象,预测客户未来可能的请求,并让代理服务器执行预提取操作,将相关web页面放入到Cache中,从而提升了客户的访问速度【81。
另外电子商务推荐系统已经开发出来的还有SiteHelper系统【91、
Footprints系统‘101、AVANTI系统【ll】、WebWatcher系统【12】等。
协同过滤(CollaborativeFiltering,CF)被认为是电子商务推荐技术中应用最广泛的、效果最好的推荐算法。
但是协同过滤算法也存在着诸如客户评分数据稀疏性(sparsity)、首次访问客户冷启动(cold.start)、算法的可扩展性(scalability)等问题f13】。
1.3创新点及组织结构
1.3.1主要创新点
本文在大量的电子商务数据挖掘研究和电子商务推荐系统研究的基础上,结
合电子商务目前研究的热点以及电子商务推荐系统中遇到的瓶颈问题,提出了基
于数据仓库和数据挖掘的电子商务推荐系统,主要创新点为:
1、构建了电子商务数据仓库的事实星座模型,将数据仓库技术和数据挖掘技术结合起来应用到电子商务中,为电子商务推荐系统以及电子商务数据挖掘提供面向主题、规范的数据。
2、本文基于协同过滤算法,提出了个性化的电子商务推荐系统,主要包括面向客户的模式挖掘和面向客户的协同过滤。
针对不同的客户采取不同的模式挖
4
掘方式,并根据客户的不同将协同过滤算法进行降维处理,为客户提供个性化很强的推荐服务,提高推荐质量。
1.3.2论文组织结构
本文以数据仓库在电子商务中的应用为基础,以数据挖掘技术为理论依托,以提供个性化服务的面向对象的电子商务推荐系统为研究重点,展开论述。
第一章为绪论部分,主要介绍了本文选题的意义,目前研究现状。
第二章重点介绍了数据仓库技术的特点、发展趋势、数据仓库在电子商务中的应用模型,介绍了电子商务环境下数据的清理、转换、集成、装载等技术,为数据挖掘提供数据支持。
第三章对数据挖掘技术在电子商务中的应用进行了阐述,提出电子商务推荐
系统的系统结构及关键技术,重点介绍了关联规则和协同过滤算法,为面向客户
的电子商务推荐系统提供技术保障。
第四章基于协同过滤算法提出个性化的电子商务推荐系统,针对不同的客户
采取不同的推荐算法,并提出面向客户的协同过滤算法,并进行了论述和实验验证。
第五章是总结与展望部分,总结了本文的主要工作,对未来工作进行展望。
第二章数据仓库技术
2.1基于电子商务的数据仓库系统模型
图2.4基于电子商务的数据仓库系统模型如图2.4,基于电子商务的数据仓库系统主要包括数据处理、数据集成与装载、提供分析处理服务三个部分。
原始数据经过数据抽取、数据转换、数据清理、数据集成、数据装载等环节存入数据仓库,并为数据挖掘提供数据支持和保障。
数据仓库在电子商务数据挖掘中起到承上启下的作用。
2。
2电子商务数据挖掘的数据源2.2.1数据来源
电子商务的数据源主要存储在客户数据库、商业数据库以及Web使用日志中,
这些数据源主要包括以下几种㈣:
1、客户注册信息,如客户的姓名、年龄、性别、所在地、职业、收入状况等信息。
在数据挖掘中,客户注册信息要和访问日志、客户评分等信息进行集成,
6
便于更进一步了解客户需求,以提高数据挖掘的准确度。
2、存储在传统关系数据库里的有关电子商务的商品信息、商务站点信息、客户交易数据、购物篮数据、客户对商品的评分数据等。
3、客户端的访问请求信息。
4、电子商务网站服务器上存储的客户浏览日志。
客户访问电子商务网站,
便会在服务器上留下记录,这些客户浏览记录可分为查询数据和web同志文件【15】
【16】【l
7】,其中web日志文件包括errorlogs、cookie
error
logs、serverlogs。
logs:
logs为请求失败的数据,包括超时,授权失败,丢失连接等。
cookielogs:
Cookies记录客户访问服务器的信息。
其中服务器上存储的cookie部分是
cookielogs,Cookielevel”。
Serverlogs:
logs包含的内容有:
“name,pathexpiry,date,domain,security
Serverlogs按照两种格式进行存储【181,普通日志文件格式CLF(CommonLog
Format)格式或扩展同志文件格式ECLF(ExtendedCommonCLF包含“Date,Username,Client
Log
Format)。
其中
IP,Server,Bytes,Request,Status,Service
name,Protocolofversion,Time,Useragent,Cookie,Refen'er'’客户访问电子
商务网站的信息内容。
ECLF包括以下数据域:
IPAddress,也就是发出请求的客户的IP地址;
Time/Date,为服务器端收到客户请求的时间:
Method/URL/Protocol,
即客户请求的方法、请求的URL以及使用的协议。
URL可以是一个静态文件,
也可以是在应答时需要调用的可执行文件的名字,即URL地址。
URL地址包括以下信息:
Status,即对客户请求的应答返回码;
Size,即返回的字节数;
Referrer,即当前URL的引用页;
Agent,即客户端使用的操作系统或浏览器软件。
5、查询数据查询数据是电了商务站点在服务器上产生的数据。
如客户搜索某种商品或某
些广告信息,这些信息通过cookie或者客户注册信息连接到服务器的访问日志
卜。
7
2.2.2数据源分类
根据数据的来源形式,可以将数据源分为显式数据和隐式数据。
显式数据指
客户直接给出的自己的偏好信息,如典型的客户对商品进行等级评价的数据。
显示数据的针对性较强,数据的可用性较大。
但是显式数据比较难获取,因为大多
数的客户可能因为隐私而不愿给出自己的偏好信息,另外对商品进行评分也会增加客户的负担。
隐式数据指的是客户以一种隐蔽的方式表达自己的兴趣偏好,通常这种偏好
反映在客户网上浏览或购物的过程中所表现出自己的兴趣偏好。
如客户对某商品比较感兴趣,便会在在商品的页面上浏览时问较长。
以隐式数据为研究对象的电
子商务推荐系统能自动获取数据,一般不需要客户人为地给出自己的偏好信息。
但是,这种方法对数据处理技术要求较高,要进行大量的处理才能转化为对决策
者有用的信息。
2.2.3原始数据处理
1、数据抽取电子商务数据抽取是指在电子商务系统中,提取与电子商务决策相关数据的
过程。
由于电子商务的数据挖掘具有较强的动态性,所以电子商务数据仓库需要
增量的从客户数据库、商业交易数据库和Web使用日志中提取数据。
客户数据
库的信息主要记录客户的相关特征,如客户名、客户ID、年龄、性别、职业、收入、学历、电子邮件、联系方式和家庭住址等,这些数据可以从客户登记信息中或从电子商务网站的注册页面中获得。
但是,对于未注册的客户很难获取该类
信息;
商业数据库用来记录客户进行商品交易的数据,包括客户ID、客户名、交易时间、交易商品名称、交易商品数量、交易商品价格、销售地点等信息;
Web使用R志数据记录客户对电子商务站点的浏览访问行为,通常以CLF、ECLF两种日志格式进行存储信息,与电子商务数据挖掘相关的信息主要包括客户IP地址、请求域、状态域、代理域、引用域、大小域和时问戳信息。
2、数据转换与消噪经过数据抽取后的数据大多是含噪声的(错误的或偏离期望的孤立点)、不
完整的(有些感兴趣的属性缺少属性值,或仅包含聚集数据)或不一致的数据。
这些数据很难直接应用于电子商务决策支持和电子商务推荐系统中,这就需要我
们对这些数据进行转换和消噪处理,将其转变为适合电子商务数据挖掘和模式发
现的数据形式。
在电子商务数据仓库的数据处理中,客户数据文件、商业数据库的数据转换和数据清理工作较简单,可以采用分箱、聚类、计算机和人工相结合、
回归等方法,已有的论述也比较多,本文不再进行介绍,本文介绍的重点是Web使用日志中的数据转换与数据清洗【20】:
数据清洗。
数据清洗是指消除数据中的冗余和噪声,清除与电子商务数据挖掘任务无关的客户访问日志记录。
由于客户对电子商务Web服务器进行请求,需要每个文件都形成一个连接,这样客户向电子商务网站请求的一个页面中包含多个文件,就需要进行多个连接,同时也在电子商务服务器同志上形成了多条记录。
首先,我们需要进行相关识别工作。
(1)通过状态域识别出的客户请求失败的访问记录;
(2)通过检查robots.txt文件或检查代理域,识别出网络爬虫(Crawler
OI"
Spid哪和搜索代理(Agent)等对电子商务网站进行访问的记录【20】;
(3)识别出文件后缀名为zip、jPg、jpeg、gif,cgi、jS的访问记录。
我们可将服务器日志文件中后缀为西f,jPg,jpeg和map的记录项删除;
将请求失败的记录删除。
以一个Web日志数据为例,Web日志数据包括以下几个部分:
210.26.51.39-[07/May/2009:
00:
oo:
oo+0000】ftGET/lzusdh/notice.html
HTTP/1.0200”304”http:
//www.tuanwei.1zu.edu.cn/”Mozilla/4.04”
对以上WEB同志数据进行解读:
IP地址为210.26.51.39;
访问时间为“07/May/2009:
00+0000”;
状念“GET”;
请求网址为“/lzusdh/notice.html”;
协议为“HTTP/1.0200”;
状态为“304”;
参考页面为
“http:
//www.tuanwei.1zu.edu.cn/”;
代理“Mozilla/4.04”。
去掉对电子商务数据挖掘无关的信息,经过数据清洗、数据转换后,将数据存到如表2.1结构的数据表中。
表2.1WebLog表
序号字段名中文名数据类型备注
9
1234567
itemkey
user_keysessionko/ip_addressvisittimevisit_uflrefered
索引客户ID客户会话ID客户口地址访问时间访问URL参考页面
Ch缸20)
Char(50)Char(50)Char(30)Chat(60)Char(60)
外键外键外键
■●■■●■■■■■■■■■■■■●●■■■■■■■■一
§
!
gI朗t
3、客户识别
客户识别主要有两种方式:
一种是通过客户的注册登记信息进行识别;
一种是通过客户的IP地址进行识别。
通过客户的注册登记信息进行
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 CF 个性化 电子商务 推荐 系统 研究