论文 RFID数据分析进展.docx
- 文档编号:716248
- 上传时间:2023-04-29
- 格式:DOCX
- 页数:12
- 大小:29.43KB
论文 RFID数据分析进展.docx
《论文 RFID数据分析进展.docx》由会员分享,可在线阅读,更多相关《论文 RFID数据分析进展.docx(12页珍藏版)》请在冰点文库上搜索。
RFID数据分析进展
摘要:
首先介绍了RFID数据分析的发展和价值,然后探讨了在零售、边检、物流、医疗等多个行业中,数据追踪回溯、频繁路径挖掘、物化规则衍生、复杂事件处理等典型RFID分析的进展,并指出了数据管理、数据处理和数据应用等分析工作中存在的难题和解决办法,最后总结了RFID数据分析工作未来的难点。
关键词:
无线射频识别;数据分析;供应链管理;物流管理
ResearchontheDevelopmentofRFIDDataAnalysis
Abstract:
Firstly,thedevelopmentandvalueofRFIDdataanalysiswasintroduced.Then,recentprogressofsomepopularresearchtopics,includingdatalineage,frequentpathmining,materializationofrule-derivedandcomplexeventprocessing,werediscussedinretail,quarantine,andlogistics.RFIDdataanalysiswasdividedintothreesteps,datamanagement,processingandapplication,andtheproblemsexistingineachstagewereanalyzedindetail.Finally,theresearchissueswerealsosummarizedforfurtherresearchinRFIDdataanalysis.
Keywords:
RFID; dataanalysis; supplychainmanagement; logisticsmanagement
0引言
人们对无线射频识别技术(RadioFrequentIdentification,RFID)的研究,在第二次世界大战时期就已经开始[1]。
进入21世纪,无论是RFID标签的尺寸还是成本都在不断下降[2]。
可以预见,在不久的将来,每个移动的物体都可以被标记。
目前,RFID已广泛应用于物流跟踪、国防军用、邮政服务、航空航天、医疗保健和区域定位等诸多行业 [3-7]。
对于大量频繁移动的物品,RFID系统可以自动记录其轨迹,再对记录的数据进行分析,实现产业链中物品的有效监控和追踪,掌握实时信息,预测物品走向。
RFID
最终将形成集数据采集、传输、处理和业务管理于一体的整套无线综合应用解决方案,为下一代物联网
(InternetofThings,IOT)实现产业化奠定基础。
RFID应用提高了效率,也给RFID数据分析工作带来了许多新的难题。
首先,RFID的应用产生了海量的数据。
Wal-Mart三天所产生数据量就等于整个美国国会图书馆的数据量。
如此庞大的数据还必须在短时间内进行分析、管理和应用[8,9]。
其次,从应用中获取的RFID数据最大特点是包含了对象的时间和空间属性,若能有效地结合其时空属性,将会使RFID数据分析的深度超越传统意义的数据挖掘[10]。
但独特的结构使RFID数据很难通过传统的数据挖掘工具直接进行处理,还需要通过一些数据预处理,这是当前RFID数据分析所关注的焦点之一。
此外,RFID应用的特点决定了数据必须实时传递,而传统数据仓库定期计算、脱机计算的方法无法满足RFID数据使用和存储的实时性要求,因此研究适合RFID
复杂数据分析的技术和方法,以提高分析的速度和效率,这对RFID数据分析提出了许多新的挑战。
本文首先介绍了RFID数据分析在柔性管理、模型优化和自动管理等典型领域的应用,然后对零售、边检、物流和医疗等行业应用中常见的RFID数据分析难点进行了探讨,分析了当前RFID数据分析的进展,并讨论了RFID数据处理流程各阶段研究的现状,最后总结了目前RFID数据分析存在的主要问题和发展方向。
1RFID数据分析的价值
使用RFID可以节省大量的劳动力,企业不再需要使用很多员工进行机械、低效的物品扫描工作。
而使用RFID数据分析工具,对这些实时信息进行处理,就能找出内在规律,进一步帮助企业提高管理效率,调整或完善业务流程。
1.1管理柔性供应链
供应链管理近年来开始向着柔性的方向发展,以适应不断变化的业务需求。
RFID数据分析可以有效地得到预测数据与实际数据的差异,根据实际需要动态修正模型,实现供应链的柔性管理。
2006年,HectorGonzalez对RFID数据进行分析后,提出了两个观点:
首先,只有少数项目会偏离整体趋势。
其次,非冗余的异常才有价值[11]。
以零售行业为例,货架库存管理是至关重要的业务。
通常商店里每个货架都要对应一些备用库存,如何有效地降低库存量,直接提高商店盈利。
利用RFID技术,可以实现自动追踪货架存货。
一旦货架上的货物数量低于阈值,就自动提供进货订单,并立即提交给门店经理或供应商。
而阈值是需要根据实际情况动态调整的,经过挖掘后所获得的异常往往是阈值修正的重要依据。
也就是说,通过RFID数据分析,可以即时捕获实际情况与设计的差异,为供应链的管理者提供反馈,尽快适合环境的变化,从而实现供应链的柔性管理。
1.2优化数据模型
合适的数据模型会直接提高数据分析的效率。
RFID应用的关键在于动态观测和记录数据状态的变化[12]。
因此,对RFID数据进行管理,需要建立适应变化的数据模型。
Hector和HanJiawei在华盛顿数据工程大会上初步讨论了物品在供应链中的移动特点,即在移动的初期,物品以包的形式一起移动,并指出RFID数据记录的是物品移动的原始信息,而分析人员常常使用抽象后的路径信息[10]。
根据上述观点,RFID数据仓库会频繁地与抽象层进行数据交互,提高访问性能和降低RFID数据冗余的关键就在于运用合适的路径选择和位置记录的优化方法。
文献[13]由此提出了一种为商品流建立数据仓库的方法FlowCube,使用路径信息作为度量,提高了处理移动物品的效率。
1.3自动管理
12
RFID可以使整个供应链中物流可见,从而减少人力成本,而利用RFID数据分析可以在供应链可见的基础上实现部分自动管理,为企业赢得竞争优势。
例如,在传统的仓库管理流程中,由于盘点误差或库存损失,库存系统计数与实际存货量往往并不相符,这使得零售商难以决定是否补货,只得耗费大量人力进行经常盘点。
Wal-Mart采用RFID技术后,大幅降低了该流程的成本,使定期清点库存可以很容易完成。
进一步地,Wal-Mart对获取的RFID数据进行分析,以便对常规库存量、补货频率、存放位置等供应链系统中的参数进行自动修正或优化,帮助企业提高供应链管理的效率。
2RFID数据分析的典型应用
在RFID的实际应用中,人们已经不满足于单纯读取标签信息,如何有效地使用分析工具和方法,从RFID数据集中挖掘出内在关联和规律,成为人们关注的热点。
目前RFID的各种数据分析已在多个行业得到了初步应用。
2.1零售仓储
零售业是当前RFID应用最为广泛的行业之一,产生的难题也最多。
2.1.1货物管理
对于在仓库内经常移动的货物,因为难以确定合适的空间粒度,导致货物经常被重复读取。
Jeffery发现这个问题可以通过对RFID数据进行统计性平滑解决。
在实际应用中,物品并不单独存放,而是会以整体形式出现在托盘上或包装箱里,利用读取容器位置的方式来确定物品位置,会提高RFID应用的可靠性[14]。
使用ESP(ExtensibleSensorStreamProcessing)方法可以大量减少重复读取,但在滑动窗口机制下的
窗口大小却难以合适设定。
文献[14]中采用预测(Prediction)的思想,对此提出了SMURF方法,先采用抽样的方法找到合适的时间窗口大小,然后再对清理后的RFID数据流进行过滤。
与传统方法不同,
SMURF方法并不固定窗口参数,而是不断根据观测的读数,持续动态地调整窗口大小。
2.1.2盗窃检测
盗窃检测是复杂事件处理的典型问题。
文献[15]中以货架实验为例,发现小偷从货架上拿走了货物,将其带出商店却没有被检测出来,说明了事件处理方法的不足。
在这个事例中,必须解决触发事件和非触发事件,设定事件的时间限制(滑动窗口查询),以及基于值的约束等问题。
Wu等人针对这类问题,提出SASE作为支持复杂事件处理查询的表述语言[16]。
为了执行复杂事件的语言,需要有一个底层语言模型的数据结构。
对不同的数据结构已在不同领域进行了讨论,例如XML的过滤、发布与订阅以及数据库扩展的问题。
相应地,可以将其分为以下不同的问题:
基于自动机[15,17,18]、基于Petri网[19]以及树
与图的方法[20,21]。
为解决实时的复杂事件处理查询,在文献[17]中,Altinel等人提出使用独立有穷状态机(FiniteStateMachine,FSM)的XFilter方法。
每执行一次查询和索引,就让所有的FSM同步执行。
他们使用SAX方法,类似于关系查询优化,减少中间结果,将每个事件序列进行编码形成文档,并作为对XFilter系统的输入,在底层以流水方式计划执行[22]。
随后Diao等人提出了改进的YFilter,将所有的FSM合并成一个非确定有穷自动机(NFA)[18]。
YFilter在时间和内存利用率等方面,性能显著提高。
在复杂事件处理中,最容易在SASE中被忽视的关键概念就是时间。
许多RFID应用只有在事件或时限之内发生,才被视为有效。
此外SASE认为,所有的事件完全由时间戳命令,这种假设是不合适的[16]。
RFID的情况不同,为了解决上述这些问题,文献[23]建议使用基于时间的自动机产生的过滤器,定时自动分配一个计时器,使每一个自动机得以过渡。
通过使用时间自动机从一个状态过渡到另一种状态,只有当所分配的每个过渡时钟值相符,且传入的事件发生时,才能满足时序约束。
每次的过渡,可以定时自动重新分配一个新的时间价值。
因此,在基于时间的自动机应用中,系统应该控制其时钟过于频繁的变动[24]。
RFID应用调动大量的时钟,因此非常复杂。
RFID分析技术在零售行业中类似的应用还有很多,从仓库管理到自动盘点,从智能补货到防盗检测,需要多种数据挖掘方法进行分析。
2.2边境检查
当前对RFID数据进行分析的方法很多,在安全管理领域、边境管制和国土安全应用都需要对有效
数据进行分析,通过查询异构数据源,旨在为信息决策者提供数据的提取和融合,是通用的决策辅助方法[25]。
2.2.1异常捕获
LiXu为RFID数据的联机分析处理(OLAP)提供了一个有用的工具[26]。
而在前文所提到的FlowCube
中,每一个独立的元组被称为flowgraph,这是一个树型结构的结点,记录其通往其他结点的概率。
建立
flowgraph的算法首先要遍历所有结点获得路径和时间信息,然后计算频繁路径以检查是否出现了异常[11]。
基于“智能边境”的概念,该系统利用来自不同机构,例如港口和海关部门的现有数据,对捕获的异常
进行针对性分析,并检测各种与申报标志不相符的到港货物或异常行为,利用决策树分析设定警报的组
合,并实现不同政府机构之间的安全互操作。
2.2.2数据回溯
在边检、海关等检查过程中,每天都会捕获大量异常或查获大量问题数据,并且对数据追溯的速度和精度要求都很高。
在传统应用中,数据追踪是数据挖掘的难点之一,回溯信息来源是困难,甚至是不可能的。
数据源可能无法访问,可能代价昂贵。
现行的条码体系无法解决历史数据追踪问题,但RFID
的时空属性为解决上述难题提供可能。
文献[27]使用辅助信息(auxiliaryinformation)表示视图定义中的某些中间结果,作为辅助信息,可以减少或完全避免数据源访问的跟踪查询。
在RFID数据仓库中,存在大量跟踪和追踪个别项目的查询需求,并且需要在合理的反馈时间内处理这些底层数据(细粒度)查询[10,13]。
因此,相对于传统数据仓库,RFID的数据追踪问题更为重要。
然而到目前为止,还没有文献对通过挖掘大量数据以获得个体标签物品路径的问题进行讨论。
一种可能的解决方法是使用辅助信息数据集,采用OLAP方法,寻找被查询个体的信息源,这样可以绕过对海量路径信息的挖掘[27]。
然而,在
RFID环境下定义辅助信息数据集也会有相应的操作问题,例如为实现可行的数据追踪,信息数据集的
大小如何界定等。
2.3运输管理
在物流应用中,当前最为关心的是如何优化运输路径和如何利用知识库进行交通预测。
文献[28]提
出了一种道路动态模型,首先建立路径编码,再通过鉴别大量道路网络的交通异常特征,在观察到的路径或速度最优的基础上,结合历史交通数据库,提供适合当前交通条件下的路径建议。
2.3.1路径挖掘
传统道路模型中,多采取先提取路径信息,再挖掘频繁路径的方法寻找最优路径。
文献[29]中,胡孔法等在路径编码的基础上加以改进,基于Apriori的改进算法GSP(GeneralizedSequentialPatterns)和
PrefixSpan算法,提出了通过直接有挖掘频繁路径编码来有效地挖掘频繁路径的方法,其核心思想是从短路径开始遍历,然后逐渐增加路径长度,直至遍历整个数据集内全部路径,从而获得频繁路径。
这样可以降低算法的复杂度,提高算法的效率[29]。
此外,在物流应用中,利用数据分析所得出的结果,还可以进行异常识别以判断路线情况,或进行路径优化,进一步减少交通拥塞,提高安全性,并提供更好的
交通预测和道路运输信息网络。
2.3.2规则衍生
物品追踪方法也日益得到重视。
但由于推理规则的不确定性,RFID数据规则衍生可能不会持续。
例如在供应链中的某一结点,系统显示某包裹丢失,则可能是由于阅读器故障,导致无法读取。
也可能是运输过程中包裹丢失或被盗。
在这种情况下,就需要对传输历史路径和具体的推理规则进行分析,选择最佳的推理规则集实现,以便发现问题。
传统专家系统中物化的规则衍生在文献[30]中已有讨论。
Segev等人提出关系选择物化,使加工推理规则的整体成本降到最低,同时满足对查询响应时间的要求。
回溯的推理规则和个体的历史路径,与传统数据仓库中的数据追踪问题密切相关[9]。
利用数据追踪方法,寻找不确定数据的来源在文献[31]已被讨论。
因此,利用血统追踪方法,为不确定性推理规则寻找适当的推理规则设置成为一个有趣的问题。
推理规则物化方法(InferenceRuleMaterialization,IRM)与概率视图存在很多相似的特性[31]。
2.4医疗管理
医药和医疗器械管理近年来逐步开始采用RFID技术。
目前医药行业的应用还较为有限,主要局限于药物和器材的管理,需要建立相应的数据仓库。
但传统数据立方体会导致RFID路径信息丢失,为了建立海量RFID数据集的基础数据仓库,并在数据仓库中进行初步的数据分析,HectorGonzalez用分类的方法进行了初步讨论,在文献[13]中提出了为商品流建立数据仓库的方法FlowCube,它将物品的属性分成了非路径信息和路径信息两个部分,使用路径信息作为度量,可以用来处理移动物品。
行业内流行的RFID数据压缩方法大都是通过分析时间或位置的变化,引入新的数据结构(EPC; location; time_in;time_out),对RFID数据集进行初步压缩[10,13]。
然而这样的处理只能对基础数据进行约减,FlowCube中的路径信息没有压缩,所以信息量依然很大,在进行数据分析时要同时考虑路径信息的多个参数,难以建立高效挖掘算法。
2.5公共管理
近年来,公共区域的自动识别逐渐开始使用RFID技术,其核心在于利用RFID数据的实时性,通过不断挖掘关联规则,采用在线分析方法对RFID基础数据进行异常处理。
2004年,美国亚利桑那州实行了基于RFID技术的居民报警管理系统,处理包括公路交通事故拥堵、燃气输送管道泄漏以及公共道路行人死亡等诸多事件。
这个系统支持美国国家事故管理系统(NIMS)和美国应急反应计划(NRP)协议。
利用XML数据交换格式、通用警报协议(CAP),通过用户友好的语义扫描线性统计(LS3)方法,对信息进行关联性分组,标识显示模块最近的轨迹,反映了有关的具体事件发生异常的窗口[25]。
随着RFID数据分析的发展,RFID数据分析会在更多的领域得到广泛应用。
3RFID数据分析存在的问题
RFID数据分析一般分为几个阶段:
数据管理、数据处理和数据应用。
(1)在数据管理阶段,需要将阅读器读取的数据,进行清理和汇总,然后按照已建立的数据模型,生成数据集。
这个阶段主要处理阅读器和标签相互作用产生的简单对象事件流[20]。
(2)数据处理阶段将获得的RFID数据与企业应用关联起来。
这个阶段是当前研究的重点,对数据流进
行多维分析或者数据挖掘,对复杂事件进行监测、预测。
(3)应用阶段把RFID数据处理后的结果具体应用,指导决策。
3.1数据管理阶段所存在的问题
RFID阅读器获取的数据流不稳定,是限制RFID广泛应用的因素之一。
在数据管理中,通常需要面对三种形式的数据:
错读数据、非信数据和冗余数据。
传统数据仓库的清理工作是一个脱机、反复的过
程,但由于RFID应用的时效性,要求数据在上传应用层之前必须得到处理,因此在RFID数据仓库中,如何纠正这些数据尤为重要。
当前RFID阅读正确率在60-70%之间[32]。
业界往往采取两种办法提高读取正确率:
一种是通过重复读取来弥补,但会造成数据冗余。
另一种是根据具体情况,适当地改变业务流程,但无法保证普适性
[14]。
非信数据是RFID应用中最常见的错误。
文献[14,33,34]对于如何界定、纠正此类数据进行了详细的探讨。
2006年,Jeffery等人采用滑动窗口机制,对单个RFID标签进行跟踪,可以解决大部分漏读和错读的问题,但仍然遗留一些问题无法解决,例如对于在仓库内经常移动的货物,难以确定合适的空间粒度,避免重复读取。
在滑动窗口机制下,窗口大小难以合理设定[14]。
冗余是在RFID系统中难以解决的问题,通常存在两种层面的冗余:
阅读器层面和数据层面。
前者
是因为RFID标签反射碰撞所产生的,可以通过硬件上的RRE算法解决。
但RRE算法的设定条件是标签位置在一定时间之内持续不变,这对于供应链并不完全适用。
后者的冗余主要是因为RFID数据量往往很大,读取频率偏高引起。
解决方法是为阅读器设置缓存区,只将移动的物品信息提交上一层[35]。
3.2数据处理阶段存在的问题
经过数据预处理后,RFID数据映射到信息抽象层,以更容易管理的形式,为企业应用提供合适的数据集。
其中把底层初始化后的简单RFID数据转化为符合商业应用逻辑的格式化数据,也许是RFID数据处理过程中最具挑战性的问题之一。
因此,不同层次的数据最终在基础数据上集中实现[9]。
推理规
则与基础数据的整合,以及复杂事件检测的应用,可以将RFID数据管理系统变成一个实时互动的系统。
例如,在供应链管理中,系统可以更加准确地追踪物品,一旦给定的推理规则得到满足,系统就能自动采取适当的行动实现智能选择。
3.2.1如何设定推理规则
在线查询和快速查询是当前RFID应用迫切需要解决的问题。
Chawath提出了推理规则物化方法
IRM能够降低查询的反应时间[9]。
在核心数据仓库中,收集的原始数据流可以共享并按功能分类仓储。
但由于RFID数据的特性,与基于传统数据仓库的物化视图维护(materialized-viewmaintenance)和基于
传统专家系统EDS物化规则衍生(materializationofrule-derived)比较[30,36]。
IRM在推理规则的不确定性和数据更新的频繁程度等有显著的不同。
3.2.2如何追踪历史数据
一般来说,数据的体系是由整个历史进程组成的,包括它的起源以及后续应用[37]。
数据追踪(data
lineage),有时也被称为“血统追踪”,已经在一些领域受到人们的重视,例如数据仓库、科学数据库、网络监控、查看数据库的更新和可视化[27,38,39]。
当前RFID数据仓库集成了本地数据库物化视图下不同
来源的数据,并在当前RFID数据源的变化时保持视图内容最新。
用户查询的大部分数据都是汇总数据,但对个体视图,往往不能提供足够的信息,也就是说难以追踪RFID数据源[27]。
目前这个问题还很少有人研究。
3.2.3如何实现事件处理
RFID简单事件和复杂事件的获取是在数据预处理阶段完成的。
阅读器与物品标签的关联就是一次简单事件[20]。
一般来说,阅读器的大量布设,会在短时间内生成大量的复杂事件,为了检测更复杂的事件,需要在在语义层采取适当的终端应用,过滤和关联数量庞大的简单事件。
为此,可以把复杂事件作为一个简单事件的连续查询组。
对复杂事件的进程建模,需要定义一种语言,使之能够过滤和关联事件
[40]。
由此,诸如发布与订阅、流处理(stream processing)和复杂事件的语言(complex event
languages)等应运而生[21,41,42]。
但在检测RFID事件时,上述语言都有明显缺憾。
4RFID数据分析的难点
RFID数据分析的发展趋势是挖掘更为复杂的路径和流程模型,同时算法的精度更高且复杂度更低。
当前研究中,理论和实践层都有不少急需解决的问题:
(1)模式评估
这一问题分为两个层次,评估RFID数据分析框架是否正确,挖掘出的关联规则是否正相关。
进一步地,针对特定用户,判别所发现的模式是否有新颖性。
(2)并行、分布和增量挖掘
RFID数据库的巨大规模、数据的广泛分布和挖掘算法的计算复杂性促使开发并行和分布式数据挖掘算法。
如何合理划分数据并整合结果是有待研究的问题。
(3)结合动态行业知识
在分析过程中提供合适的用户交互方法,将用户的领域知识与挖掘方法相结合,可以有效减少分析模型错误。
同时,使用物流、零售或其他实践应用的知识或信息来指导发现过程,会使得发现的模式以简洁的形式在不同的抽象层表示。
如何提供用户交互方法,将用户的领域知识与数据分析方法相结合也是必要的。
除此之外,RFID分析在供应链管理、零售管理以及资产管理等领域,还存在一些问题,如数据难以回溯、事件处理语言作用有限、复杂事件难以实施反馈等,需要借鉴其他研究领域的成果,进一步探索解决。
5结论
本文对RFID数据分析的发展进行了回顾并分析了数据分析的价值。
在此基础上,根据RFID数据分析的应用领域总结了现有的研究成果。
目前的研究以讨论RFID数据分析在不同阶段、不同应用中所产生的相关问题为重点。
尽管RFID数据分析取得了初步的进展,但仍然存在若干尚未解决的问题。
随着RFID应用更加广泛,RFID数据分析将综合
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 论文 RFID数据分析进展 RFID 数据 分析 进展