INFORMATICA 使用帮助文档格式.docx
- 文档编号:6301674
- 上传时间:2023-05-06
- 格式:DOCX
- 页数:25
- 大小:38.98KB
INFORMATICA 使用帮助文档格式.docx
《INFORMATICA 使用帮助文档格式.docx》由会员分享,可在线阅读,更多相关《INFORMATICA 使用帮助文档格式.docx(25页珍藏版)》请在冰点文库上搜索。
1.2Designer的使用
首先连接Repository,可以看到该Repository在RepositoryManager中创建的文件夹。
1.2.1Sources
Sources文件夹下的表是抽取的来源表。
导入方法:
选择Tools菜单下的SourceAnalyzer,然后选择Sources菜单下的Import
fromdatabase,连接想要连接的数据库,连接上后选择你要抽取的表点击ok你所选择的表就会出现在Sources文件夹下。
说明:
上面的导入过程导入的只是表结构,你也可以自己创建来源表,只要你创建的表
的结构跟真实存在的那张表的表结构一致就行。
1.2.2Targets
Targets文件夹下的表是抽取的目标表,也就是抽取结果的存放表.
导入方法:
选择Tools菜单下的WarehouseDesigner,然后选择Targets菜单下的Importfromdatabase,连接想要连接的数
据库,连接上后选择你要抽取的表点击ok你所选择的表就会出现在Targets文件夹下。
上面的导入过程导入的只是表结构,你也可以自己创建目标表,只要你创建的表
1.2.3Mappings的设计
选择Tools菜单下的MappingDesigner才能进行Mapping的设计。
每个Mapping都由来源表,transformation和目标表组成,描述数据抽取的过程。
来源表和目标表可以从Sources和Targets
文件夹拖拽到工作区,但是transformation一般来说是需要自己创建的。
Mapping的设计关键是transformation的使用,它的使用关
系到数据抽取的正确性和效率。
下面说明各个transformation的作用和用法。
(Active:
表示该transformation可以改变通过它的数据的行数;
Passive:
表示该transformation不改变通过它的数据的行数;
Connected:
表示该transformation要连接到数据流;
Unconnected:
表示该transformation可以不连接到数据流)
1.2.3.1SourceQualifier
作用:
根据查询SQL文从关系表或平坦文件查出所要记录
用法:
创建好SourceQualifier(下简称SQ)后,将需要的用的字段从来源表拖拽到SQ,双击SQ,对SQ的属性进行设置。
SelectDistinct属性:
选中的话表明结果记录将去除重复值;
TracingLevel属性:
共有四级,表示log的复杂程度;
NumberOfSortedPorts属性:
排序的字段个数,值大于0时SqlQuery中的sql文将出现orderby从句;
SqlFilter属性:
属性值将出现在SqlQuery属性值的where表达式中;
UserDefinedJoin属性:
用户如果要定义外部连接可在此写(例:
{REG_CUSTOMERLEFTOUTERJOINPURCHASESon
(REG_CUSTOMER.CUST_ID=PURCHASES.CUST_IDANDPURCHASES.AMOUNT>
100.00)})
SqlQuery属性:
值是一条sql文,session运行时会执行这条sql文进行查询。
命名方式:
SQ_Name
类型:
Active/Connected
注意:
SQ的输入只能来自来源表;
UserDefinedJoin属性值必须用{}括起来;
在更改了SQ的属性值之后一定要点击SqlQuery属性的
generatesql按钮重新生成sql文。
1.2.3.2UpdateStrategy
决定该行进行插入,删除,更新,忽略中的哪一种操作
创建好UpdateStrategy(下简称US)后,将需要的用的字段从transformation拖拽到US,双击US,对US的属性进行设置。
US的设
置关键是UpdateStrategyExpression属性的设置,这个表达式使用IIF或DECODE函数对记录的每一行进行判断,为每一行赋予
DD_INSERT,DD_UPDATE,DD_DELETE,DD_REJECT(这四个是常量,值分别为0,1,2,3)中任意一个值,表明该行在数据库中将进行
何种操作。
UPD_Name
mapping中有US时,mapping对应的session的在配置属性时必须把Treatrows属性设置为DataDriven,否则US将不起作用。
1.2.3.3Expression
计算一个值
创建好Expression(下简称EXP)后,将需要的用的字段从来源表拖拽到EXP,双击EXP,
新增输出端口,编辑该端口的表达式。
EXP_Name
Passive/Connected
要进行列运算一般用这个transformation;
此种transformation可以使用本地变量
1.2.3.4StoredProcedure
调用一个存储过程
创建StoredProcedure(下简称SP)的时候连接数据库选择必要的存储过程。
SP有连接和不连接到数据流两种用法。
连接到数据流方式跟一般的transformation类似,通过拖拽端口来实现数据流。
不连接到数据流分表达式调用和Pre-/PostSession两种方式。
表达式调用方式中SP被Mapping中另一个transformation中的表达式
调用。
Pre-/PostSession方式就是在Session的属性中配置SP的运行时间,SourcePre-load(Session从源表查询数据之前),Source
Post-load(Session从源表查询数据之后),TargetPre-load(Session将数据插入目标表之前),TargetPost-load(Session将
数据插入目标表之后)
SP_Name
Passive/ConnectedorUnconnected
1.2.3.5SequenceGenerator
产生主键
创建好SequenceGenerator(下简称SEQ)后,双击SEQ,对SEQ的属性进行设置。
StartValue属性是开始值,此属性只在选择了
Cycle选项才有效;
IncrementBy属性值是每次增加的值;
EndValue属性值是结束值;
CurrentValue属性值是当前开始值;
Cycle选
项被选择的话NEXTVAL的值达到EndValue值之后会重新从StartValue开始;
Reset选项被选择的话,服务器会为每个使用了该SEQ的
session的NEXTVAL值都从CurrentValue开始。
SEQ_Name
这是一个只有两个输出端口没有输入端口的transformation.;
如果该SEQ时可重复使用的话,不能选择Reset选项。
1.2.3.6Aggregator
执行分组聚合运算
创建好Aggregator(下简称AGG)后,将需要的用的字段从其他transformation拖拽到AGG,双击AGG,在端口tab中每个端口有
groupby选项。
钩上想要分组的列,新增端口,编写聚合表达式实现分组聚合运算。
AGG_Name
可使用本地变量
1.2.3.7Filter
过滤记录
创建好Filter(下简称FIL)后,将需要的用的字段从transformation拖拽到FIL,双击FIL,对FIL的属性进行设置。
FIL的配置主
要是对FilterCondition的配置,FilterCondition写入类似where条件的表达式即可。
FIL_Name
1.2.3.8Lookup
查询值
创建Lookup(下简称KP)的时候选择要查询的表。
和StoredProcedure一样SP有连接和不连接到数据流两种用法。
连接到数据流方式将要关联查询的字段从其他的transformation拖拽过来,然后双击LKP进行属性的配置。
LookupPolicyOn
MultipleMatch属性表明当查询到多个行时采取取第一行,取第二行,报错中哪个策略.LookupCondition属性值是查询的条件。
LookupSqlOverride属性值是查询执行的Sql文,我们可以在里面直接写Sql。
LookupCachingEnabled属性表明是否使用缓存,此项
一般选择为好,有利提高效率。
LoopupCachePersistent属性表明是否使用永久的缓存。
LKP_Name
如果Lookup表的类型是来源表的话,请尽量使用Joiner;
一个已连接的LKP不能再被其他transformation的表达式调用;
如果查询表在session运行过程中不会改变,使用LoopupCachePersistent属性可提高性能;
尽量不要在LookupSqlOverride中书写orderby子句,因为cachedLKP默认有orderby;
1.2.3.9Joiner
连接查询来自不同数据库的表或平坦文件
创建好Joiner(下简称JNR)后,将需要的用的字段从transformation拖拽到JNR,双击JNR,对JNR的属性进行设置。
用于连接的
两个表一个称为detail表,一个称为master表。
JNR属性中可配置JoinType(连接类型)为NormalJoin,MasterOuterJoin,Detail
OuterJoin和FullOuterJoin中任意一种。
NormalJoin相当于常规的innerjoin;
MasterOuterJoin相当于常规的Detailleft
outerjoinMaster;
DetailOuterJoin相当于常规的DetailrightouterjoinMaster;
FullOuterJoin相当于常规的fullouter
join。
JoinCondition属性值就是常规sql文on后带的条件。
JNR_Name
尽量使用NormalJoin,MasterOuterJoin.这两个的效率比另外两个更好
1.2.3.10Normalizer
格式化记录,这些记录可以是来自COBOL源
NRM_Name
1.2.3.11Router
根据一组表达式将记录分类路由到多个transformation
创建好Router(下简称RTR)后,将需要的用的字段从transformation拖拽到RTR,双击RTR,对RTR的属性进行设置。
在Grouptab
中添加组,为每组编辑该组的过滤条件。
RTR_Name
组过滤条件表达式的计算值必须是真或者假。
1.2.3.12Rank
排序记录,只输出最顶层或最低层的n个记录
创建好Rank(下简称RNK)后,将需要的用的字段从transformation拖拽到RNK,双击RNK,对RNK的属性进行设置。
在Portstab中
有一个名为‘R’的列,选择你要排序的列。
你还可以选择你想分组的列。
在Propertiestab中Top/Bottom属性,Top表示选择顶层的
记录,Bottom表示选择底层的记录;
NumberOfRanks属性值是整数,表示要选择的记录条数。
假设你在‘R’列中选择了名为’
Price’的列,而且GroupBy选择了‘Name’列,Top/Bottom属性选择的是‘Top’,NumberOfRanks属性值是2,那么将抽取过程是
这样的:
以name分组取出每组中Price最大的2列记录。
RNK_Name
可以使用本地变量
1.2.3.13ERPSourceQualifier
根据查询SQL文从ERP文件查出所要记录
1.2.3.14XMLSourceQualifier
根据查询SQL文从XML文件查出所要记录
XSQ_Name
1.2.4MappingParameters(参数)和Variables(变量)的使用
如果你在一个mapping中多次用到同一个值,又或者mapping中要用到一个在session运行才能决定的值,这时候可以使用mapping
parameters或variable。
添加参数或变量的方法是:
选择Mappings-ParametersandVariables,在窗口新增变量或者参数,并对它的
数据类型,数据大小,初始值进行设置。
添加的参数和变量在本mapping的transformation的表达式中就可以使用了。
这些参数和变
量的值还可以设置在.txt文件中,建session或者batch的时候把这个文件的路径设置在Parameter输入框中就行了。
Mapping参数变量的命名方式:
$$NAME
存放参数变量的.txt文件的格式:
folder_name可写可不写
[folder_name.session_name]
parameter_name=value
variable_name=value
mapplet_name.parameter_name=value
[folder_name.session2_name]
mapplet_name.variable_name=value
[folder2_name.session_name]
1.2.5Mapping的调试
选择Mappings–Debugger–StartDebugger,在点击‘下一步’的过程中选择调试过程运行在哪台服务器然后为来源表选择数据库,
最后到完成。
等调试初始化好之后点击Mappings–Debugger–Continue(或按F5),即可开始调试,选择某个目标表即可看该表的结果
数据。
如果还想看中间某个transformation的数据,在开始调试前为该transformation增加一个断点。
1.3
ServerManager的使用
1.3.1
RegisterServer(注册服务器)
任何session都必须运行在某个服务器上,所以如果ServerManager里没有服务器的话必须注册一个,当然你也可注册多个服务器。
服务器的注册过程如下:
选择ServerConfiguration–RegisterServer,Server输入的是要注册的服务器的名称;
HostName输入的是运行了informatica
server的机器名或iprotocol选择TCP/IPortNumber输入4001。
最下面的是服务器的变量设置,设置的是session或batch运行时一些
文件的存放位置,比如说log文件bad文件cache文件,一般不用更改。
这样一个服务器就注册到repository了,不过后面你可以双
击它重新编辑。
1.3.2
AddDataBaseConnection(添加数据库连接)
选择ServerConfiguration–DataBaseConnection,点击Add,然后选择数据库的类型。
不同类型的数据库配置起来不一定一样,下
面说明Oracle和SQLServer两种数据库连接的配置。
Oracle类型数据库连接配置:
DataSource输入数据源名称;
UserName输入数据库连接的用户名;
Password输入数据库连接的密码
;
ConnectString输入OracleTNS服务名。
SQLServer类型数据库连接配置:
DataSource输入数据源名称;
Password输入数据库连接的
密码;
DatabaseName输入数据库名称;
ServerName输入数据库的ip地址;
DomainName输入数据库的域名。
1.3.3
AddSession(添加抽取任务)
Mapping只是数据抽取过程的设计,要使这个过程运行必须为该Mapping建立对应的session,然后运行该session。
选择Operations-
AddSession,在窗口中选择一个Mapping点击ok会出现编辑该session的窗口。
Session输入框输入该session的名称;
server选择该session将运行在的服务器;
Treatrows有Insert,Delete,Update,DataDriven四个选项,表明抽取出来的数据在目标表中作何种操作,只有在session对应的
mapping中有UpdateStategy时才能选择DataDriven而且也必须选择DataDriven;
Source框选择来源表所在的数据库;
TargetOptions中的Insert,Update(asUpdate),Update(asInsert),Update(elseInsert),Delete,Truncatetable选项的意思分
别是:
将insert作insert操作,将Update作insert操作,将Update先做Update操作不成功再作insert操作,将delete作delete操作,
在对目标表操作前删除目标表所有数据。
这些选项如果与UpdateStategy冲突server将以这里的设置为准,也就是说这里的设置可以
覆盖UpdateStategy的设置;
Parameter输入框中输入session要用到的参数或变量的所在文件的路径;
其他设置比较简单或者保持原来的值即可,这里就不再详细说明了。
除了在添加session的过程中可编辑session之外,双击已添加的session也对session重新设置。
注:
如果mapping中有Joiner的话,session的编辑窗口的SourceType就变成heterogeneous(不同类),这样就无法通过设置Source
来设置来源表的位置,只能在SourceLocationtab中为每个来源表设置位置。
1.3.4
AddBatch(添加批操作任务)
添加Batch可以将一系列的session串起来,这样就可以让必须按顺序执行的session有序的执行。
添加方法:
选择Operations-Add
Batch,在窗口中对batch进行编辑。
Batch输入框中输入batch的名称;
Parameter输入框中输入batch中的session要用到的参数或变量的所在文件的路径,由于每个session都可以设置自己的parameter,所
以batch中可以不设置,即使batch的parameter进行了设置也会被各个session自己的parameter设置所覆盖,但如果session用到了
parameter在同一个文件中的话,把parameter文件的位置设置在batch的parameter输入框就显得更方便;
Enabled选项表明是否让该batch有效;
Concurrent选项表明是否让batch中的所有session并行地运行;
Schedule中可设置batch的运行时间和运行频率。
1.3.5
Session和Batch的运行
右键单击要运行的session或者batch,选择start即可让该session或者batch立刻运行。
如果你的session或者batch的Schedule设置
不是选择的‘Runonlyondemand’,那么该session或者batch就会在设置完后就处在Scheduled状态,时间一到就会自动运行。
(可
以右击服务器选择monitor来监视运行在该服务器下的session或者batch当前状态)。
Informatica学习笔记1:
UPDATEASINSERT
问:
要求实现每天抽取数据,而且是如果有改变才抽取更新,没有就不更新,
因为源表中有最后修改时间的字段,我让它和SESSION上次运行时间比较来解决是否抽取,
但问题是有的表中没有主键,我该怎么实现更新呢?
有主键的我在WORKFLOW的MAPPING里面勾上了UPDATEELSEINSERT
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- INFORMATICA 使用帮助 使用 帮助