第3课语料库与翻译研究-课程讲义(上)PPT资料.pptx
- 文档编号:1071138
- 上传时间:2023-04-30
- 格式:PPTX
- 页数:58
- 大小:3.28MB
第3课语料库与翻译研究-课程讲义(上)PPT资料.pptx
《第3课语料库与翻译研究-课程讲义(上)PPT资料.pptx》由会员分享,可在线阅读,更多相关《第3课语料库与翻译研究-课程讲义(上)PPT资料.pptx(58页珍藏版)》请在冰点文库上搜索。
经验主义,语料库思想产生的背景,Thedifferenceofmethod,here,maybecharacterizedasfollows:
InLockeorHume,acomparativelymodestconclusionisdrawnfromabroadsurveyofmanyfacts,whereasinLeibnizavastedificeofdeductionispyramideduponapin-pointoflogicalprinciple.,Locke,Hume,RationalismvsEmpiricism:
InLeibniz,iftheprincipleiscompletelytrueandthedeductionsareentirelyvalid,alliswell;
butthestructureisunstable,andtheslightestflawanywherebringsitdowninruins.http:
/zh.wikipedia.org/zh/戈特弗里德莱布尼茨,RationalismvsEmpiricism:
InLockeorHume,onthecontrary,thebaseofthepyramidisonthesolidgroundofobservedfact,andthepyramidtapersupward,notdownward;
consequentlytheequilibriumisstable,andaflawhereortherecanberectifiedwithouttotaldisaster.http:
/zh.wikipedia.org/zh/大卫休谟,RationalismvsEmpiricism:
“代表当我们看到某件事物总是造成另一事物时,我们所看到的其实是一件事物总是与另一件事物恒常连结。
因此,我们并没有理由相信一件事物的确造成另一件事物,两件事物在未来也不一定会一直互相连结(Popkin&
Stroll,1993)。
因果关系论-恒常连结(constantconjunction),我们无从得知因果之间的关系,只能得知某些事物总是会连结在一起,而这些事物在过去的经验里又是从不曾分开过的。
我们并不能看透连结这些事物背后的理性为何,我们只能观察到这些事物的本身,并且发现这些事物总是透过一种经常的连结而被我们在想象中归类。
(Hume,1740),在认识方法上,理性主义的“自明原则+演绎”方法与自然科学中的数学公理方法有密切联系;
经验主义的“经验+归纳”方法与自然科学中的观察实验方法有密切联系。
(周晓亮,2003),RationalismvsEmpiricism:
经验累积的历程辞典的编纂:
OxfordEnglishDictionary,accumulatedover4,000,000citationslips,2000readers,alphabetizingandsortingtheslipsbyMurraysmanychildren现代汉语词典Harris(1993)summarizestheapproach:
“Theapproachbeganwithalargecollectionofrecordedutterancesfromsomelanguage,acorpus.Thecorpuswassubjectedtoaclear,stepwise,bottom-upstrategyofanalysis.”,语言的记录、研究与理论的表达方法,Chomskysaidthatcorpuscouldneverbeausefultoolforthelinguist,asthelinguistmustseektomodellanguagecompetenceratherthanperformance.乔姆斯基句法结构认为说话的方式(词序)遵循一定的句法,这种句法是以形式的语法为特征的,具体而言就是一种不受语境影响并带有转换生成规则的语法。
http:
/zh.wikipedia.org/zh/%E8%AF%BA%E5%A7%86%C2%B7%E4%B9%94%E5%A7%86%E6%96%AF%E5%9F%BA,在1980年到1992年,乔姆斯基是被文献引用数最多的健在学者,并是有史以来被引用数第8多的学者,Chomskyscriticism,Whatisacorpus?
Acollectionofmachine-readable,authentictexts(includingtranscriptsofspokendata)whichissampledtoberepresentativeofaparticularlanguageorlanguagevariety.,Definitionofacorpus,用语料库对语言的某个方面进行研究依据语料库所反映的语言事实对现行语言学理论进行校正和批判,重构新的观点或理论依据语料库的分析结果,对于语言的规范应用给以借鉴和指导,CorpusLinguistics,1959SEU(surveyofEnglishUsage)byQuirk1961BrowncorpusbyFrancisandKucera1970-1978LOB(Lancaster-Olso-Bergen)byStigJohansson1975London-LundSpokenCorpusbyJ.Svartvik,语料库早期建设与计算机发展直接相关,始建于1960年代初,W.N.Francis和H.Kucera发起美国Brown大学建立,主要代表当代美国英语,规模100万词次世界上第一个根据系统性原则采集样本的标准语料库,BrownCorpus,始建于1970年代初,由英国Lancaster大学著名语言学家GeoffreyLeech倡议挪威Oslo大学StigJohansson主持完成,规模与Brown语料库相当主要代表当代英国英语安装在挪威Bergen大学挪威人文科学计算中心,LOBCorpus,1960年代初,由RandolphQuirk主持收集2000小时的谈话和广播等口语素材,并整理成书面材料由瑞典Lund大学J.Svartvik主持全部录入计算机1975年建成,London-LundSpokenCorpus,COBUILDProjectLongmanCorpusBritishNationalCorpusBNCInternationalCorpusofEnglishICEAmericanNationalCorpus,更大规模的发展,建于1980年代,以词典编撰为应用背景由英国Birminghan大学与Collins出版社合作完成,规模达2000万词次基于该语料库出版的CollinsCobuild词典(1987)受到了广泛的好评,COBUILDProject,从语料库中所获得的词频信息以及其他辅助性信息,为词典编纂者决定选词立目和义项排序(例如,哪个义项该排在前面)等决策提供了依据。
新词语的发现,年度词汇,语料库对词典的编纂帮助,借助于语料库数据的分析,将帮助词典编纂者对一些编纂问题做出决策,如词义(某一语词有多少义项)、片语(哪些短语或搭配值得凸显)、句法特征(哪些句法结构需要收入词典中)等等。
建于1980年代,包括三个语料库:
LLELC语料库(Longman/Lancaster英语语料库)LSC语料库(Longman口语语料库)LCLE(Longman英语学习语料库)目标是编撰英语学习词典,为外国人学习英语服务词典规模达5000万词次,LongmanCorpus,1991-1995Large(20millionwords),4GtextsSara,Xairatools(1.12-1.25)Sara=SGMLAwareRetrievalApplicationXaira=XMLAwareIndexingandRetrievalArchitecture90%written+10%spokenhttp:
/www.natcorp.ox.ac.uk/http:
/www.oucs.ox.ac.uk/rts/xaira/Doc/,BritishNationalCorpus,XairaisanenhancedversionoftheSaraprogram,originallyproducedforusewiththeBNC.InadditiontothefeaturesincludedintheSaraprogram,youcanuseXairawithBNCXMLto:
Xaira,searchbytagonly.searchsubcorporadefinedbyexistingtextcategoriesdefinesearchablesubcorporaaccordingtoyourowncategorizationdisplaysearchresultasgraphsquicklyseedistributionacrosstextcategoriesretrievecollocationsbasedonwords,lemmas,orpart-of-speechtags,http:
/www.oucs.ox.ac.uk/rts/xaira/Doc/,http:
/www.americannationalcorpus.orghttp:
/en.wikipedia.org/wiki/American_National_Corpus,AmericanNationalCorpus,国内的早期语料库建设,国内的语料库建设,largeTagged/annotatedParsed领域vs通用平衡性粗糙vs精细加工深度:
用途vs成本vs发展,语料库的特点,语料一旦确定,很少更新人工参与过多,自动化程度不高缺乏语言资源管理缺乏用户定制功能成本大,周期长高度分化,缺乏集成-北京大学计算语言所综合语言知识库,语料库建设的基本问题,现代语料库建设,Web-basedcorpora,Wiki-basedcorpora,客观性,科学性,通用性,Advantagesofcorpus-basedmethod,corpsevs.alivepartvs.wholedatavs.theoryquantitativevs.qualitativeuniversalvs.individualorspecial,Disadvantages,TheonegreatcriticismoftheOxfordEnglishDictionaryisthatitignoredsomanyscientificterms.,StatisticalMachineTranslation早在1949年,美国数学家瓦伦韦弗(WarrenWeaver)提出了统计机器翻译的基本思想。
在1993年,IBM研究院的研究人员提出了五种统计模型。
但由于当时计算条件的限制和资料库的匮乏,研究人员无法实现如此大规模的运算。
谷歌翻译负责人:
别用来翻译诗歌http:
/,自然语言处理用途vs人文社科用途,各类应用语言学研究的支撑工具以及规律、规则的发现和验证工具;
语体、语言风格研究“红楼梦究竟是不是一个人写的”语法规则的发现和验证,语言学范畴的语料库研究,与社会网络结合,分析预测流行性感冒的发生与发展,地区分布预测政治事件的发生,比如总统选举结果语言认知心理学、社会心理学,各学科结合、大数据下的语料库研究,Corpus-based+intuition-based,将两者相结合结构主义功能主义基于语料库的方法定性研究方法,GideonToury(DescriptiveTranslation)MonaBaker(firstadvocatedin1993)TranslationalEnglishcorpus,TEC1995,基于语料库的翻译学研究,MonaBaker的三篇相关论文:
Baker,M.1993.CorpuslinguisticsandTranslationStudies.ImplicationsandApplicationsBaker,M.1995.CorporainTranslationStudies:
AnOverviewandSomeSuggestionsforFutureResearchBaker.M.1999.TheroleofcorporainInvestigatingthelinguisticbehaviourofprofessionaltranslatorsMonaBaker的个人网站:
http:
/,语料库翻译及其他,Texts,translators,andexternalfactors,语料库方法系统功能语言学社会文化,文本检索、统计分析、结果的可视化分析,几种常用术语辨析,Corpus/corpora单数/复数;
Corpus-basedvs.corpus-drivenCorpustranslation?
语料库翻译学?
语料库支持的翻译研究vs语料库支持的翻译实践Monolingualcorpus,comparablecorpus,parallelcorpus,应该注重翻译的结果还是翻译的过程呢?
或者两者兼顾?
基于语料库的翻译研究注重翻译结果的分析和研究;
在本门课程,我们更在意的是对于翻译过程中的语料库辅助作用,Processvs.Product,Comparablecorpusi.e.textsintwolanguagesthatsharecommonfeatures,e.g.function,texttype,domain,topic,periodofpublication,etc.,可比语料库ComparableCorpus,语料库中只有一种语言,似乎与翻译无关对于绝大多数译员来说,是单母语的;
外语单语语料库提供了分析观察该语言的使用规则的最佳窗口,借助于语料检索与统计分析工具,可以得到远超过辞典和语法书的语用知识。
单语语料库MonolingualCorpus,SourcetextsandtheirtranslationsParallelcorpusresourcesandconventionalbilingualdictionaries,平行语料库parallelcorpus,加工与否分成:
熟语料和生语料按语言种类分:
单语,双语和多语按规模分:
小型和大型按语料类型分:
通用和专门用途其他:
learnercorpus,pedagogiccorpus,monitorcorpus,historical/diachroniccorpus,语料库类型,Wordsmith介绍(商业)Antconc、Paraconc(免费、商业)CWB(sourceforge,开源,推荐)SPSS、Weka统计工具及数据分析工具(商业、开源)基于web的语料库系统SketchEngine商业http:
/corpus.byu.edu免费http:
/免费,语料库检索工具,中英双语的在线语料库,http:
/,中英双语的在线语料库,http:
/,Bernardini,S.CorporainTranslatorEducationGranger,S.Corpus-basedApproachestoContrastiveLinguisticsandTranslationStudiesBiber,D.CorpusLinguisticsHunston,S.CorporainAppliedLinguisticsOlohan,M.IntroducingCorporainTranslationStudiesLaviosa,S.Corpus-basedTranslationStudies:
Theory,Findings,ApplicationsChristinaSchffner,DevelopingTranslationCompetenceMcCarthy,M.IssuesinAppliedLinguistics,References,JohnSinclair,GeoffreyLeech,DouglasBiber,MonaBakerLancasteruniversityLynneBowker,SylvianeGranger,MichaelBarlow,MikeScott北京大学计算语言所俞士汶、詹卫东、常宝宝等上海交通大学杨惠中等北京外国大学顾曰国、王克非等,国内外语料库研究学者概览,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语料库 翻译 研究 课程 讲义