换一换

冰点文库 > 资源分类 > DOCX文档下载

预览

移动设备上基于实时视觉信息的旅行翻译系统商业谋划报告书Word格式.docx

资源ID：8397049 资源大小：445.35KB 全文页数：29页
资源格式： DOCX 下载积分：3金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要3金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

移动设备上基于实时视觉信息的旅行翻译系统商业谋划报告书Word格式.docx

1、（二）产品前期开发研究进展情况 10（三）对产品未来发展方向的预测 10第三章技术术来源及前景 11（一）产品技术范围 11（二）国内外同行业产品 11（三）本产品与同行业产品的技术比较 12（四）公司的技术路线、关键技术、技术发展规划的介绍 13（五）公司未来5年在研发资金投入和人员投入计划 13第四章市场及行业分析 16（一）国内外市场情况 16（二）国内外主要竞争对手的比较 17（三）为提高竞争力拟采取的措施及竞争策略 17（四）产品/服务的市场分析 18（五）公司对市场变化的应对策略 18第五章营销策略 19（一）目标客户与渠道 19（二）营销模型 1

2、9第六章融资需求及财务预测 22（一）基本财务状况分析 22（二）投入资金的用途和使用计划 22第七章投资风险及资本退出 24（一）项目实施过程中可能遇到的风险及控制、防范手段 24（二）资本退出方案 25第八章附件-财务报表 261. 预测损益表 262. 预测资产负债表 273. 预测现金流量表 28摘要本产品旨在提供移动设备上基于实时视觉信息的旅行翻译系统。随着中国出境旅行者的逐年增加，境外旅行者语言困难问题也逐渐凸显。目前需要使用翻译时，旅行者通常在移动设备上借助基于手动输入的字典查询软件。但是字典软件已经远远无法满足旅行者的要求。旅行者需要更方便快捷的方法来全面地获取

3、境外旅途相关信息。例如，帮助境外旅行者在未知当地语言的情况下，迅速了解旅游景点介绍、餐馆菜单、地名等，让旅行者更好地享受旅行乐趣。为此，我们开发了基于实时视觉信息的旅行翻译系统。用户只需要用移动设备的摄像头视频录入或者拍摄所需要翻译的文字，我们的产品将自动跟踪视频中的文字信息，从视频或图像背景中切分文字，并作光学字符识别（optical character recognition），最终将所识别的文字从源语言自动翻译成目标语言。同时，根据用户的需要，产品可通过无线互联网（例如HSDPA、GPRS或WiFi）查询所翻译的文字，提供给用户一体化的翻译和全方位的相关信息。与目前一些研究所和公司研发的

4、基于静止图像的翻译系统相比，我们的产品具有如下特点：（1）基于实时视频，有更好的用户体验；（2）与手持设备芯片组硬件细节结合紧密，算法针对芯片信号处理部分结构的特点进行专门优化后来实现。一方面能够达到高效能低功耗的目标，另一方面也大大提高了技术壁垒，很难被仿制，因而能够更好地保护知识产权；（3）字符识别中双重纠错，有力保证光学字符识别的正确性。本产品具有可持续发展性强，可扩展性强，后续研发目标明确，前景明朗等优点，在投资方面具有技术新、发展快，短期回报低，但长期回报高且持久，同时人员精简、投入较低的特点。上述特点与我们的商业模型结合后，本产品在不远的将来有广阔的市场前景和丰厚的利润。第一章

5、团队概况及公司规划（一）团队成员情况姓名性别出生日期最高学历专业职务及分担的任务所在单位吴廷耀男1976.7博士信号与信息处理软件设计与开发阿尔卡特-朗讯贝尔实验室刘新海1976.8讲师通信与信息处理比利时鲁汶大学武汉科技大学李敏1979.3研究员信号处理电路与系统硬件系统设计与开发IMEC周俊峰1977.4微电子芯片设计与开发谭畅女1981.3硕士经济学预测财务状况及编制预测财务报表通用汽车金融服务公司欧洲财务中心模式识别与图像处理技术顾问（二）团队成员情况介绍吴廷耀，阿尔卡特-朗讯贝尔实验室高级研究工程师，比利时鲁汶大学工学博士学习工作经历 1998年北京大学电子学系理学学士，20

6、03年北京大学信息科学中心工学硕士，2009年鲁汶大学电子工程系工学博士。现就职于阿尔卡特-朗讯贝尔实验室（安特卫普）科研成果在国际期刊和国际会议上以第一作者身份发表科技论文13篇，领域涉及模式识别，语音识别，说话人识别，网络技术，网络视频传输等获奖情况 2007年国家优秀自费留学生奖学金 2003-2009年比利时鲁汶大学博士奖学金 2001年北京大学诺基亚奖学金（一等） 2000年北京大学五四奖学金（一等）刘新海，比利时鲁汶大学电子工程系博士生，武汉科技大学信息学院讲师曾就职于武汉科技大学信息学院，担任讲师职位现在比利时鲁汶大学电子工程系攻读博士学位参与或主持多项横向或纵向

7、课题，并申请专利一项参与多项欧盟或比利时政府科研项目自2006年来，以第一作者身份在国际期刊和会议上发表论文6篇，领域涉及信息检索、图像处理和计算机视觉。 2005年，获湖北省科技进步二等奖 2009年，Academic Travel Grant, Academische Stichting Leuven 2009年，Doctoral Student Forum Fellowship, SIAM International Conference on Data Mining, USA李敏， IMEC研究员 1997.9 2001.7：浙江大学信息工程学院本科 2001.9 2004.7:

8、浙江大学信息工程学院研究生 2005.3 2009.9: 比利时鲁汶大学和IMEC微电子中心博士 2003.2 2003.9：朗讯贝尔实验室中国基础科学研究院研发实习生 2008.9 2008.12：美国伊利诺伊大学香槟分校（UIUC）电子系访问学者 2009.9 现在：比利时IMEC微电子中心研究员学术职务 2011 IEEE世界通信大会（ICC 2011）技术委员会成员（TPC member） 2010 IEEE世界通信大会（ICC 2010）技术委员会成员（TPC Member） 2010 欧洲电子设计自动化与测试大会（DATE 2010）技术委员会成员（

9、TPC Member）德州仪器公司信号处理成就奖（The Texas Instrument Excellence in Signal Processing Award） IMEC微电子中心论文冠军奖（Publication Champion of IMEC） IEEE信号处理系统2007年会最佳论文奖（Best paper award at IEEE SIPS 2007） 2008 年国家优秀留学生奖学金两项美国专利，一项欧盟专利项目经历：某日本公司基带芯片项目（IMEC完成）主要负责人多个欧盟FP6，FP7项目（Multibase等）主要参与人 30余篇国际会议与期刊论文周俊

10、峰，比利时鲁汶大学电子工程系微电子学博士比利时鲁汶大学 ESAT-MICAS, 博士（2005-2010） AMI Semiconductor Belgium，模拟和混合信号集成电路设计（2005-2008） On Semiconductor Belgium, 模拟和混合信号集成电路设计（2008-2009）在国际期刊和国际会议上以第一作者身份发表科技论文8篇，领域涉及低噪声模拟和混合信号电路设计，电源管理芯片设计和集成电路的电磁兼容性设计。项目经历 2005.1-2006.9 IWT （比利时科学与技术创新研究所）项目“汽车专用芯片的电磁兼容性设计” 2006.10-2009

11、.3 欧盟FP7项目“微电子系统设计及应用研究: 寄生参数提取和优化”（www.medeaplus.org） 2009.3-2009.12 IWT项目“混合信号集成电路设计初期的电磁兼容性设计及其建模” 一项美国专利，一项欧盟专利谭畅，通用汽车金融服务公司欧洲财务中心高级金融分析师，比利时（法语）鲁汶大学经济学硕士 2002年北京大学光华管理学院货币银行学专业获得经济学学士学位； 2004年获得比利时（法语）鲁汶大学经济学硕士学位。 2006-2007年就职于优美科（Umicore）集团财务控制部。 2007年至今就职于通用汽车金融服务公司欧洲财务中心结构性融资部。杨琼，IMEC高级研究员，清

12、华大学博士现就职于比利时IMEC 2007年-2008年，就职于比利时鲁汶大学电子工程系 2004年-2007年，就职于微软亚洲研究院主要研究方向为模式识别与图像处理。在模式识别图像处理领域拥有多项专利，也在该领域的顶级杂志和顶级会议上发表多篇论文。领导过“大规模人脸识别系统”、“基于人脸的门禁系统”、“综合笔迹和人脸特征的注册系统”等多个项目。第二章项目产品及服务本章将介绍公司产品的主要功能，目前的研发状况和未来能提供的服务。（一）主导产品功能介绍公司旨在提供各类移动手持设备上基于实时视觉信息的旅行翻译系统。本系统对实时录入的视频流或者静止图像中的文字信息进行检测、切分和识别，并

13、将识别出的文字信息翻译成指定的目标语言，同时通过移动终端网络为该文字信息提供搜索服务，获得更多相关旅行信息。公司产品的主要功能包括：1. 基于实时视觉信息，在移动设备上实现多语言的文字识别和翻译支持对于旅游景点介绍、菜单、地名等的多语种（中、英、法、日、德）印刷体识别，并且提供语言之间的即时翻译，比如中英互译、英法互译、英日互译、日德互译等。用户只需拍下旅游景点介绍、菜单、地名等的视频信息，我们的产品将会对视频中的文字进行自动处理，并提供即时翻译，使用户在旅行中拥有更好的体验。2. 基于文字识别和翻译的结果，通过互联网检索为旅行者提供更多相关信息。对于文字识别和翻译的结果，用户可以进一步通过手

14、持设备中的无线网络，搜索互联网，得到更多的相关信息。比如：一名中国游客去法国旅行，在一家著名的法国餐馆就餐。当他来到餐馆，仅需拍下餐馆的名字，我们的产品将会根据识别和翻译结果自动在互联网上进行搜索，并反馈给用户该餐馆的相关信息，例如该餐馆的历史、风格、主要特色菜肴、其他用户对各菜肴的推荐和评价以及该餐馆提供的特色服务等。这样，他就可以在不懂法语的情况下获得很多信息，以便自己更愉悦地享受旅行。此外，由于拥有自动翻译系统，他还可以现场学习一些法语的常用词汇，帮助他和当地人的交流。在中长期计划中，产品功能还包括：1. 自动语言识别在前期的计划中，用户可以通过语言设定来选择特定语种的识别和翻译。在长

15、期计划中，我们的产品将提供针对语言类型的自动识别功能，即通过获取的图像或视频，自动识别该文字的语言类别，并提供相应的翻译。这样，用户不再需要进行语言设定。在用户经常穿梭于多种语言环境之间的情况下，这一功能将给用户提供方便。2. 自动图像理解在未来的研发计划中，我们的产品还将针对用户所拍摄的场景视频进行搜索匹配，并从互联网上自动获得相关信息。例如，一名日本游客来到罗马斗兽场，仅需拍下斗兽场的照片或者视频，我们的产品将自动在互联网上进行搜索匹配，并抓取相关的信息，例如历史、规模、建筑规划等。综上所述，我们的产品主要面向爱好旅游的客户和经常进行商务旅行的客户，适合用于帮助客户解决跨国旅行中的语言障碍

16、问题，并结合手机强大的相机拍摄、信息处理和无线上网功能，给用户提供一体化的旅行翻译及信息服务。（二）产品前期开发研究进展情况目前公司已自主开发多语种的印刷体识别系统，运用语言模型和词典匹配对识别结果进行自动更正。公司在主流手持设备芯片组上开发高度优化的系统，从而使我们的产品与同类产品相比具有成本低、节能等多方面的优势。（三）对产品未来发展方向的预测在加大研发力度的前提下，公司产品将朝多元化、多功能化和更好的用户体验方向发展，同时针对不同的客户，公司将开发功能、效果和服务有区别的产品。具体而言，公司产品预计在3-5年内在技术领域，应用领域和市场领域会有如下发展：1. 技术领域方面在研发初期阶

17、段，产品是基于静止图像的翻译系统，且需要移动设备用户的协作（例如，用户帮助定位文字在图像中的位置）；在中期阶段公司将研发基于实时视觉信息的翻译系统，开发自动文字跟踪技术、自动文字分割技术和自动翻译技术；而公司的远期研发目标则是开发能够让用户随时随地随心所欲地拍摄且获得翻译结果或者相关信息的产品。2. 应用领域方面在研发的初期阶段，公司的产品将主要面向主流智能手机，向手机生产厂商提供解决方案。在中期阶段，公司将扩展产品应用范围，面向市场上流行的所有计算能力强且拥有高分辨率摄像功能的手机。在中期或者后期阶段，公司将研发面向不同手持移动设备的产品，例如，PDA，数字摄像机，MP3等等。3. 市场领域

18、方面针对不同的客户，我们将开发具有不同功能的产品，并收取不同的费用。例如，一个经常去日本出差的客户只需要日汉或者汉日的翻译系统；而一个经常在世界各地出差的客户很可能就需要安装产品的多语言扩展包。公司根据目标客户的需求，将研制不同的产品来满足不同客户的要求。第三章技术术来源及前景本章主要介绍公司产品所采用的三个技术模块，并与国内外类似产品相比较，讨论公司产品的优缺点。最后，我们列出公司未来5年内的研发计划以及资金投入状况。（一）产品技术范围本产品采用多种高科技技术，实行模块化无缝连接。产品所包含的主要技术包括在视频和图像中文字分割和切分、视频中自动追踪文字信息、光学字符识别、基于统计语言模型

19、的自动纠错、多语言翻译等等；另外由于本产品基于我们对手持设备芯片组硬件细节的深入了解来实现，高效率、低功耗也是本产品的创新点。本产品还具有可持续发展性强，可扩展性强，后续研发目标明确，前景明朗等特点。目前公司已自主开发出多语种的印刷体识别，运用语言模型和词典匹配对识别结果进行自动更正的旅行翻译系统。自动语言识别，自动图像分析和理解等技术将是公司的中长期目标。（二）国内外同行业产品由于本产品有着广阔的市场前景，目前国内外一些著名研究机构和公司也在研发类似功能的产品。其中具有代表性的是富士通，思根科技，谷歌和诺基亚。1. 富士通研究开发中心：其产品主要采用手机翻译技术，利用带有拍照功能的手机对餐

20、厅菜单进行识别，将中文翻译成日语。过程首先是对拍照内容的识别，然后和菜单数据库中的信息进行匹配，并根据反馈进行翻译。在图像处理方面对照片由于角度等问题画面会出现偏斜、构图比例失调、曝光过度或不足等问题进行自动调整。2. 思根科技：研发“嵌入式手机中/英/欧文名片识别及文本识别技术”，其主要功能是对名片的识别并存储。该产品具有嵌入式、小内核、多语种、拍照图像识别等多项特点。所采用的技术包括嵌入式、多语种、手指定位技术、名片识别技术、图像拼合技术、汉字分词技术，但不提供翻译功能。3. Google Goggle：Google Goggle是谷歌推出的一款图像搜索工具，利用手机摄像头拍摄当地地标建

21、筑、书籍封面、艺术作品、酒类标签以及产品商标等物体的照片后，软件自动在google上搜索相关信息，并予以识别显示。该软件也可以通过GPS搜索附近区域的商业点，还能够自动记录名片的所有信息。4. 诺基亚 shoot-to-translate: 用户利用诺基亚照相手机拍摄任何物体表面上的文字后，安装于该手机上的即时翻译应用程序通过光学字符识别技术进行文字的自动抽取和识别，并借助语言处理技术将其翻译成另外一种语言。目前该产品只支持中文到英文的翻译处理。（三）本产品与同行业产品的技术比较与上述产品相比，我们的产品在技术方面有如下几个特点：1. 本产品是基于实时视觉信息的上述同类产品都是基于静止图像的

22、。这种解决方案在文字分布较广的情况下有可能无法在图像中获取正确的文字信息，从而导致翻译功能失效。例如，世界著名的博物馆卢浮宫馆藏着许多巨幅油画，而在油画下方法语注释文字通常宽度很大。如果用户想用基于静止图像的手持设备拍照翻译技术对法语注释文字进行翻译，他需要站在较远的地方拍照，这样才能保证所拍摄的照片覆盖所有的文字信息。但是这必然使得照片中文字的分辨率降低，从而导致文本分割精度降低和OCR模块识别率降低。此外，在某些空间比较狭小，或者游人较多的情况下，用户很可能无法获得足够的距离来覆盖所有的文字信息。另一方面，如果用户站在离目标较近的地方拍摄照片，以期获得较高的文字分辨率，但是由于没有覆盖所有

23、的文字信息，OCR识别出的是单独的字符或者单词，而不是完整的句子。这样就无法采用统计语言模型纠错技术，从而导致后续的翻译模块有较大的偏差。相反地，本产品可以很好地解决这个问题：本产品是基于实时视觉信息的。用户可以在较近的距离用手机摄像功能来扫描宽度较大的文字信息，相应地系统获取到一个视频流。系统对视频流中的文字信息进行检测、追踪、拼接，识别并纠错，得到语义上完整的句子或者段落，大幅度提高翻译模块的准确度和可懂度。2. 本产品与手持设备芯片组硬件细节关系非常密切，被仿制难度大公司将针对各类手持设备芯片组的硬件特征来实现某些复杂算法。移动设备操作系统有存储空间较小，运算能力相对较低的特点，因此，本

24、团队从算法到芯片细节的知识整合将成为本产品高效率、低功耗特征的最大支撑点。公司针对性地研发关键技术，大幅度降低所需算法的计算量。同时，本产品的部分功能将针对不同手持设备芯片组的硬件细节做专门优化。比如，在某些含移动GPU的芯片组中，部分算法将使用GPU来加速；而在一些包含了媒体加速器的芯片组中，核心算法将针对媒体加速器的种类和特征进行重新调整。这不仅提高了计算速度，同时也很好地降低被仿制的危险，保护知识产权。由于各芯片组细节往往相差较大，简单复制破解的方法将无法移植本产品。另一方面，本产品开发融合了从算法到芯片体系结构的大量知识，很难在短时间内被复制者吃透。3. 本产品在技术上采用双重语言模型

25、纠错实时的视觉信息提供了实现双重语言模型纠错的可能性。语言模型在本产品中占据很重要的地位。它对OCR的识别错误进行纠正，是提高翻译模块准确率的有力保证。双重语言模型纠错包含两个步骤，第一个步骤是在词层，即通过对识别结果和字典里的词匹配，使用动态规划算法纠正某些识别错误的字母。第二个是在句层，即通过统计语言模型，计算识别出来的单词组成语义上完整句子的概率，对可能出现的某些识别错误的单词再次纠错。这种双重纠错的模式将极大地降低在OCR阶段出现字母或者单词识别错误。另外完善的语言模型也有利于提高翻译模块的准确率。4. 本产品具有更好的用户体验由于本产品是基于实时视觉信息的，用户可以随时随地随心所欲地

26、享受本产品提供的便捷服务，而不用刻意地调整照片大小和距离远近，极大地方便了用户。此外，除了手机外，本公司还拟研发基于其他手持设备的产品线，可以用于数字摄像机、装了摄像头的MP3、PDA、导航仪等等。本产品相对于竞争对手的产品也具有一定的劣势。例如，Google goggle依托于谷歌自身的产品，相对较容易地在该公司的平台上进行二次开发，并与该公司其他功能对接。另外几家公司分别在图像或者OCR或者嵌入式系统的开发研究中具有相当经验，占有一定的优势。但是正如上文指出的，目前所有的同类产品都是基于静止图像的；基于移动视频技术的产品研发还未开始。随着移动设备摄像技术的成熟，视频分辨率的提高，我们的产品

27、性能也将稳步上升。基于实时视频的旅行翻译系统能够给予用户更好的旅行体验，所以必将占领这部分市场。（四）公司的技术路线、关键技术、技术发展规划的介绍公司将研发具有自主产权的关键技术。这些关键技术包括：视频和图像中文本切分、自动追踪文字信息、光学字符识别、自动纠错、统计语言模型、自动翻译等等。其产品流程如图1所示。这些关键技术可以结合成三大模块，也就是，视频分析模块、光学字符识别模块和机器翻译模块。视频分析模块的主要功能是文字分割，即在视频流中分离文字信息与别的背景噪音，并用于后续的模块。为了提高文字分割的准确性，视频前端处理，包括图像增强和图像拼接，是必须的。图像增强是针对视频抖动、偏斜、光线

28、不足等问题进行纠正；而图像拼接是通过理解视频拍摄移动方向构建语义完整的句子或段落。光学字符识别模块是将视频流里的文字信息转换成文本，并通过字典查询和统计语言模型对识别出的文本进行纠错。机器翻译模块是将识别出的文本信息从源语言翻译成目标语言。在产品研发的初期阶段，用户需要指定源语言和目标语言，产品将识别出的文本翻译到目标语言；在后期开发阶段，我们将开发自动语言识别功能，自动识别出源语言。将源语言翻译成目标语言后，将翻译结果输出，并根据需要，通过互联网查询相关信息。（五）公司未来5年研发资金投入和人员投入计划公司在成立初期（1-2年间）将大部分资源和资金都投放在研发上，在中期（3-5年）则研发与

29、市场营销并进。在中期目标达到后，我们将评估公司业绩，以决定未来的走向。5年内的研发资金投入和人员投入计划如表1所示。图1：产品技术流程表1：公司未来5年研发计划年限研发项目目标资金人员投入第一年（1）视频解码（硬件实现），1人（2）图像拼接，2人（3） OCR（双重纠错，软件实现），2-3人（4）使用已有的翻译器（例如google 翻译）来实现英译汉，1人在某种移动设备上（例如手机）软件实现基于静止图像的英汉（或者日汉）旅行翻译系统V1.0。文字分割部分由用户划定框范围来分割；翻译部分由字典或者互联网翻译器完成。200万6-7人第二年（1）图像和视频中文字检测和分割，2-3人（2）图像增强，1人（3）

注意事项

本文（移动设备上基于实时视觉信息的旅行翻译系统商业谋划报告书Word格式.docx）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。