微软借互联网挖掘技术开发语言学习工具

来源: 发布时间:2010-08-04 点击数:

导读:国外媒体今天撰文称,微软通过互联网数据挖掘技术开发了一款名为英库的语言学习工具,并有望借此为必应吸引更多用户,获得更多广告收入。

以下为文章全文:

挖掘数据

微软位于北京的研究人员正在使用从互联网中挖掘的数据来改进在线汉英词典以及语言练习服务。该技术有朝一日将被用在一些类似的工具上,使得所有语言学习者都能够使用。

英库(www.engkoo.com)是“英语”和“仓库”的合成词。该产品的核心是翻译数据。这些数据是微软在一些获得出版商授权的词典中提取出来的。除此之外,微软还通过对同时具备中英文两个版本的网站的扫描来充实数据库。

微软的电脑会对这些网站的段落、语句和单词进行校正,然后计算出一个翻译的质量等级并存档。

当用户在英库的输入栏中输入一个单词或语句时,无论是中文还是英文,该网站都可以从数据库中提取数据对其进行翻译。英库还可以显示一些使用相似单词的例句,很多情况下还会提供该例句的来源链接。

英库是今年“华尔街日报亚洲创新奖”(Asian Innovation Awards)最终优胜者。

更多创新

尽管谷歌翻译(Google Translate)等翻译工具也使用了一些类似的方法,但英库的研究人员还通过其他一些技术拓展了语言练习工具的范围。

但与谷歌相比,英库的触角仍然很有限。谷歌号称是全球最大的免费翻译服务,提供57个语种的翻译。谷歌还将翻译技术整合到了多款服务中,包括手机、搜索引擎以及Chrome浏览器。

微软也为用户提供了必应翻译器,可以对文本和网站进行翻译,覆盖32个语种。

微软的研究人员还计划推出其他语言版本的英库,包括日语和英语。微软亚洲研究院技术战略总监埃里克·常(Eric Chang)表示,帮助英语用户学习汉语也将成为他们的目标之一,但该公司的研究目前主要还是着眼于汉译英。

英库上的多数英语例句都为用户提供了语音版本,这些语音是利用英语国家的人朗读的语音文件生成的。他们还试图模仿真人的声调,尽管抑扬顿挫的变化无法达到真人发声的水平。

谷歌翻译也为用户提供部分语种的语音版本,包括中文。

视频辅助

微软的研究人员表示,从互联网收集翻译信息可以帮助数据库随着语言的变化而不断更新,包括口语表达和科技词汇。英库用户还可以提交他们发现的翻译错误。人工编辑可以修复任何严重的错误,并提升技术,甚至可以防止同样的错误再度出现。

微软亚洲研究院的一个开发小组主管马特·斯科特(Matt Scott)说:“随着时间的推移,该系统会越来越聪明。我们希望翻译能够反映互联网的变化。”

微软的研究人员还在为英库开发一项视频功能。与音频相同,目前已经出现在该网站上的视频也是从英语母语人士的样本对话视频中提取出来的。其目的是帮助用户学习母语人士的嘴唇运动,尽管所有视频都是由机器生成的。

由于舌头运动对于发音至关重要,但通常无法看到,因此研究人员还为英库上的视频提供了同步的超声波数据。据微软亚洲研究院首席研究员弗兰克·宋(Frank Soong)介绍,其中一种选项可以将黑白的超声波脚本转换成为更加吸引人的动画,从而为用户演示母语人士发音时的舌头运动情况。

未来发展

微软表示,去年发布的英库目前的月独立用户访问量超过400万。斯科特表示,该公司的研究人员还在为使用Windows操作系统的手机开发英库的移动应用,并考虑为其他操作系统的手机也开发相应的应用。

中文版必应搜索引擎提供了一个指向英库的链接。埃里克·常表示,研究人员正在与微软的同事进行讨论,希望将英库整合到其他的微软产品中。

英库是一款免费网络服务。但微软亚洲研究院发言人拒绝对英库移动应用是否将包含广告置评。使用英库的用户可能也会使用必应的服务,这将帮助微软提升广告收入。

谷歌此前提供了一个服务,可以将英语YouTube视频转换成中文等其他语言。谷歌还利用图片分析技术开发了一款工具,可以将用户拍摄的菜单或标志中的文本翻译成其他语言。

在使用谷歌Android操作系统的手机中,谷歌翻译应用可以使用语音识别技术将用户所说的话即刻翻译成其他语言。

IDC
域名注册
主机服务
租用托管
数据修复
优化推广
网站建设
解决方案
管理咨询
企业内训
广告设计
技术整合
云主机
ICP备案说明
教育产业
维普点卡
计算机培训
人才外包
服务外包
全程外包
软件研发
Zoomla!逐浪CMS
企业管理软件
三维与仿生应用
软件管理
IT外包
短信接口
社区
江西IDC排行榜
微博
东方红公益
7*24小时服务中心
微信互动
会员
纪念品
发哥的博客
上海站长聚会
软件开发沙龙
宣传视频
用户手册
全站检索
关于我们
公司介绍
发展历程
工作机会
团队介绍
汇款方式
联系我们