AI 如何成为百度翻译 DAU 高速增长的引擎?
在「巴别塔倒下」的日子里 , 人类社会一直没有放弃不同语言之间的翻译 。 特别是在2020年刚刚过去的这个春天 , 当人类社会意义需要紧密联系在一起的时候 , 语言翻译 , 更是承载着各个国家团结一致、共同抗疫的诉求 。
也是在刚刚过去的这个季度 , 百度旗下的翻译产品百度翻译获得众多关注 。 根据其官方透露的数字 , 2020年第一季度 , 百度翻译产品的DAU(日活跃用户数量)环比增长10% , 同比更是增长了40% , 在行业增长整体放缓的大环境下 , 百度翻译实现了逆势增长 。

文章图片
公开资料显示 , 百度翻译目前已经支撑200个语种 , 近4万个翻译方向 , 每天来自世界各地的翻译请求字符量超过千亿 , 做一个换算 , 相当于2000部大英百科全书的字符 , 换句话说 , 平均每秒钟就要翻译超过100万字符 。
这些数字所代表的 , 既是一款语言翻译产品带给全球用户的价值 , 凸显出「打破语言障碍 , 使人们随时随地与世界自由沟通」的产品愿景 , 更是近几年AI技术推动产品更新迭代的典型案例 , 接下来 , 通过复盘百度翻译产品背后的技术突破与产品创新 , 不仅可以梳理出一幅AI落地实践的路线图 , 也可以一窥AI时代下「重建巴别塔」的可能性 。
1.AI驱动下的底层技术突破
机器翻译的历史由来已久 , 现代意义上的机器翻译也几乎和人工智能的诞生同步 , 上世纪50年代中期 , 美国的研究人员完成了一组俄语自动翻译英语的实验 , 但在随后的很长一段时间里 , 机器翻译与人工智能一样 , 都没有得以大规模应用 。

文章图片
2010年代 , 随着深度神经网络在图像、语音领域的突破 , 以Google、百度、微软为代表的科技巨头 , 开始将神经网络引入机器翻译系统中 , 无论是在实验室还是工业落地的产品上 , 都取得非常不错的结果 , 由此也将机器翻译带入到神经网络翻译的新时代 。
然而当下的机器翻译也有诸多局限 , 比如整个训练需要大量语料 , 极大影响了很多小语种翻译模型的精度;再比如 , 当机器翻译的需求与场景越来越多样化 , 如何在文本翻译的基础上进一步攻克语音翻译、特别是针对同传场景的翻译 , 如何应对特定领域的翻译需求等等 , 成为摆在业界面前的重要课题 。
作为国内较早布局机器翻译产品线的百度 , 又是如何做的呢?
首先 , 从模型和数据两个方面入手 , 解决小语种语料少、模型精度低的难题 。 模型方面 , 提出了基于多任务学习的翻译模型、多智能体联合学习模型等 , 使得多个语言可以共享模型表示 。

文章图片
而在数据方面 , 从互联网上挖掘多语言数据 , 并采用回译技术进行数据增强 。 在一个季度内 , 将翻译的语种扩充了近7倍 , 目前百度翻译支持200种语言互译 , 成为全球支持语种数量最多的翻译系统 , 打通了多语言翻译技术从研发到应用的所有环节 。
其次 , 研发全球首个语音到语音的同传系统 。 这个系统具有低时延、高质量的特点 , 结合随后提出的可控时延翻译模型、语义单元驱动上下文感知翻译模型等 , 进一步解决了时间延迟和翻译质量难以平衡的难题 。

文章图片
【AI 如何成为百度翻译 DAU 高速增长的引擎?】这个系统可广泛应用到会议同传场景里 , 用户通过手机扫码即可接入会议 , 通过耳机收听翻译后的内容 。 据了解 , 百度还向全球开放了首个面向真实场景的中英文同传数据集 , 通过开源数据集与同传评测 , 推进这个领域的技术交流与发展 。
第三 , 破解多领域翻译的难题 。 目前 , 百度翻译采用预训练+精细化训练、以及领域自适应方法 , 研发面向特定领域的定制翻译引擎 。 疫情期间 , 生物医药领域的翻译模型助力抗疫过程中的语言翻译 , 获得相当多的正面反馈 , 也从一个侧面展现出百度在多领域翻译中的技术积累 。
上述三大底层技术的突破 , 成为支撑百度翻译快速发展的核心技术 , 自2014年以来 , 百度翻译先后获得国内外众多科技成果奖项 , 与此同时 , 基于上述核心技术突破 , 百度翻译的产品创新与功能迭代也进入快车道 。
2.AI驱动下的产品创新与平台进化
由AI技术突破引发的机器翻译变革 , 正深刻影响并定义着新一代翻译产品的创新方向 。
2019年9月的时候 , 百度翻译发布8.0版本 , 新版本带来了第四代词典——AI词典 。 与过往纸质词典、电子词典以及互联网词典不同 , 百度翻译的AI词典将复杂的AI技术封装到词典的场景中 , 为用户带来了全新的交互体验 。

文章图片
譬如 , 利用OCR技术 , 用户只需利用相机拍摄单词即可实现智能取词 , 从而快速翻译;再譬如 , 通过个性化的互动词典与考试大数据分析机制 , 帮助学生用户了解单词类型 , 构建自己的单词库 , 还可以结合考试数据 , 进行有针对性的复习 。
更进一步 , 如果将单词查询看作一个个孤立的点 , 那么利用AI各项技术 , 能否实现连点成线并连线成面呢?百度翻译做了一些尝试 , 一方面 , 结合用户最近查询的内容与百度的智能分发技术 , 为用户量身打造属于每个人的推荐机制 , 利用丰富的视频、音频、文章等 , 向用户提供单词之外的语言学习新体验 。
另一方面 , 优化文档翻译能力 。 百度目前的文档翻译支持Office格式以及PDF的一键上传和翻译 , 可实现中英、中日、中韩语言的互译 , 翻译过程不仅能够保留文档样式排版以及翻译对照查看 , 还能免费导出 。 考虑到文档翻译需要结合文档的上下文关系 , 也是对机器翻译能力的重大考验 , 这背后离不开百度在OCR、NLP的技术积累 , 实现了文档翻译的准确性和处理效率的全面提升 。
这些尝试极大拓展了翻译产品的边界 , 也延伸了语言翻译与语言学习的场景 。 在苹果AppStore上 , 无论是对翻译质量还是产品推荐机制 , 用户都给予了相当正面的评价 。

文章图片
与此同时 , 百度翻译也在从产品向平台进化 。 通过与人人译视界合作 , 推出了百度视频翻译平台 , 只需上传视频文件并填写必要信息 , 即可一站式获取AI和人工视频翻译结果 。 为了方便用户对字幕进行编辑和微调 , 这个平台提供免费的在线字幕编辑工具 , 可实现字幕一键翻译、修改、时间轴调整、导出等功能 。

文章图片
而在疫情期间 , 百度翻译的平台能力得以进一步展现 。 不仅免费开放了生物医药领域的翻译能力、快速搭建了免费的医疗领域定制化产品 , 同时利用上文提及的多语言翻译能力 , 快速增加了大量小语种 , 满足了用户的翻译需求;并通过上文提及的视频翻译平台 , 联合中新视频、人人译视界 , 为国际疫情严峻地区提供防疫视频翻译 , 包括波斯、意大利、英、韩、日等八种语言 , 覆盖约76个国家 , 语种覆盖人口约25.47亿人 , 让「中国经验」在全球抗疫中发挥更大作用 。
3.写在最后:当「重建巴别塔」的愿景遇到人工智能
「打破语言障碍」的努力贯穿在人类历史发展的每一个阶段 , 机器翻译的技术突破也承载着人类「重建巴别塔」的愿景 , 过去十年 , 神经网络的引入 , 极大提升了翻译的准确率与用户体验 , 为机器翻译发展提供了新方向 。
百度翻译过去几年的探索构成一个样本 , 得力于百度在AI领域的技术积累 , 百度翻译一方面持续优化并升级机器翻译底层技术架构 , 另一方面 , 通过将AI技术与翻译场景的结合 , 为数以亿计用户以及众多垂直领域从业者带来更准确的翻译结果、更易用的翻译体验 。
如今 , 全球化驱动着各国持续不断的经济文化交流 , 从线上到线下 , 翻译产品已然成为高频的互联网产品 。 而随着AI技术的持续发展 , 面向未来的翻译产品 , 必然是AI技术驱动的产品 , 在这场考验耐力的竞技赛上 , 依托强大的AI技术积累与持续优化的产品迭代 , 百度翻译在这个春天交出了一份令行业惊艳的答卷 , 也在实现「使人们随时随地与世界自由沟通」的道路上迈出了坚实一步 。 (完)
推荐阅读
- 三国杀:卡牌是否应该“界限突破”?且看这版「界闪电」设计如何
- 温柔气质的连衣裙,已成为夏日必备单品,随意一穿就能打造时尚
- 登上央视,国产加特林机枪或将装备,成为直-20贴身保镖?
- 颜值在线的它,东风风行T5L表现如何?网友:“纸老虎”
- 近视俨然成为一种国病,你是近视会盯上的人吗?
- 花高价买了电动车头盔,如何做好头盔防盗,网友出奇招
- 外行领导内行,关键是要看你如何去领导
- 如何选择小型SUV?开得好,用得好,价格好,最低6万,最高10万,到底便宜不便宜?
- 央视新闻报复性消费会出现吗?当前就业情况如何?这次发布会说清了!
- 年龄大点又如何,提升自律性,依旧美成小姐姐
