科技小辛辛|在网易有道做语音算法工程师是一种怎样的体验？鱼羊发自凹非寺量子位报道|公众号QbitA

鱼羊发自凹非寺量子位报道|公众号QbitAI
一个成立不到两年的团队，两个初入职场的新人，杀入顶会挑战赛能拿下怎样的成绩？
时限是， 10天。
近日，全球语音顶会INTERSPEECH2020「口音英语语音识别挑战赛」结果公布，一支名叫「大耳朵图图喵喵喵」的团队摘下了两大赛道的第二名和第三名。
参赛选手是这位：

文章图片
△大耳朵图图本喵
啊不，其实来自他们当中。

文章图片
说起网易有道与AI语音技术相关的产品，大家或许都不陌生，比如丁磊多次安利、上市都带着的有道词典笔……
相比在市场上取得的认可，许多人可能不会想到，有道AI语音背后的团队非常年轻：成立不到两年，大部分都是应届生，来自知名语音实验室，或者海外高校深造项目。
「参赛其实是验证技术方案」
此次拿奖的时来和HarryWu（均为花名），就是今年7月刚刚加入网易有道的应届生。

文章图片
事实上，打这场比赛，对于他们而言更像是一次对工作成果的「突击测验」：被通知要参赛时，距离提交测试结果的截至日期只剩下10天了。
时间紧迫，两人临时组队，又是代表团队第一次出征算法赛事，但在心态上他们倒还真一点也不慌。
用有道之前积累的技术去参赛， 10天也足够了。
攻坚克难了这么久，是时候拿出来检验一下了。
INTERSPEECH2020「口音英语语音识别挑战赛」由中国计算机学会、西北工业大学、上海交通大学、新加坡南洋理工大学等多家重量级机构联合举办，共分为两个赛道：
Track1是口音种类识别，参赛者需要使用官方提供的各种口音英语训练数据，训练语种分类模型。
Track2则是口音英语语音识别，参赛者需要使用规则限定的训练数据，训练语音识别模型。

文章图片
简单来说，一方面是要做英语口音的分类，另一方面是要做语音识别，把带口音的英语语音转成文字。
时来和Harry的工位就挨在一起，两人当即一合计，觉得在语音识别方面，基本可以原封不动地用上现成的技术——有道词典、精品课、云笔记等一系列产品里都有ASR技术的身影，平时的研发工作中，早已经考虑到了复杂口音的情况，识别准确率和响应速度都是经过实战检验的。
而在口音分类这个比较新颖的任务上，他们正在研究中的多语种技术方案正好能够派上用场：
原来会觉得相关的技术方案还处在实验室阶段，要实际应用起来还需要学术界进一步验证。但既然比赛有这个机会，正好可以拿这个方法试验一下。
程序员打比赛，就是直接开干，效率拉满——就在工位上随时讨论。而事后两人回想起来，印象最深的不是时间有多紧、加了多少班，恰恰是设计算法、测试结果的这个过程：
一开始，在口音分类这个全新的任务上，两人想到这会跟说话人的特征有比较强的相关性。而在引入这一信息之后，他们的方案还真在开发集上取得了令人惊喜的效果。
但在测试集开放之后，进一步的验证结果却差强人意。直到比赛结束，测试集公布，他们才发现测试集里说话人的数目，是训练集和开发集加起来的差不多10倍，即一个说话人非常复杂的场景。
虽说碰上了这样那样的小波折，但其实对于两位语音算法工程师而言，这反而更加坚定了他们攻关AI语音技术的决心：语音领域技术相对成熟，但远没有到「做完了」的程度，现实的复杂场景、各种各样的噪音、方言口音，都仍有值得钻研之处。

科技小辛辛|在网易有道做语音算法工程师是一种怎样的体验？

推荐阅读

G时尚|张慧雯身着简约针织开衫亮相品牌活动现场，大秀好身材

抖音短视频的核心是什么？

《妙先生》不会让人人都喜欢，动画片也不是门生意丨揭秘

智通财经|| 房多多(DUO.US)股价跌超14% 近日股价异常波动，美股异动

英红九号红茶的泡法,英红九号红茶的功效与作用

旅游风景有趣事▲做事特别努力上进，不愿让人看低的三个生肖，颜值不高

法治日报|网络暴力屡禁不止专家建议：增强行政执法力量

怎样锻炼出手臂肌肉呢？

吴磊|吴磊刚过完年就开工，合作赵今麦，奔赴国外，制作班底强大

官宣！2020年11月豪华车销量排名：奥迪爆发，奔驰C级下滑

官方通报岳阳一副局长打砸营业厅|岳阳一副局长打砸营业厅大吼：我收拾你！官方通报来了

通天战队|72变定格特效，电影级推镜头转场，非PR手法怎么实现？

「智选车」凯迪拉克CT4实拍解析，同级别唯一后驱车型

寝室公共大澡堂，无隔断，怎样应对南方人，南方大学。不存在啥黑，真的无法接受

大河客户端|演员谢园去世享年61岁，曾与葛优梁天合称喜剧三剑客

中国军网、强军网倾情推出《军营过大年》

电压力锅的使用寿命

欠款起诉胜诉后对方没钱还怎么办

欧联杯|穆帅抱怨热刺赛程太紧，兰帕德：其他球队的赛程同样密集

冰片外敷会出现什么副作用？