谷歌开源数据集模型,可从录音混音中分离出不同声音

文章图片
近期 , 随着市场对音视频领域的需求和技术发展 , 包括阿里巴巴和微软在内的科技巨头都投入了大量时间和资源试图解决声音分离问题 。
【谷歌开源数据集模型,可从录音混音中分离出不同声音】近日 , 谷歌发布了一个新的数据集——自由通用声音分离数据集 , 简称FUSS , 旨在支持开发能够从录音混音中分离出不同声音的AI模型 。
根据报告显示 , 该模型的使用场景非常丰富 , 如果将其商业化 , FUSS可能会被用于企业用于从电话会议中提取语音 。
正如GoogleResearch的科学家JohnHershey、ScottWisdom和HakanErdogan在一篇文章中解释的那样 , 大部分的声音分离模型都假设混合物中的声音数量是静态的 , 它们要么将少数声音类型的混合物(如语音与非语音)或同一声音类型的不同实例(如第一个扬声器与第二个扬声器)分离出来 。 FUSS数据集则将焦点转移到更普遍的问题上 , 即将任意数量的声音从彼此之间分离出来 。
为此 , FUSS数据集包括了一组不同的声音 , 一个逼真的房间模拟器 , 以及将这些元素混合在一起的代码 , 以实现多源、多类音频的真实性 。
谷歌的研究人员从FreeSound.org中提取音频片段 , 经过过滤 , 排除了那些在混合在一起时无法被人类分离的声音 , 他们编译了包括12377个混合声音长达23个小时的音频 , 从中产生了20000个混合声音 , 用于训练AI模型 , 另外还有1000个混合声音用于验证 , 1000个混合声音用于评估 。
研究人员表示 , 他们使用谷歌的TensorFlow机器学习框架开发了自己的房间模拟器 , 该框架可以生成一个具有「频率依赖性」反射属性的箱形房间的脉冲响应 , 给定一个声源和麦克风位置 。 FUSS附带了每个音频样本所使用的预计算房间脉冲响应 , 以及混音代码 。 此外 , FUSS还提供了一个预训练的、基于掩码的分离模型 , 可以高精度地重构多声源混音 。
谷歌团队计划开放房间模拟器的代码 , 并计划扩展该模拟器 , 以解决计算成本更高的声学特性 , 以及具有不同反射特性的材料和新颖的房间形状 。
"我们希望「FUSS数据集」能够降低新研究的门槛 , 特别是能够快速迭代和应用来自其他机器学习领域的新技术来应对声音分离的挑战 。 "
GitHub地址:
https://github.com/google-research/sound-separation
推荐阅读
- 中韩季中杯A组巡礼,综合数据T1和FPX更好,大概率会携手小组出线
- 钱江晚报浙江有人花108元点了6斤小龙虾外卖,净重竟然只有……数据惊掉下巴!
- RNG中最坑的不是狼行而是小虎!网友总结S9数据发现小虎是倒数第一
- 单场进三球!德甲头号中卫完爆诺伊尔戏耍拜仁,一数据全欧第一
- 刚刚,银行数据公布,我国储户存款少了8000亿元,钱去了哪里
- 客运量每日看数据|5月22日发送旅客2248.2万人次
- 鸿蒙取代安卓又进一步!华为HMS上线独立搜索服务:绕开谷歌GMS限制
- 青岛数据标定基地启用 未来将培养万名数据标定工程师
- 国家电网在电力大数据与泛在电力物联网的实践
- 季中杯各战队常规赛与季后赛数据对比
