谷歌开源数据集模型，可从录音混音中分离出不同声音随着市场对音视频领域的需求

文章图片
近期，随着市场对音视频领域的需求和技术发展，包括阿里巴巴和微软在内的科技巨头都投入了大量时间和资源试图解决声音分离问题。
【谷歌开源数据集模型，可从录音混音中分离出不同声音】近日，谷歌发布了一个新的数据集——自由通用声音分离数据集，简称FUSS ，旨在支持开发能够从录音混音中分离出不同声音的AI模型。
根据报告显示，该模型的使用场景非常丰富，如果将其商业化， FUSS可能会被用于企业用于从电话会议中提取语音。
正如GoogleResearch的科学家JohnHershey、ScottWisdom和HakanErdogan在一篇文章中解释的那样，大部分的声音分离模型都假设混合物中的声音数量是静态的，它们要么将少数声音类型的混合物（如语音与非语音）或同一声音类型的不同实例（如第一个扬声器与第二个扬声器）分离出来。 FUSS数据集则将焦点转移到更普遍的问题上，即将任意数量的声音从彼此之间分离出来。
为此， FUSS数据集包括了一组不同的声音，一个逼真的房间模拟器，以及将这些元素混合在一起的代码，以实现多源、多类音频的真实性。
谷歌的研究人员从FreeSound.org中提取音频片段，经过过滤，排除了那些在混合在一起时无法被人类分离的声音，他们编译了包括12377个混合声音长达23个小时的音频，从中产生了20000个混合声音，用于训练AI模型，另外还有1000个混合声音用于验证， 1000个混合声音用于评估。
研究人员表示，他们使用谷歌的TensorFlow机器学习框架开发了自己的房间模拟器，该框架可以生成一个具有「频率依赖性」反射属性的箱形房间的脉冲响应，给定一个声源和麦克风位置。 FUSS附带了每个音频样本所使用的预计算房间脉冲响应，以及混音代码。此外， FUSS还提供了一个预训练的、基于掩码的分离模型，可以高精度地重构多声源混音。
谷歌团队计划开放房间模拟器的代码，并计划扩展该模拟器，以解决计算成本更高的声学特性，以及具有不同反射特性的材料和新颖的房间形状。
"我们希望「FUSS数据集」能够降低新研究的门槛，特别是能够快速迭代和应用来自其他机器学习领域的新技术来应对声音分离的挑战。 "
GitHub地址：
https://github.com/google-research/sound-separation

谷歌开源数据集模型，可从录音混音中分离出不同声音

推荐阅读

郭碧婷|小S自曝常去大S家大哭，在家被丈夫嫌恶心，与许雅钧开放式婚姻

《光辉岁月》是谁的歌？含义是什么？

小镇的夕阳|华为位列第五，但也是中国唯一一个入围。，全球研发投入50强

黑心菊怎么繁殖黑心菊怎么繁殖后代

「生肖」6月尾，横财一路发，3大生肖事业顺，扬眉吐气变富翁

品玩今晚7:30，微信禁令主案律师和你聊聊背后不能被忘记的故事

小孩呕吐肚子疼不拉稀怎么回事

王艳|王艳懒理老公被抓传闻！街头买糖葫芦享受快乐时光，却被发现端倪

ZAKER|拜登抨击特朗普因据报对美军施以赏金

腿通六经，可观诸病

农村有一种野果，长似“葡萄”不能生吃

北京凯程考研培训机构怎么样？

徽州茶道的13个讲究介绍

「宫缩」宫缩频繁怎么办为何会宫缩频繁

『大猩猩一窝』她只能靠穿紧身裙逆袭，扭胯一刹那我惊艳了，没有室友郑爽的好命

电压力锅|电压力锅如何挑选电压力锅品牌有哪些

公关界的007|从菜鸟裹裹X阴阳师看品牌跨界联动的底层逻辑

未来网、燃新闻|国家储备粮有质量问题？中储粮集团紧急回应

大熊猫“香香”即将归国上野动物园策划活动表谢意

不同礼物代表的意思送礼物的意思