Meta推出AI音频模型Audiobox支持语音及文字同时输入

文章目录 [+]

据悉，这款模型基于 Meta 今年 6 月推出的 Voicebox AI 模型，据称 Audiobox 能天生各种环境音、自然对话语音，并整合了音频天生和编辑能力，以便于用户自由天生自己所需的音频。

Meta 先容称，天生高品质音频须要有大量音频库及深厚的领域知识，但大众难以得到这些资源，而该公司推出这个模型旨在降落声音天生门槛，让任何人都更随意马虎制作***、游戏等运用处景的音效。

Meta推出AI音频模型Audiobox支持语音及文字同时输入 Meta推出AI音频模型Audiobox支持语音及文字同时输入人工智能

IT之家创造，这款 Audiobox 模型基于 Voicebox 的“勾引声音”机制，以便于天生目标音频，并合营“流量比对（flow-matching）”扩散模型天生方法，以实现“声音添补（audio infilling）”功能，从而天生多层次的音频。

（图片来自网络侵删）

Meta 测试天生带有雷暴声的下雨音频，并输入一系列提示句进行演示，例如“流水声伴随鸟鸣”、“以大声调快节奏说话的年轻女性”等；同时测试了同时输入人声及笔墨提示，以天生带有感情（“哀痛而缓慢”）并拥有背景音（身处教堂）的语音。

Meta 声称，Audiobox 在音质及“天生内容的准确度” 顺利击败了 AudioLDM2、VoiceLDM 及 TANGO，超越了现有最佳的音频天生模型。

目前 Audiobox 已经开放向特定研究职员及学术界试用，以供测试模型品质及安全性，Meta 声称，他们操持“再过几周将社会全面公开该模型”。

标签：天生模型

姜飞查询访问｜海口多个项目运用涉假变电设备涉案金额巨大