AI入侵播客圈！比真人配音还逼真？实测微软AI语音角色“晓晓”

文章目录 [+]

在播客App小宇宙上，“Hacker News”账号用“晓晓”的声音制作了一期节目，听众在评论区留言表示“想打赏”。

实际上，这已经不是AI第一次入侵播客圈了。

AI入侵播客圈！比真人配音还逼真？实测微软AI语音角色“晓晓” AI入侵播客圈！比真人配音还逼真？实测微软AI语音角色“晓晓” 智能科技

2022年10月，一段美国有名播客主持人乔·罗根（Joe Rogan）与苹果公司已故创始人史蒂夫·乔布斯的对话音频在外网引发热议。
长达20分钟的播客节目中，两人磋商了包括乔布斯的大学经历、对打算机的见地和个人崇奉在内的多个话题。

（图片来自网络侵删）

这段播客音频由podcast.ai推出，为了天生这段内容，podcast.ai利用了乔布斯的传记和网络上关于他的所有录音，通过Play.ht人工智能措辞模型进行了大量演习。
此外，节目主持人罗根的语音也是AI天生的。

2023年7月，海内播客节目《大俗小雅》发布了一期完备由AI天生故事情节和语音的播客，在小宇宙上得到了超5000次收听，评论区还有听众留言表示，误把AI天生语音中的不自然当成了两位主播“感情状态不好”。

从乔布斯“复活”录播客到《大俗小雅》的AI播客实验，AI天生人声面临的一个紧张争议是缺少真人发声时的抑扬抑扬和情绪，如声音的单调和机器化，以及在节奏和语调上的不自然。
这些都是阻碍AI语音技能进一步落地运用在有声内容创作上的难题。

如今，微软“晓晓”已经正式上线可用。
它可以成为中文创作者新的语音天生利器吗？AI+有声内容创作又有哪些新玩法？“头号AI玩家”进行了一番探究。

实测微软“晓晓”：比真人配音还逼真？

“晓晓”是微软云做事平台Azure旗下TTS（文本转语音）语音库中的一个女性语音角色。
目前有两个版本：

第一个版本是中文版“晓晓”，它支持21种不同的说话风格，适用于有声书、新闻、AI客户做事以及多情绪表达等场景。

在“多情绪表达”场景演示中，她能够在多种台词之间自若切换感情，并精准匹配相应的语气和语调，整体表现既自然又流畅。

第二个版本是多措辞版本的“晓晓”，支持91种措辞的文本到语音转换，但仅供应默认的说话风格选项。

目前，两个版本的“晓晓”都可以在Azure官网免费体验（链接已同步整理至文末）。

由于申请微软Azure账户和支配语音做事的流程较为繁芜，在此先附上详细操作步骤，以供参考：

首先，进入微软Azure官网，创建一个免费账户。

新用户注册后可享12个月免费做事，做事期满后，每月仍可得到50万字符的免费额度。
对付大多数创作者而言，这样“量大管饱”的免费额度已然够用。

全体注册和利用过程，无需邪术，但须要供应一张VISA、万事达等信用卡或借记卡进行验证。
实测中，我们用海内银行发行的VISA信用卡以及海内手机号完成了注册。

验证成功后，跳转到Azure主页，进入掌握台，在“AI+机器学习”种别下，找到“语音”点击“Create”，支配语音做事。

进入创建语音做事页面，定价层选择“Free F0（即免费做事）”，区域选择你想利用的TTS语音支持的地区，由于是测试“晓晓”，在这里我们末了选择了“East Asia（东亚）”。

末了，点击页面下方的“审阅并创建”，就完成了支配。

接着转到“有声内容创作”页面，就可以投喂文本，让AI替你天生语音了。

界面布局紧张包括中间的文本操作区和右侧的调音编辑工具栏。
用户可以一次性编辑全体文本，也可以对单个句子或词语进行微调。

详细编辑功能涵盖朗读角色切换、停顿设置、朗读规则调度以及语调语速掌握等，都支持用户根据须要进行自定义修正。

例如，不才面这段文本中，我们将叙事旁白设置成了中文版晓晓的“新闻”说话风格，并在同一个句子中切换朗读角色，营造出小说中的对话感。

测试1,头号AI玩家,59秒

比拟测试中，我们让其用不同感情说同一句话，也表现出明显的区分度，效果令人惊喜。

测试2,头号AI玩家,12秒

而多措辞版本的“晓晓”虽然只支持默认的说话风格，但其天生的声音效果既自然又流畅，并且能够处理文本中的语气词，乍一听根本无法分辨真假。

晓晓多措辞版测试1,头号AI玩家,8秒

不过，在我们的测试中，她只有在措辞技能选择“中文普通话”时，才可以还原早前微软放出的演示效果，天生的人声自然逼真。

如果选择其他措辞或地区方言，如粤语或台湾普通话，声音就又回到“一听即AI”的效果。

晓晓多措辞版测试2,头号AI玩家,10秒

据微软官方先容，包括多措辞版晓晓在内的9种声音角色是基于大措辞模型演习的，如OpenAI搭建在Azure云上的GPT做事，因此尤其善于口头对话、日常谈天等对措辞自然度和表现力哀求较高的场景。

除了利用TTS语音库预设置好的声音，微软Azure还供应了声音定制服务，支持品牌或个人利用有版权的音频样本作为演习数据，创建自定义语音。

AI+有声内容，进入真假难辨时期

从有声书到短视频配音，再到软硬件内随处可见的文本朗读功能，AI天生的有声内容已经成为普通人日常最频繁利用的AI技能之一。

以微软的语音角色“云希”为例，只要你刷过短视频，就一定能认得他的声音。

由于去除了以往AI的机器式发音和单一腔调，“云希”在影视讲授配音中广受欢迎，迅速火遍全网。
同时，它在有声书领域也得到了广泛运用，许多网友会借助接入微软TTS做事的软件和API，利用“云希”的声音文本转语音，提升听书体验。

技能快速迭代下，如今市情上涌现了越来越多方便易用的产品。
例如，如喜马拉雅旗下的音剪，即支持一站式AI音频创作，提升有声书制作效率、降落创作本钱。

详细到AI文本转语音赛道上，国外爆火的产品如ElevenLabs对中文的支持度并不高，而海内的MiniMax、火山引擎等产品，虽然可以天生较为流畅的中文朗读音频，但仍未达到播客声音制作所需的自然度和情绪表达水平。

例如，在《大俗小雅》的AI播客实验中，不少网友反馈AI天生的声音“念稿”痕迹很明显。

相较短视频和有声书，AI语音技能在播客场景的运用还很有限。

“头号AI玩家”从多方理解到，目前播客创作者会利用ChatGPT等文本天生模型，来提高前期内容策划、内容大纲以及播客内容择要（shownotes）等文本内容的生产效率。

但在声音天生上，播客内容制作追求的不仅仅是流畅的朗读，更主要的是通过声音通报情绪，增强听众的沉浸感和情绪共鸣。

此外，播客声音内容的强IP属性，以及高度人格化的表达，也是创作者在利用AI天生语音时须要谨慎考量的问题。
这些特性哀求AI不仅要准确传达信息，还要能够模拟人类的情绪和语调，与听众建立情绪联系。

对付能够自若地通过口语表达自己不雅观点的创作者而言，独特的口音或语调反而可以形成一种差异化上风，有助于塑造创作者的个人风格。

随着AI天生语音、克隆语音越来越真实，也不乏有内容创作者开始利用AI技能来制作更新频率高的资讯类语音播报内容。

例如，播客节目《十字路口》主播就曾在一期节目中透露，得到联合创始人快刀青衣主理的一档AI资讯节目《快刀广播站》，便是只写脚本，语音部分由AI来完成，效果相称自然。

AI语音技能的发展，无疑为内容创作者供应了新的工具和可能性。

尤其是微软最近推出的多措辞版晓晓，进一步展示了AI语音技能在播客内容制作中的运用潜力。
可以预见，在技能抹平内容创作门槛的同时，内容创作也将前所未有的“卷”，如何打造差异化内容，是每一个创作者都须要思考的问题。

标签：晓晓语音

AI入侵播客圈！比真人配音还逼真？实测微软AI语音角色“晓晓”

相关文章

查询访问｜7000元的手机二手估价才值700元？线上收受接收为啥“伤我心”

TPU耳机收纳壳

集创北方取得电平移位器、芯片和电子设备专利显著减小晶体管尺寸面积并降低功耗、成本

锤子科技新品宣告会最新预热海报：不雅光箱实锤还有加湿器和手机

「针织作品」齐心合力的时尚：情侣套装潮流

飞书产品副总裁洪涛：飞书项目 IPD产品解决筹划全新宣告

最近发表

查询访问｜7000元的手机二手估价才值700元？线上收受接收为啥“伤我心”

青少年耐久陷溺收集或激发功能性脑病专家：早干预早治疗

产品拍摄设计过程中的常见问题

“小刚同学”背后泄露出的是评测乱象

科迈股份防老剂TMQ入选国家“制造业单项冠军产品”

TPU耳机收纳壳

1998块的二手魅族牌电冰箱Pro7开箱木耳黑色为之惊艳

数字电商勇立潮头记第21届“甘肃省青年文明号”集体白银云创空间信息科技有限公司

若何成为一名社群分享师？考证时间、报考前提、流程、就业倾向

以下是为您生成的一篇以“固定机位安然拍摄

热门文章

标签列表