亚马逊发布新一代语音AI模型：Nova Sonic

taibaili2023

326人浏览 · 2025-04-10 09:35:04

taibaili2023 · 2025-04-10 09:35:04 发布

亚马逊发布了新一代生成式AI模型Nova Sonic，该模型能够原生处理语音并生成自然的语音输出。亚马逊声称，在速度、语音识别和对话质量等基准测试中，Sonic的表现可与OpenAI和谷歌的顶尖语音模型相媲美。

Nova Sonic是亚马逊对新一代AI语音模型的回应，比如为ChatGPT语音模式提供支持的模型，这些新模型比亚马逊Alexa早期采用的更为僵化的模型更自然。最近的技术突破使得传统模型及其支持的数字助手（如Alexa和苹果的Siri）相比之下显得极其生硬。

Nova Sonic通过亚马逊的企业AI应用开发平台Bedrock提供服务，采用新的双向流式API。亚马逊在新闻稿中称，Nova Sonic是市场上"最具成本效益"的AI语音模型，其成本比OpenAI的GPT-4o低约80%。

据亚马逊AGI高级副总裁兼首席科学家Rohit Prasad介绍，Nova Sonic的部分组件已经在为升级版数字语音助手Alexa+提供支持。

Prasad在接受TechCrunch采访时表示，Nova Sonic建立在亚马逊在"大规模编排系统"（即构成Alexa的技术框架）方面的专业知识之上。与竞争对手的AI语音模型相比，Nova Sonic在用户请求路由到不同API方面表现出色。这种能力帮助Nova Sonic"知道"何时需要从互联网获取实时信息、解析专有数据源或在外部应用程序中采取行动，并使用适当的工具来完成这些任务。

亚马逊表示，在双向对话中，Nova Sonic会在"适当的时机"说话，会考虑说话者的停顿和打断。它还能为用户的语音生成文本记录，开发者可将其用于各种应用。

据Prasad介绍，Nova Sonic的语音识别错误率低于其他AI语音模型，这意味着即使用户说话含糊、口误或处于嘈杂环境中，该模型也能相对准确地理解用户意图。在衡量跨语言和方言的语音识别的多语言LibriSpeech基准测试中，亚马逊表示Nova Sonic在英语、法语、意大利语、德语和西班牙语的平均词错误率（WER）仅为4.2%。这意味着在这些语言中，模型识别的每100个词中只有大约4个词与人工转录不同。

在另一个测量多人大声交谈场景的基准测试（增强多方交互）中，亚马逊表示Nova Sonic的WER准确率比OpenAI的GPT-4o-transcribe模型高46.7%。根据亚马逊的数据，Nova Sonic还具有业界领先的速度，平均感知延迟为1.09秒。根据Artificial Analysis的基准测试，这比为OpenAI实时API提供支持的GPT-4o模型（响应时间为1.18秒）更快。

Prasad表示，Nova Sonic是亚马逊构建AGI（人工通用智能）更广泛战略的一部分，该公司将AGI定义为"能够完成人类在计算机上所能做的任何事情的AI系统"。展望未来，Prasad表示亚马逊计划发布更多能够理解不同模态的AI模型，包括图像、视频和语音，以及"将事物带入物理世界时相关的其他感知数据"。

由Prasad监管的亚马逊AGI部门似乎在公司的产品战略中发挥着越来越重要的作用。就在上周，亚马逊推出了Nova Act预览版，这是一个浏览器操作AI模型，似乎正为Alexa+和亚马逊的Buy for Me功能提供支持。Prasad表示，从Nova Sonic开始，公司希望为开发者提供更多内部AI模型用于构建应用。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

587章:汽车制造的主要流程

设计团队使用CAD软件进行三维建模，确保车辆的外观、结构和性能满足要求。总装工艺总装是将发动机、底盘、内饰和电子系统等组装到车身上的过程。智能制造工业4.0技术应用于汽车制造，包括物联网、大数据分析和人工智能。智能工厂实现生产过程的实时监控和优化，提高生产效率和产品质量。路试与台架测试成品车辆需经过多种路况测试和实验室台架测试，确保性能和安全达标。在线检测生产线上安装多种传感器和视觉系统，

讯飞AI开发者社区

648章:汽车制造的主要流程

讯飞AI开发者社区

AI革新药物研发：基因组大数据新突破

基因组大数据分析已成为药物研发的核心环节，人工智能（AI）技术通过高效处理海量数据，显著加速了靶点发现、药物筛选和个性化治疗等流程。来源网站：pyklqwq.cn/article/25jNXMc/39830.html。来源网站：pyklqwq.cn/article/25KljJd/61632.html。来源网站：pyklqwq.cn/article/25AECkl/15960.html。来源网站：