亚马逊发布新一代语音AI模型:Nova Sonic
亚马逊发布新一代语音AI模型:Nova Sonic
亚马逊发布了新一代生成式AI模型Nova Sonic,该模型能够原生处理语音并生成自然的语音输出。亚马逊声称,在速度、语音识别和对话质量等基准测试中,Sonic的表现可与OpenAI和谷歌的顶尖语音模型相媲美。
Nova Sonic是亚马逊对新一代AI语音模型的回应,比如为ChatGPT语音模式提供支持的模型,这些新模型比亚马逊Alexa早期采用的更为僵化的模型更自然。最近的技术突破使得传统模型及其支持的数字助手(如Alexa和苹果的Siri)相比之下显得极其生硬。
Nova Sonic通过亚马逊的企业AI应用开发平台Bedrock提供服务,采用新的双向流式API。亚马逊在新闻稿中称,Nova Sonic是市场上"最具成本效益"的AI语音模型,其成本比OpenAI的GPT-4o低约80%。
据亚马逊AGI高级副总裁兼首席科学家Rohit Prasad介绍,Nova Sonic的部分组件已经在为升级版数字语音助手Alexa+提供支持。
Prasad在接受TechCrunch采访时表示,Nova Sonic建立在亚马逊在"大规模编排系统"(即构成Alexa的技术框架)方面的专业知识之上。与竞争对手的AI语音模型相比,Nova Sonic在用户请求路由到不同API方面表现出色。这种能力帮助Nova Sonic"知道"何时需要从互联网获取实时信息、解析专有数据源或在外部应用程序中采取行动,并使用适当的工具来完成这些任务。
亚马逊表示,在双向对话中,Nova Sonic会在"适当的时机"说话,会考虑说话者的停顿和打断。它还能为用户的语音生成文本记录,开发者可将其用于各种应用。
据Prasad介绍,Nova Sonic的语音识别错误率低于其他AI语音模型,这意味着即使用户说话含糊、口误或处于嘈杂环境中,该模型也能相对准确地理解用户意图。在衡量跨语言和方言的语音识别的多语言LibriSpeech基准测试中,亚马逊表示Nova Sonic在英语、法语、意大利语、德语和西班牙语的平均词错误率(WER)仅为4.2%。这意味着在这些语言中,模型识别的每100个词中只有大约4个词与人工转录不同。
在另一个测量多人大声交谈场景的基准测试(增强多方交互)中,亚马逊表示Nova Sonic的WER准确率比OpenAI的GPT-4o-transcribe模型高46.7%。根据亚马逊的数据,Nova Sonic还具有业界领先的速度,平均感知延迟为1.09秒。根据Artificial Analysis的基准测试,这比为OpenAI实时API提供支持的GPT-4o模型(响应时间为1.18秒)更快。
Prasad表示,Nova Sonic是亚马逊构建AGI(人工通用智能)更广泛战略的一部分,该公司将AGI定义为"能够完成人类在计算机上所能做的任何事情的AI系统"。展望未来,Prasad表示亚马逊计划发布更多能够理解不同模态的AI模型,包括图像、视频和语音,以及"将事物带入物理世界时相关的其他感知数据"。
由Prasad监管的亚马逊AGI部门似乎在公司的产品战略中发挥着越来越重要的作用。就在上周,亚马逊推出了Nova Act预览版,这是一个浏览器操作AI模型,似乎正为Alexa+和亚马逊的Buy for Me功能提供支持。Prasad表示,从Nova Sonic开始,公司希望为开发者提供更多内部AI模型用于构建应用。
更多推荐
所有评论(0)