OpenAI计划一季度发布新一代音频模型
1月2日消息,据科技媒体SiliconANGLE报道,OpenAI计划在今年第一季度推出一款全新的音频模型,旨在彻底重新定义机器与人类之间的语音交互体验。
尽管OpenAI此前已经在GPT-4o中展示了令人印象深刻的高级语音模式(AdvancedVoiceMode),但即将发布的这款新模型据称在架构上进行了更深层的优化。
新模型预计将具备更低的端到端延迟,能够实现几乎无感知的实时打断与对话,同时在情感理解与表达上达到了新的高度。这意味着,AI不仅能听懂用户说了什么,还能敏锐地捕捉到用户语调中的犹豫、兴奋或愤怒,并用带有相应情感色彩的语气进行回应,从而通过图灵测试的语音版。
在过去的一年里,Google凭借其GeminiLive功能在安卓生态中迅速普及了自然语言对话,而像ElevenLabs这样的垂直领域独角兽则在语音合成(TTS)和声音克隆API市场占据了大量份额。
OpenAI急需一款具有统治力的音频基座模型,不仅为了服务C端用户,更为了向开发者提供更强大的API,以夺回在企业级语音服务(如智能客服、实时翻译)市场的主导权。
此外,这款音频模型也被视为OpenAI构建下一代“AI代理”(Agent)战略的重要入口。随着AI从单纯的聊天机器人进化为能够代替人类执行任务的智能体,语音正在取代键盘成为最高效的指令输入方式。
如果OpenAI的新模型能够实现极高的准确率和极低的能耗,它极有可能成为未来可穿戴设备和智能家居系统的默认“听觉中枢”。目前,OpenAI方面尚未对具体发布日期和技术细节置评,但市场普遍预期,这将在未来几个月内引发新一轮的语音AI技术竞赛。(鞭牛士、AI普瑞斯编译)
热点资讯
- 单舰直出,“万吨大驱”实战化训练压迫感十足
- 拼多多加码扶持“新质供给”,水果盆栽从无人问津逆袭成全网爆款
- 图表丨这些情况容易中暑!警惕这几类“高危场景”
- OpenAI计划一季度发布新一代音频模型
- 俄学者: 俄罗斯必须与堕落的欧洲切割, 将国际战略重心转向西
- 新一代日产聆风发布:世界首款量产纯电车变身SUV
- 北控新签约4名球员
- 外援重伤可立即补报? 朱艺: 外援补报名只能在夏窗进行
- 15分钟极速补能!中山首个搭载华为工商业“光储充”全产品亮相
- 万益蓝狂卖7亿瓶益生菌,却戴不上“蓝帽子”?
