AI在线 AI在线

消息称 OpenAI 将推出多模态人工智能数字助理:可语音对话、识别物体

据 The Information 报道,OpenAI 最近向部分客户展示了一款新型多模态人工智能模型,该模型能够进行语音对话和物体识别。有消息人士透露,这或许就是 OpenAI 计划在即将到来的 5 月 13 日正式发布的内容之一。图源 Pexels报道称,相比于 OpenAI 现有的独立图像识别和文本转语音模型,该新型模型能够更快、更准确地处理图像和音频信息。例如,它可以帮助客服人员“更好地理解来电者的语气语调,判断他们是否在使用讽刺语气”。理论上,该模型还能辅助学生学习数学知识,或翻译现实世界中的标志文字。不

据 The Information 报道,OpenAI 最近向部分客户展示了一款新型多模态人工智能模型,该模型能够进行语音对话和物体识别。有消息人士透露,这或许就是 OpenAI 计划在即将到来的 5 月 13 日正式发布的内容之一。

消息称 OpenAI 将推出多模态人工智能数字助理:可语音对话、识别物体

图源 Pexels

报道称,相比于 OpenAI 现有的独立图像识别和文本转语音模型,该新型模型能够更快、更准确地处理图像和音频信息。例如,它可以帮助客服人员“更好地理解来电者的语气语调,判断他们是否在使用讽刺语气”。理论上,该模型还能辅助学生学习数学知识,或翻译现实世界中的标志文字。

不过,消息人士也指出,虽然该模型在某些问题解答方面能够超越 GPT-4 Turbo,但仍有可能出现自信地给出错误答案的情况。

消息称 OpenAI 将推出多模态人工智能数字助理:可语音对话、识别物体

IT之家注意到,开发者 Ananay Arora 发布了一张包含通话相关代码的截图,暗示 OpenAI 可能正在为 ChatGPT 加入打电话的功能。Arora 还发现了一些证据表明 OpenAI 正在配置用于实时音视频通信的服务器。

OpenAI 首席执行官萨姆・阿尔特曼 (Sam Altman) 已经明确否认即将发布的新品是代号为 GPT-5 的大型语言模型(据称其性能将大幅优于 GPT-4)。The Information 则表示,GPT-5 可能将在今年年底前正式亮相。阿尔特曼还表示,OpenAI 不会发布新的人工智能搜索引擎。

如果 The Information 的报道属实,OpenAI 的新品发布仍可能会对即将举行的 Google I / O 开发者大会产生一定影响。众所周知,谷歌也在测试利用人工智能进行电话呼叫的技术。此外,谷歌还有一个据传即将发布的项目,代号为“Pixie”。Pixie 是一款能够通过设备摄像头识别物体的多模态 Google Assistant 替代品,可以为用户提供诸如“如何前往购买地点”或“如何使用”等信息。

相关资讯

​OpenAI 即将发布 GPT-5,数学能力有别于 IMO 金牌模型

在最近的消息中,OpenAI 的 CEO Sam Altman 和研究科学家 Alexander Wei 宣布,备受期待的 GPT-5即将发布。 这一消息吸引了广泛的关注,尤其是在他们同时宣布该公司一款新模型在国际数学奥林匹克竞赛(IMO)中获得金牌的背景下。 尽管人们对 GPT-5的期待值高涨,但 Altman 和 Wei 在发布消息时强调,GPT-5并不是在 IMO 竞赛中获奖的模型。
7/21/2025 11:42:34 AM
AI在线

​OpenAI 即将发布 GPT-5,预计在八月亮相

据媒体报道,OpenAI 的下一代语言模型 GPT-5预计将在八月初正式发布。 此前,OpenAI CEO 山姆・阿尔特曼(Sam Altman)在最近的一次播客中透露,该模型的发布进展顺利,并在社交媒体上也提到 “我们即将发布 GPT-5”。 这引发了科技界对 GPT-5的一系列期待。
7/25/2025 3:21:21 PM
AI在线

OpenAI 计划发布开放权重模型,打破“闭源”惯例

据知情人士透露,OpenAI 正在准备推出其首个开放权重模型,最早可能于下周发布。 这款新的语言模型将允许公司和政府在 OpenAI 和微软 Azure 服务器之外的供应商上自行运行,标志着 OpenAI 自2019年发布 GPT-2以来首次发布开放权重模型。 此举也打破了 OpenAI 自2023年与微软签署独家云提供商协议以来,其语言模型一直保持闭源的惯例。
7/11/2025 11:12:56 AM
AI在线
  • 1