AI在线 AI在线

Grok大更新!视觉能力、多语言音频处理与实时搜索功能震撼上线

由xAI打造的生成式人工智能聊天机器人Grok迎来了一次里程碑式的更新,其功能全面升级,不仅新增了视觉处理能力,还实现了多语言音频处理以及语音模式下的实时搜索功能。 这一更新标志着Grok在多模态AI领域的重大突破,为用户提供了更智能、更便捷的交互体验。 以下,AIbase将为您详细解析此次更新的亮点与意义。

由xAI打造的生成式人工智能聊天机器人Grok迎来了一次里程碑式的更新,其功能全面升级,不仅新增了视觉处理能力,还实现了多语言音频处理以及语音模式下的实时搜索功能。这一更新标志着Grok在多模态AI领域的重大突破,为用户提供了更智能、更便捷的交互体验。以下,AIbase将为您详细解析此次更新的亮点与意义。

QQ_1745369630380.png

视觉能力突破

Grok的视觉处理能力是此次更新的核心亮点之一。尽管早在2024年4月,xAI曾宣布Grok-1.5Vision(Grok-1.5V)具备处理文档、图表、截图和照片等视觉信息的能力,但该版本从未向公众开放。如今,Grok的视觉功能正式上线,用户可以通过上传图片,让Grok分析复杂视觉内容,例如解读数据图表、识别物体或将视觉信息转化为可执行代码。这不仅提升了Grok在实际场景中的应用价值,还使其在空间理解和视觉推理任务中表现出色,特别是在RealWorldQA基准测试中展现了领先优势。  

值得一提的是,Grok的视觉能力与其实时数据获取功能结合,能够进一步增强其在新闻分析、社交媒体内容解读等场景中的表现。例如,用户可以上传一张新闻图片,Grok即可结合X平台上的实时信息,提供背景分析与事件解读。

多语言音频处理:145+种语言的语音交互新体验

Grok的多语言音频处理功能同样令人瞩目。通过集成“VoiceWave”扩展,Grok现支持145种以上语言的实时语音交互,包括英语、西班牙语、法语、日语、汉语、土耳其语和印地语等,覆盖全球主要语种。这一功能不仅实现了自然流畅的语音对话,还支持语音转文本、语音重放以及同步文本高亮显示,极大提升了用户体验。

对于需要跨语言沟通的用户而言,Grok的多语言音频处理无疑是一大福音。无论是学习新语言、处理多语言客户服务,还是进行国际化的内容创作,Grok都能以原生发音和可调节的语速与语调,提供个性化语音响应。据悉,该功能已通过Chrome Web Store的扩展程序实现,用户可通过简单的语音指令激活并自定义交互设置。

语音模式实时搜索:DeepSearch赋能即时信息获取

Grok在语音模式下新增的实时搜索功能,进一步巩固了其作为“真相探寻者”的定位。依托DeepSearch技术,Grok能够通过语音指令即时从网络和X平台获取最新信息,生成准确、详尽的回答。相比传统的文本输入,语音搜索让用户能够更快速地获取实时趋势、新闻动态或热点话题的洞察。

例如,当用户询问“最近的科技新闻”时,Grok不仅能以语音形式快速回应,还能引用X平台上的最新帖子和网络资源,确保信息的时效性与可信度。此外,DeepSearch的透明推理过程允许用户查看Grok的逻辑推导步骤和来源文档,进一步提升了信息的可信度。

功能背后的技术支撑:Colossus超算与强化学习

此次更新的成功离不开xAI在技术层面的持续投入。Grok3的训练依托Colossus超级计算机,配备20万个NVIDIA H100GPU,计算能力是前代模型的10倍。这使得Grok在处理复杂任务时速度更快、准确性更高,特别是在需要多模态融合的场景中表现出色。

此外,Grok3通过大规模强化学习(RL)优化了其推理能力,能够在几秒到几分钟内完成错误纠正、方案探索和答案生成。这种“像人类一样思考”的能力,让Grok在数学、科学和编码等领域的基准测试中,超越了包括GPT-4o、Gemini1.5和Claude3.5Sonnet在内的多个竞品模型。

相关资讯

马斯克xAI收购视频生成初创公司Hotshot,AI视频领域竞争再升级

硅谷科技巨头的版图扩张再添新篇!埃隆·马斯克旗下的xAI公司今日宣布收购专注于视频生成AI技术的初创公司Hotshot,这一战略收购将为xAI在多模态AI技术领域注入新的活力。 Hotshot首席执行官Aakash Sastry在X平台上正式宣布了这一消息,但未透露具体的交易金额。 作为曾获得Reddit联合创始人Alexis Ohanian和SV Angel等知名投资方支持的新锐科技公司,Hotshot(正式名称为Natural Synthetics Inc.)在AI视频生成领域积累了独特的技术优势。
3/18/2025 11:35:00 AM
AI在线

马斯克称 Grok 3 将于 2 月 18 日发布:地球上最聪明的人工智能

马斯克在社交平台 X 上表示,Grok 3 大模型将于太平洋时间周一晚上 8 点(IT之家注:北京时间 2 月 17 日 12 点)发布,届时将进行现场演示,马斯克称其为地球上最聪明的人工智能。
2/16/2025 11:23:49 AM
远洋

马斯克称下周推出 Grok 3.5:首个能准确回答有关火箭发动机问题的 AI

马斯克宣布下周将向SuperGrok订阅者发布Grok 3.5早期测试版,称这是首个能准确回答火箭发动机或电化学技术问题的AI。Grok 3.5能从第一原理推理并得出互联网上不存在的答案。#AI##马斯克#
4/29/2025 3:58:47 PM
远洋
  • 1