应用

刚刚，Anthropic新CTO上任，与Meta、OpenAI的AI基础设施之争一触即发

就在刚刚，Anthropic 迎来了新的首席技术官（CTO）—— 前 Stripe 首席技术官 Rahul Patil。据报道，Rahul Patil 于本周早些时候加入公司，接替了联合创始人 Sam McCandlish，后者将转任首席架构师一职。 Rahul Patil 在社媒上表达了自己加入 Anthropic 的激动之情与未来期许。

10/3/2025 2:39:00 PM 机器之心

全球价值最高创企诞生，OpenAI估值创纪录来到5000亿美元

几天前，OpenAI 重磅发布了全新一代的视频大模型 Sora 2，不仅在物理准确性、真实感和可控性方面都优于以往的系统，还具备同步的对话和音效能力。 Altman 称之为「ChatGPT for creativity」时刻。就在昨天，OpenAI 的「身价」又涨了。

10/3/2025 2:36:00 PM 机器之心

Sora 2数手指翻车，奥特曼成第一批「受害者」，被AI玩成最惨打工人

奥特曼大型社死现场。 Sora 2，强大如斯，却也数不明白手指。 X 网友 @fofrAI 整了个提示词测试 Sora 2：a man counts out loud from 1 to 10, using his fingers and holding them up as he goes.（一名男子一边举起手指，一边大声数着从 1 到 10。

10/2/2025 3:29:00 PM 机器之心

开发者狂喜：Thinking Machines发布首款产品Tinker，后训练麻烦全给包了

对于大模型开发者 / 研究者来说，今天是重要的一天。因为刚刚，OpenAI 前 CTO Mira Murati 创办的 Thinking Machines 推出了首款产品 ——Tinker。简单来说，Tinker 是一个 API，用于帮开发者 / 研究人员微调语言模型。

10/2/2025 3:13:00 PM 机器之心

小红书发布FireRedChat：首个可私有化部署的全双工大模型语音交互系统

小红书智创音频团队推出业内首个支持私有化部署的全双工大模型语音交互系统 FireRedChat，自研流式 pVAD 与 EoT 让语音交互更加自然，首发级联与半级联两套实现，端到端时延逼近工业级应用。彻底开源、可私域落地，打造真正 “知冷暖、能共情、懂表达” 的语音 AI。小红书智创音频团队发布 FireRedChat—— 业内首个支持私有化部署的全双工大模型语音交互系统，直击延迟高、噪声敏感、可控性差、依赖外部 API 等痛点。

10/2/2025 3:07:00 PM 机器之心

Sora 2干翻Veo 3？超全对比实测：会中文脱口秀，但体操翻车，附有效邀请码

这次，OpenAI 又搞了波大的，祭出 Sora2，可以直接生成最长 20 秒的 1080p 视频。比如，有网友拿奥特曼生成了 GPU 外卖小哥，甚至还有去超市偷显卡的剧情。相比于旧版本，Sora 2 在物理准确性、真实感和可控性方面都更胜一筹，而且它还和谷歌 Veo3 一样具备音画同步能力。

10/1/2025 8:17:00 PM 机器之心

节前重磅：开源旗舰模型新SOTA，智谱GLM-4.6问世

新一代大模型的发布，都赶在了国庆假期前。昨天，深度求索刚刚开源 DeepSeek-V3.2-Exp。今天，另一国产大模型之光智谱 AI 也正式发布了旗下新一代旗舰模型 GLM-4.6，刚好撞车 Claude Sonnet 4.5。

9/30/2025 7:16:00 PM 机器之心

CAIR开源发布超声基座大模型EchoCare“聆音”，10余项医学任务性能登顶

2025年9月17日，中国科学院香港创新研究院人工智能与机器人创新中心（CAIR）在香港正式开源发布其最新科研成果——EchoCare“聆音”超声基座大模型（简称“聆音”）。该模型基于超过450万张、涵盖50多个人体器官的大规模超声影像数据集训练而成，在器官识别、器官分割、病灶分类等10余项典型超声医学任务测试中表现卓越，性能全面登顶。同时，“聆音”已在山东大学齐鲁医院、中南大学湘雅医院、香港中文大学医学院的多个超声检查领域完成3000多例临床回溯性验证，与当前SOTA（最优）模型相比，性能平均提高3%~5%。

9/30/2025 7:07:00 PM 机器之心

以赛促创新，推动具身智能机器人“真干活”，2025年第二届中关村具身智能机器人应用大赛火热报名中

在人形机器人与具身智能技术浪潮以迅猛之势席卷全球的当下，人形机器人如何落地成为社会关注的焦点。 9月以来，诸多聚焦落地的人形机器人订单接连达成，似乎为这一难题提供了解决方案，银河通用机器人经营的无人超市“银河太空舱”开张，该零售店成为商业场景下全球首个面向消费者常态化经营的具身智能落地场景；加速进化也宣布从球场走向家庭，将推出面向极客和教育场景的消费级机器人；优必选签署2.5亿元具身智能人形机器人产品及解决方案采购合同，直击工业场景的痛点需求；智平方与慧智物联达成战略合作，在未来三年内将部署超1000台具身智能机器人，覆盖从仓储物流、上下物料、零部件装配到质检测试等全流程；众擎机器人与多伦科技签署战略合作协议，计划在未来三年内采购不低于2000台具身智能人形机器人用于重点领域场景落地；星尘智能与仙工智能达成人形机器人千台级订单战略合作，预计在未来两年内推动上千台AI机器人在工业、制造、仓储、物流等场景大规模、分阶段部署。这些商业化订单无疑揭示了人形机器人火热的现状，那么还有哪些真实场景人形机器人还有表现机会？

9/30/2025 10:39:00 AM 新闻助手

Claude Sonnet 4.5来了！能连续编程30多小时、1.1万行代码

十一假期还没开始，大模型又开始卷起来了！昨天，DeepSeek 开源新模型 V3.2-Exp，深夜 Anthropic 也不甘人后，重磅发布 Claude Sonnet 4.5。作为编程领域的王者，Claude 新模型依然强势，自称为世界上最好的编码模型。

9/30/2025 10:32:00 AM 机器之心

华为CloudMatrix384超节点支持DeepSeek-V3.2-Exp：第一时间上线

9 月 29 日，DeepSeek 发布并开源了最新一代大语言模型 DeepSeek-V3.2-Exp，引发了全网关注。该模型引入稀疏 Attention 架构，这种架构能够有效降低计算资源消耗并提升模型推理效率。与此同时，国内 AI 算力厂商也宣布对新模型实现了适配。

9/29/2025 11:21:00 PM 新闻助手

强强联手！深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

机器之心报道机器之心编辑部2025 年 9 月 29 日，深度求索公司发布新一代模型架构 DeepSeek-V3.2 ，引发行业广泛关注。令人瞩目的是，在该大模型发布的同时，寒武纪也官宣了对 DeepSeek-V3.2 的适配，并开源大模型推理引擎 vLLM 源代码。深度求索公司正式发布的 DeepSeek-V3.2-Exp 模型，是一个实验性（Experimental）的版本。

9/29/2025 7:17:00 PM 机器之心

刚刚，DeepSeek开源V3.2-Exp，公开新稀疏注意力机制DSA

还是熟悉的节奏！在假期前一天，DeepSeek 果然搞事了。刚刚，DeepSeek-V3.2-Exp 开源了！

9/29/2025 6:36:00 PM 机器之心

SALMONN 系列音视频理解大模型霸榜回归！推理增强、高帧率、无文本泄漏全线突破

SALMONN 家族在首个通用音频理解模型（ICLR 2024）和首个全要素音视频理解模型 video-SALMONN（ICML 2024）基础上再次迎来重磅扩容，霸榜各大音视频理解榜单！全新一代 video-SALMONN 2/2 、首个开源推理增强型音视频理解大模型 video-SALMONN-o1（ICML 2025）、首个高帧率视频理解大模型 F-16（ICML 2025），以及无文本泄漏基准测试 AVUT（EMNLP 2025）正式发布。新阵容在视频理解能力与评测体系全线突破，全面巩固 SALMONN 家族在开源音视频理解大模型赛道的领先地位。

9/29/2025 3:20:00 PM 机器之心

腾讯混元3D-Omni：3D版ControlNet突破多模态控制，实现高精度3D资产生成

近年来，3D 原生生成模型在游戏、影视和设计领域的资产创建中展现出强大潜力。然而，大多数现有方法仍主要依赖图像作为条件输入，缺乏细粒度、多模态的控制能力，限制了其在实际生产流程中的应用。为解决这一瓶颈，腾讯混元团队推出了混元 3D-Omni，一个基于 Hunyuan3D 2.1 构建的统一多模态可控 3D 生成框架。

9/29/2025 3:05:00 PM 机器之心

云栖大会丨奇富科技费浩峻深度解构金融大模型四步破局路径

9月25日，在云栖大会“新‘模’力新点金：金融大模型技术峰会”上，奇富科技首席算法科学家费浩峻基于公司丰富的落地实践经验，系统阐述了金融大模型的落地逻辑——告别参数规模的盲目追逐，以“做小做强”的路径推动金融AI从“堆人力、堆模型”的传统范式，迈向“聚智能、见个体”的价值升级，为行业提供了金融大模型务实落地的清晰样本。费浩峻指出，在传统机器学习阶段，金融AI面临两大核心制约：一是高度依赖人工特征工程，模型难以直接处理真实世界中复杂、非结构化的数据；二是模型泛化能力差，不同业务需定制不同模型，迭代成本高、响应慢。面对这些挑战，奇富科技围绕金融大模型技术形成四大破局点：第一步，一模型多能，打破泛化瓶颈。

9/29/2025 3:05:00 PM 新闻助手

在具身智能的岔路口，这场论坛把数据、模型、Infra聊透了

当机器人成为各大科技展会最受瞩目的焦点，当具身智能论坛场场爆满、一票难求，我们不难发现：这个领域正在经历前所未有的关注热潮。然而，热潮之下，仍有诸多关键议题悬而未决：面对数据稀缺，有人寄希望于合成数据的突破，有人坚持真机数据才是根本；在技术路线之争中，有人押注端到端的整体范式，有人则认为分层架构更符合演进规律；至于模型形态，有人视 VLA 为智能的最终归宿，也有人认为世界模型才是真正的未来。现阶段出现这种分歧非常正常，因为整个行业的发展路径尚未收敛。

9/29/2025 11:40:00 AM 机器之心

商汤Seko上线一个月，超10万创作者选择它

创作减负，创意加速。近期商汤推出的AI视频Agent Seko受到了大众的关注，目前已有10万创作者在使用。 Seko不是一个单纯的视频生成器，它是行业首发创编一体AI短片创作agent，集成了全行业主流的多模态生成大模型，靠对话就能直接成片。

9/28/2025 5:49:00 PM 新闻助手

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉