应用
刚刚,Anthropic新CTO上任,与Meta、OpenAI的AI基础设施之争一触即发
就在刚刚,Anthropic 迎来了新的首席技术官(CTO)—— 前 Stripe 首席技术官 Rahul Patil。 据报道,Rahul Patil 于本周早些时候加入公司,接替了联合创始人 Sam McCandlish,后者将转任首席架构师一职。 Rahul Patil 在社媒上表达了自己加入 Anthropic 的激动之情与未来期许。
全球价值最高创企诞生,OpenAI估值创纪录来到5000亿美元
几天前,OpenAI 重磅发布了全新一代的视频大模型 Sora 2,不仅在物理准确性、真实感和可控性方面都优于以往的系统,还具备同步的对话和音效能力。 Altman 称之为「ChatGPT for creativity」时刻。 就在昨天,OpenAI 的「身价」又涨了。
Sora 2数手指翻车,奥特曼成第一批「受害者」,被AI玩成最惨打工人
奥特曼大型社死现场。 Sora 2,强大如斯,却也数不明白手指。 X 网友 @fofrAI 整了个提示词测试 Sora 2:a man counts out loud from 1 to 10, using his fingers and holding them up as he goes.(一名男子一边举起手指,一边大声数着从 1 到 10。
开发者狂喜:Thinking Machines发布首款产品Tinker,后训练麻烦全给包了
对于大模型开发者 / 研究者来说,今天是重要的一天。 因为刚刚,OpenAI 前 CTO Mira Murati 创办的 Thinking Machines 推出了首款产品 ——Tinker。 简单来说,Tinker 是一个 API,用于帮开发者 / 研究人员微调语言模型。
小红书发布FireRedChat:首个可私有化部署的全双工大模型语音交互系统
小红书智创音频团队推出业内首个支持私有化部署的全双工大模型语音交互系统 FireRedChat,自研流式 pVAD 与 EoT 让语音交互更加自然,首发级联与半级联两套实现,端到端时延逼近工业级应用。 彻底开源、可私域落地,打造真正 “知冷暖、能共情、懂表达” 的语音 AI。 小红书智创音频团队发布 FireRedChat—— 业内首个支持私有化部署的全双工大模型语音交互系统,直击延迟高、噪声敏感、可控性差、依赖外部 API 等痛点。
Sora 2干翻Veo 3?超全对比实测:会中文脱口秀,但体操翻车,附有效邀请码
这次,OpenAI 又搞了波大的,祭出 Sora2,可以直接生成最长 20 秒的 1080p 视频。 比如,有网友拿奥特曼生成了 GPU 外卖小哥,甚至还有去超市偷显卡的剧情。 相比于旧版本,Sora 2 在物理准确性、真实感和可控性方面都更胜一筹,而且它还和谷歌 Veo3 一样具备音画同步能力。
节前重磅:开源旗舰模型新SOTA,智谱GLM-4.6问世
新一代大模型的发布,都赶在了国庆假期前。 昨天,深度求索刚刚开源 DeepSeek-V3.2-Exp。 今天,另一国产大模型之光智谱 AI 也正式发布了旗下新一代旗舰模型 GLM-4.6,刚好撞车 Claude Sonnet 4.5。
CAIR开源发布超声基座大模型EchoCare“聆音”,10余项医学任务性能登顶
2025年9月17日,中国科学院香港创新研究院人工智能与机器人创新中心(CAIR)在香港正式开源发布其最新科研成果——EchoCare“聆音”超声基座大模型(简称“聆音”)。 该模型基于超过450万张、涵盖50多个人体器官的大规模超声影像数据集训练而成,在器官识别、器官分割、病灶分类等10余项典型超声医学任务测试中表现卓越,性能全面登顶。 同时,“聆音”已在山东大学齐鲁医院、中南大学湘雅医院、香港中文大学医学院的多个超声检查领域完成3000多例临床回溯性验证,与当前SOTA(最优)模型相比,性能平均提高3%~5%。
以赛促创新,推动具身智能机器人“真干活”,2025年第二届中关村具身智能机器人应用大赛火热报名中
在人形机器人与具身智能技术浪潮以迅猛之势席卷全球的当下,人形机器人如何落地成为社会关注的焦点。 9月以来,诸多聚焦落地的人形机器人订单接连达成,似乎为这一难题提供了解决方案,银河通用机器人经营的无人超市“银河太空舱”开张,该零售店成为商业场景下全球首个面向消费者常态化经营的具身智能落地场景;加速进化也宣布从球场走向家庭,将推出面向极客和教育场景的消费级机器人;优必选签署2.5亿元具身智能人形机器人产品及解决方案采购合同,直击工业场景的痛点需求;智平方与慧智物联达成战略合作,在未来三年内将部署超1000台具身智能机器人,覆盖从仓储物流、上下物料、零部件装配到质检测试等全流程;众擎机器人与多伦科技签署战略合作协议,计划在未来三年内采购不低于2000台具身智能人形机器人用于重点领域场景落地;星尘智能与仙工智能达成人形机器人千台级订单战略合作,预计在未来两年内推动上千台AI机器人在工业、制造、仓储、物流等场景大规模、分阶段部署。 这些商业化订单无疑揭示了人形机器人火热的现状,那么还有哪些真实场景人形机器人还有表现机会?
Claude Sonnet 4.5来了!能连续编程30多小时、1.1万行代码
十一假期还没开始,大模型又开始卷起来了! 昨天,DeepSeek 开源新模型 V3.2-Exp,深夜 Anthropic 也不甘人后,重磅发布 Claude Sonnet 4.5。 作为编程领域的王者,Claude 新模型依然强势,自称为世界上最好的编码模型。
华为CloudMatrix384超节点支持DeepSeek-V3.2-Exp:第一时间上线
9 月 29 日,DeepSeek 发布并开源了最新一代大语言模型 DeepSeek-V3.2-Exp,引发了全网关注。 该模型引入稀疏 Attention 架构,这种架构能够有效降低计算资源消耗并提升模型推理效率。 与此同时,国内 AI 算力厂商也宣布对新模型实现了适配。
强强联手!深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码
机器之心报道机器之心编辑部2025 年 9 月 29 日,深度求索公司发布新一代模型架构 DeepSeek-V3.2 ,引发行业广泛关注。 令人瞩目的是,在该大模型发布的同时,寒武纪也官宣了对 DeepSeek-V3.2 的适配,并开源大模型推理引擎 vLLM 源代码。 深度求索公司正式发布的 DeepSeek-V3.2-Exp 模型,是一个实验性(Experimental)的版本。
刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA
还是熟悉的节奏! 在假期前一天,DeepSeek 果然搞事了。 刚刚,DeepSeek-V3.2-Exp 开源了!
SALMONN 系列音视频理解大模型霸榜回归!推理增强、高帧率、无文本泄漏全线突破
SALMONN 家族在首个通用音频理解模型(ICLR 2024)和首个全要素音视频理解模型 video-SALMONN(ICML 2024)基础上再次迎来重磅扩容,霸榜各大音视频理解榜单! 全新一代 video-SALMONN 2/2 、首个开源推理增强型音视频理解大模型 video-SALMONN-o1(ICML 2025)、首个高帧率视频理解大模型 F-16(ICML 2025),以及无文本泄漏基准测试 AVUT(EMNLP 2025) 正式发布。 新阵容在视频理解能力与评测体系全线突破,全面巩固 SALMONN 家族在开源音视频理解大模型赛道的领先地位。
腾讯混元3D-Omni:3D版ControlNet突破多模态控制,实现高精度3D资产生成
近年来,3D 原生生成模型在游戏、影视和设计领域的资产创建中展现出强大潜力。 然而,大多数现有方法仍主要依赖图像作为条件输入,缺乏细粒度、多模态的控制能力,限制了其在实际生产流程中的应用。 为解决这一瓶颈,腾讯混元团队推出了混元 3D-Omni,一个基于 Hunyuan3D 2.1 构建的统一多模态可控 3D 生成框架。
云栖大会丨奇富科技费浩峻深度解构金融大模型四步破局路径
9月25日,在云栖大会“新‘模’力 新点金:金融大模型技术峰会”上,奇富科技首席算法科学家费浩峻基于公司丰富的落地实践经验,系统阐述了金融大模型的落地逻辑——告别参数规模的盲目追逐,以“做小做强”的路径推动金融AI从“堆人力、堆模型”的传统范式,迈向“聚智能、见个体”的价值升级,为行业提供了金融大模型务实落地的清晰样本。 费浩峻指出,在传统机器学习阶段,金融AI面临两大核心制约:一是高度依赖人工特征工程,模型难以直接处理真实世界中复杂、非结构化的数据;二是模型泛化能力差,不同业务需定制不同模型,迭代成本高、响应慢。 面对这些挑战,奇富科技围绕金融大模型技术形成四大破局点:第一步,一模型多能,打破泛化瓶颈。
在具身智能的岔路口,这场论坛把数据、模型、Infra聊透了
当机器人成为各大科技展会最受瞩目的焦点,当具身智能论坛场场爆满、一票难求,我们不难发现:这个领域正在经历前所未有的关注热潮。 然而,热潮之下,仍有诸多关键议题悬而未决:面对数据稀缺,有人寄希望于合成数据的突破,有人坚持真机数据才是根本;在技术路线之争中,有人押注端到端的整体范式,有人则认为分层架构更符合演进规律;至于模型形态,有人视 VLA 为智能的最终归宿,也有人认为世界模型才是真正的未来。 现阶段出现这种分歧非常正常,因为整个行业的发展路径尚未收敛。
商汤Seko上线一个月,超10万创作者选择它
创作减负,创意加速。 近期商汤推出的AI视频Agent Seko受到了大众的关注,目前已有10万创作者在使用。 Seko不是一个单纯的视频生成器,它是行业首发创编一体AI短片创作agent,集成了全行业主流的多模态生成大模型,靠对话就能直接成片。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉