AI在线 AI在线

模型

AI“压力面”,DeepSeek性能暴跌近30% | 清华&上海AI Lab

给AI一场压力测试,结果性能暴跌近30%。 来自上海人工智能实验室、清华大学和中国人民大学的研究团队设计了一个全新的“压力测试”框架——REST (Reasoning Evaluation through Simultaneous Testing)。 该框架在一个prompt里同时抛给模型多个问题,模拟真实世界中复杂的、多任务并行的推理场景。
7/21/2025 8:47:00 AM

大神Karpathy都投的AI实时视频生成模型:直播都能立即转,无限时长几乎零延迟

大神Karpathy都忍不住投资的AI初创,带来首个实时扩散视频生成! 用扫帚当麦克风,用盒子当混音台,无需昂贵设备就能开一场沉浸式直播。 喜欢游戏类型但不喜欢游戏的画面?
7/21/2025 8:46:00 AM

无需NeRF/高斯点后处理,视频秒变游戏模型成现实!新方法平均每帧仅需60秒 | ICCV 2025

只需一段视频,就可以直接生成可用的4D网格动画? 来自KAUST的研究团队提出全新方法V2M4,能够实现从单目视频直接生成高质量、显式的4D网格动画资源。 这意味着无需NeRF/高斯点后处理,可直接导入游戏/图形引擎。
7/21/2025 8:45:00 AM

2025 IMO真题撕碎AI数学神话,全球顶尖模型齐翻车!冠军铜牌都拿不到

如果你以为,如今的LLM已经无所不能,那刚刚出炉的2025大模型数学竞赛结果,恐怕要让你大跌眼镜了。 现在,各模型的分数已经在MathArena上发布。 怎么说呢,所有大模型都翻车了。
7/18/2025 1:41:39 PM

OpenAI深夜发布ChatGPT Agent:能主动思考、自选工具,智能体赛道大变天

今天凌晨1点,OpenAI进行了技术直播发布了重磅产品ChatGPT Agent。 ChatGPT Agent具备自主思考和行动的能力,能够主动从其技能库中选择合适的工具,包括Operator、 Deep Research和ChatGPT来完成各种超复杂任务。 例如,用户可以要求 ChatGPT Agent分析三个竞争对手并制作幻灯片演示文稿等请求。
7/18/2025 10:46:11 AM

全球最强开源「定理证明器」出世!十位华人核心,8B暴击671B DeepSeek

全球最强的开源「定理证明器」诞生了! 来自普林斯顿、清华、英伟达、斯坦福等八大顶尖机构联手,祭出了第二版Goedel-Prover-V2模型。 项目地址: 2025顶会录用,曾在miniF2F Pass@32刷新SOTA,位列PutnamBench榜首。
7/18/2025 10:12:00 AM

思维链之父跳槽Meta,不只因为1亿美元!离开OpenAI前泄天机

硅谷人才争夺战,火热升级! 过去,是OpenAI从谷歌等公司吸引人才;现在,Meta直接砸钱抢人。 顶尖AI人才的薪酬包可谓天价,1亿美元还是扎克伯格给的起步价!
7/18/2025 10:04:44 AM

Le Chat全方面对标ChatGPT,欧洲AI新贵穷追不舍

最近几个月,由谷歌和 Meta 前研究人员建立的欧洲的 AI 初创公司 Mistral AI 有些躁动不安。 他们接连发布了好些个开源模型,覆盖不同的领域,包含号称「世界上最优秀」的 OCR 模型、「对标 Claude」的多模态模型、首个推理大模型 Magistral 以及两天前发布的「全球最佳」的开源语音模型 Voxtral。 这样似乎也很难让这位欧洲 AI「新贵」感到满意,他们还想在应用层面好好地卷一卷 OpenAI。
7/18/2025 9:39:57 AM

o1核心贡献者离职后首发声:AI是史上最强杠杆,超越人力、资本和代码

又一位离职OpenAI的核心研究员发声! 刚刚被曝加入Meta的Hyung Won Chung,分享了他对AI未来的深刻思考:人工智能正在成为有史以来最强大的杠杆机制。 Hyung Won Chung和一同离开OpenAI的Jason Wei是长期搭档,他们的合作可以追溯到谷歌大脑时期,两人曾共同作为第一作者发表了关于模型微调的重要论文《Scaling Instruction-Finetuned Language Models》。
7/18/2025 9:33:26 AM

Cursor首席设计师谈 AI 应用的 UI 和 Cursor 的 UX 经验

最近,我看了很多遍 Cursor 首席设计师 Ryo Lu 的访谈。 Ryo 曾是 Notion 的首席设计师,今年跳槽到了 Cursor。 Ryo 不是那种传统意义上只关注界面设计的设计师,尤其是加入 Cursor 之后,他已经开始通过 Vibe Coding 写代码,参与产品原型的开发。
7/18/2025 9:20:31 AM

500美元刷新SOTA!训练成本砍到1/200,华人团队重构视频生成范式

你可能听说过OpenAI的Sora,用数百万视频、千万美元训练出的AI视频模型。 但你能想象,有团队只用3860段视频、不到500美元成本,也能在关键任务上做到SOTA? 比如这个图生视频:攀岩者在小行星攀岩,人体运动与太空光影完美仿真。
7/17/2025 2:23:03 PM

免剪辑直出!AI生成多角色同框对话视频,动态路由精准绑定音频

近年来随着视频生成基础模型的涌现,音频驱动的说话人视频生成领域也取得了显著进展。 但现有方法主要聚焦于单角色场景,现有可生成两个角色对话视频的方法仅能单独地生成两个分离的说话人视频。 针对这一挑战,研究人员提出了首个专注同场景多角色说话视频生成的框架Bind-Your-Avatar该模型基于扩散Transformer(MM-DiT),通过细粒度的嵌入路由机制将「谁在说」与「说什么」绑定在一起,从而实现对音频–角色对应关系的精确控制。
7/17/2025 1:14:05 PM

ChatGPT还没学会打电话,谷歌搜索AI已经替你电话约服务,还会谈价砍单!

谷歌搜索要出新花样了! 想象一下,你想给你的宠物狗做一次美容,但是家附近好像没有这样的门店。 你打开搜索,输入「附近的宠物美容师」,并且勾选了「让AI查价格」,然后接下来你就什么都不用做了。
7/17/2025 1:08:56 PM

1万tokens是检验长文本的新基准,超过后18款大模型集体失智

上下文扩展至1万tokens,LLM集体“失智”! 且“智商”不是均匀下降,而是在一些节点突然断崖式下跌。 比如Claude Sonnet 4,就是在1000tokens后准确率一路下滑,从90%降到60%。
7/17/2025 10:47:33 AM

投奔小扎,Jason Wei连发两篇博文公布“屠龙术”:一个公式看透AI,一条心法指引人生

Jason Wei:OpenAI研究科学家,OpenAI思维链研究开创者,《Chain-of-thought prompting elicits reasoning in large language models》论文第一作者,谷歌学术他引17000余次(CoT单篇),高中学历,毕业于全美顶级的科技高中:托马斯·杰弗逊科学技术高中,sat 2390(2400满分),强化学习大神。 在刚刚爆出被小扎挖走,加入meta超级智能实验室后,Jason Wei 连发两篇文章,一篇是关于 AI 发展的核心驱动力公式——“验证者定律”,另一篇则是从强化学习中悟出的人生哲学——“人生要走 On-Policy 路线”,这可能就是jason wei 在OpenAI最后的遗作了吧。 验证者定律说的是:训练人工智能解决一个任务的难易程度与该任务的可验证性成正比。
7/17/2025 9:24:08 AM

面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

本文作者是香港中文大学博士三年级薛博阳,导师为黄锦辉教授,目前在伦敦大学学院进行访问交流,他的研究方向包括可信大模型,模型不确定性,对话系统等,在 ACL, EMNLP, TASLP 等会议期刊作为第一作者发表多篇论文,并长期在知乎写作大模型、机器学习等专栏文章,个人主页为:? 今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能,引起广泛的热度。 然而在面对一些无法回答或本身无解的问题时,这些模型竟试图去虚构不存在的信息去推理解答,生成了大量的事实错误、无意义思考过程和虚构答案,也被称为模型「幻觉」 问题,如下图(a)所示,造成严重资源浪费且会误导用户,严重损害了模型的可靠性(Reliability)。
7/17/2025 9:21:11 AM

舍弃自回归,离散扩散语言模型如何演化?NUS综述解构技术图谱与应用前沿

本论文共同第一作者于润芃和李奇是新加坡国立大学 xML 实验室博士生,指导老师为王鑫超,研究方向是多模态大模型与可信深度模型。 本文主要介绍 xML 团队的论文:Discrete Diffusion in Large Language and Multimodal Models: A Survey。 论文链接: 仓库: GPT 引爆大语言模型热潮以来,自回归的大语言模型(LLMs)与多模态模型(MLLMs)已成为智能系统的基石。
7/17/2025 9:16:20 AM
机器之心

马斯克的Neuralink梦想成真?意识连续谱理论震惊科学界!

马斯克Neuralink野心理论上被证实! Michael Levin探讨了意识与自我组装的关系,强调意识是一个连续谱系。 Levin是美国著名的发育生物学家和合成生物学家,近期,他在采访中深入探讨了意识和自我组织的关系,聚焦于生物和人工系统。
7/16/2025 1:14:13 PM