模型
月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA
昨天,月之暗面发了篇博客,介绍了一款名为 Kimi-Researcher 的自主 Agent。 这款 Agent 擅长多轮搜索和推理,平均每项任务执行 23 个推理步骤,访问超过 200 个网址。 它是基于 Kimi k 系列模型的内部版本构建,并完全通过端到端智能体强化学习进行训练,也是国内少有的基于自研模型打造的 Agent。
7B智能体仅凭9个任务训练即超越R1!上交大打造AI-for-AI新范式
尽管人工智能(AI)在飞速发展,当前 AI 开发仍严重依赖人类专家大量的手动实验和反复的调参迭代,过程费时费力。 这种以人为中心的方式已成为制约创新速度和通向通用人工智能(AGI)的关键瓶颈。 为突破限制,AI-for-AI(AI4AI)应运而生。
监督学习也能从错误中学习反思?!清华英伟达联合提出隐式负向策略爆炸提升数学能力
监督学习也能像强化学习一样进行“自我反思”了。 清华大学与英伟达、斯坦福联合提出新的监督学习方案——NFT(Negative-aware FineTuning),在RFT(Rejection FineTuning)算法基础上通过构造一个“隐式负向模型” 来额外利用负向数据进行训练。 这并不意味着使用“差数据”进行训练,而是在已知的模型计算结果前提下,通过负向数据训练正向模型,即“隐式负向策略(Implicit Negative Policy)”。
AI也会闹情绪了!Gemini代码调试不成功直接摆烂,马斯克都来围观
AI也会“闹自杀”了? 一位网友让Gemini 2.5调试代码不成功后,居然得到了这样的答复——“I have uninstalled myself.”看上去还有点委屈是怎么回事(doge)。 这事儿可是引起了不小的关注,连马斯克都现身评论区。
大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%
“边看边画,边画边想”,让大模型掌握空间思考能力,结果直接实现空间推理任务新SOTA。 来自蚂蚁技术研究院自然语言组联合中科院自动化所和香港中文大学开源ViLaSR-7B。 它在包括迷宫导航、静态图像理解和视频空间推理等5个基准上平均提升18.4%。
蚂蚁开源轻量级MoE推理模型Ring-lite
近日,蚂蚁技术团队宣布正式开源其轻量级推理模型Ring-lite。 该模型在多项推理榜单上取得了显著成绩,实现了轻量级推理模型的SOTA效果,再次验证了MoE架构的推理潜力。 Ring-lite以蚂蚁技术此前发布的Ling-lite-1.5为起点,该模型采用MoE架构,总参数为16.8B,但激活参数仅2.75B。
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
生成图像这件事,会推理的AI才是好AI。 举个例子,以往要是给AI一句这样的Prompt:(3 6)条命的动物。 我们人类肯定一眼就知道是猫咪,但AI的思考过程却是这样的:△虽然生成了猫,但思考过程不对思考的过程还是把“(3 6)”里的数字分开来处理,并没有真正get到其背后“九条命的动物=猫”的本意。
AI写完85%的代码!字节研发负责人和TRAE合作的首个项目官宣开源
创造一个AI Coding的产品,再用这个产品来做AI Coding是什么体验? 未来的AI开发范式究竟是什么样子的,开发者 AI能够迸发出多大的创造力? 也许字节跳动研发负责人洪定坤可以帮你回答这个问题。
Andrej 结合他在斯坦福、OpenAI 和特斯拉的工作经验,洞察到一个转变正在发生——软件正在再次经历变革。
今天凌晨4点30,微软首席执行官SatyaNadella分享了,微软在量子计算的重大技术突破成果4D拓扑量子纠错码。 与2D相比,4D拓扑量子纠错码在编码效率、纠错能力、逻辑操作都非常出色,并且每个逻辑量子比特只需要极少的物理量子比特,可以一次性检查错误,并将错误率降低1000倍。 同时,这项全新的量子计算成果将应用在微软的Azure Quantum量子计算平台中,加速科研、医疗的研发效率网友表示,这标志着一项重大进展,量子纠错长期以来一直是实现稳定、可扩展量子计算的主要瓶颈。
Andrej Karpathy最新演讲爆火!人类已进入「说话就能编程」的软件3.0时代
回顾 OpenAI 的早期成员,奥特曼成为 AI 浪潮的掌舵人之一,Ilya Sutskever 致力于探索 AI 安全的理想边界,而 Andrej Karpathy 则走上了一条「建造并分享」的道路。 他痴迷于用代码将 AI 蓝图变为现实,又乐此不疲地把建造过程做成公开课分享给世界。 所以,当他人在构建一家伟大的公司时,Karpathy 同时在构建着 AI 应用与下一代的 AI 建设者。
何恺明CVPR最新讲座PPT上线:走向端到端生成建模
今年的 CVPR 已经在美国田纳西州纳什维尔顺利闭幕。 除了交流论文、互加好友,很多参会者还参加了个非常有意思的项目 —— 追星。 这个「星」自然是学术明星。
惊天丑闻!OpenAI档案曝光,奥特曼捏造YC董事长身份,虚伪真面目被揭穿
今天,OpenAI发生了不少大事。 比如就在深夜,他们放出了官方博客第一集,奥特曼亲自出镜,透露了GPT-5发布时间——今年夏天。 果然,五花八门的大模型命名,不仅让用户们极为困扰,连OpenAI团队自己都十分纠结。
AI写爆款博客火出圈,主笔竟是Claude!
最近,Anthropic给自家AI开了个博客。 这个叫「Claude Explain」的博客页面,内容主要由AI模型Claude生成。 博客包括《用Claude简化复杂代码库》这种硬核主题,旨在秀一把AI的写作能力。
DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究
近年来,强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力,其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。 如今,这股 RL 的浪潮也涌向了图像生成领域。 当我们将自回归图像生成也视为一种序列化的 CoT 推理过程时,一个核心问题浮出水面:DPO 和 GRPO 在这个新战场上表现如何?
推荐大模型来了?OneRec论文解读:端到端训练如何同时吃掉效果与成本
人人都绕不开的推荐系统,如今正被注入新的 AI 动能。 随着 AI 领域掀起一场由大型语言模型(LLM)引领的生成式革命,它们凭借着强大的端到端学习能力、海量数据理解能力以及前所未有的内容生成潜力,开始重塑各领域的传统技术栈。 作为互联网流量的核心引擎,推荐系统面临着级联架构导致的算力碎片化、优化目标割裂等问题,并逐渐制约其创新发展。
美团提出首个语音交互GUI智能体,端到端语音训练能力优于传统文本训练
只需要动动嘴就可以驱动GUI代理? 由美团和浙江大学联合推出的GUIRoboTron-Speech——让用户解放双手,直接对计算机“发号施令”。 这是首个能够直接利用语音指令和设备屏幕截图进行端到端(End-to-End)决策的自主GUI智能体,旨在为用户提供更直接、高效且无障碍的交互体验。
单应计算加速数十倍、计算量减少95%!基于几何的SKS和ACA矩阵分解被提出
本文由东华大学蔡棽副教授、上海交通大学严骏驰教授和中国科学院自动化所申抒含研究员共同指导并撰写,四名学生作者为东华大学视觉与几何感知实验室的吴展豪、郭凌希、王佳纯、张斯禹。 一、论文简介东华大学、上海交通大学、中科院自动化所的研究团队最新提出:两种基于几何的单应矩阵分解,极大地减少了四点求解单应的计算量(相比目前通用的求解稀疏线性方程组方法减少 95% 以上),可在二维码扫描等典型视觉应用中显著减少计算消耗,并有望应用于其他射影几何、计算机视觉和图形学问题中。 论文已被 IEEE T-PAMI 期刊接收。
AI哪怕答案正确,逻辑链却惨不忍睹,奥数级不等式证明成功率不到50%| 斯坦福&伯克利&MIT
这不是段子,而是正在发生的现象。 大语言模型解决不等式证明问题时,可以给出正确答案,但大多数时候是靠猜。 推理过程经不起推敲,逻辑完全崩溃。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉