AI在线 AI在线

理论

英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限

强化学习(RL)到底是语言模型能力进化的「发动机」,还是只是更努力地背题、换个方式答题? 这个问题,学界争论已久:RL 真能让模型学会新的推理技能吗,还是只是提高了已有知识的调用效率? 过去的研究多数持悲观态度:认为 RL 带来的收益非常有限,有时甚至会让模型「同质化」加重,失去多样性。
6/4/2025 1:56:06 PM

冲击自回归,扩散模型正在改写下一代通用模型范式

上个月 21 号,Google I/O 2025 开发者大会可说是吸睛无数,各种 AI 模型、技术、工具、服务、应用让人目不暇接。 在这其中,Gemini Diffusion 绝对算是最让人兴奋的进步之一。 从名字看得出来,这是一个采用了扩散模型的 AI 模型,而这个模型却并非我们通常看到的扩散式视觉生成模型,而是一个地地道道的语言模型!
6/4/2025 1:55:03 PM

Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转

本文第一作者为刘启昊,约翰霍普金斯大学计算机科学博士四年级学生,师从 Alan Yuille 教授,研究方向涉及模型鲁棒性、生成模型与 3D 视觉。 通讯作者为 Mannat Singh,Meta GenAI 研究员,近期的研究主要涉及视频生成领域创新工作,包括 Emu Video、MovieGen 等项目。 在人工智能领域,跨模态生成(如文本到图像、图像到文本)一直是技术发展的前沿方向。
6/4/2025 1:53:57 PM

GPT-4o连验证码都解不了?SOTA模型成功率仅40%

当前最强多模态Agent连验证码都解不了? MetaAgentX团队推出首个专注于“多模态交互智能体×CAPTCHA(人机验证)问题”的开放式研究平台——Open CaptchaWorld。 该平台专门用于测试Agent解验证码的能力。
6/4/2025 1:53:22 PM

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

单张显卡,就能处理万帧视频输入,并且编码2048帧视频仅需12秒! 国产开源模型又上大分,这次是在长视频理解领域:智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型Video-XL-2。 长视频理解是多模态大模型关键能力之一。
6/4/2025 1:51:43 PM

突发!刚被OpenAI收购就惨遭Claude“卡脖子”!Windsurf CEO怒了:想花钱都买不到!网友:直接上GPT-5吧!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)AI 编程圈又发生大事了。 OpenAI 刚刚要收购的 Windsurf,居然突然不能用 Claude 了。 Anthropic 临时掐断了 Claude 3.x 的一手访问权限,Claude 4 更是从未放行,就连 BYOK(自带 API 密钥)都得开发者自己去 Anthropic 买。
6/4/2025 1:46:15 PM
伊风

LangGPT:让人人都能写出大师级Prompt,从此告别“灵感枯竭症”!

一、什么是 LangGPT? Prompt的编程语言来了! 你见过这样的尴尬场面吗:苦苦啃Prompt文档一年,还没搞明白ChatGPT到底要怎么“聆听人言”?
6/4/2025 11:09:02 AM
许泽宇

让AI像人类一样认知真实世界!UCLA谷歌强强联手,长时记忆+3D空间理解超越基线16.5%

想象一下,你在一个陌生的房子里寻找合适的礼物盒包装泰迪熊,需要记住每个房间里的物品特征、位置关系,并根据反馈调整行动。 这一系列过程依赖人类强大的空间-时间长时记忆。 图片如何让AI在3D环境中像人类一样思考,一直是具身智能领域的难题。
6/4/2025 11:08:28 AM

OpenAI CEO警示:AI智能体正重塑职场格局,基层岗位面临结构性冲击

在 2025 年 Snowflake Summit 主题演讲中,OpenAI 首席执行官山姆・奥尔特曼(Sam Altman)抛出震撼观点:AI 智能体正以惊人速度渗透企业运营,其角色已从工具演变为 "数字基层员工",直接引发职场结构的根本性变革。 智能体崛起:从工具到 "数字员工" 的质变奥尔特曼指出,当前诸多企业已将 AI智能体纳入日常工作流,承担数据整理、报告生成、流程审批等标准化任务。 员工的核心职能逐渐转向 "智能体管理者"—— .
6/4/2025 11:06:01 AM

解读:AI智能体时代的实用指南——吴恩达与LangChain创始人的深度对话

Hi,大家好,我叫秋水,专注商用 AI Agent(智能体),帮企业用AI自动化业务,提升效率。 在刚刚结束的一场AI技术峰会上,深度学习领域的传奇人物吴恩达与LangChain创始人Harrison进行了一场精彩的谈话。 这场对话不仅揭示了AI智能体技术的最新趋势,更为普通人和企业指明了在AI时代如何抓住机遇的实用路径。
6/4/2025 11:04:03 AM
秋水

Fellou AI 浏览器 2.0来了!架构重大更新!很快取消邀请码机制!生产级复杂任务成功率超80%

作者 | 谢扬在漫威电影宇宙中,Jarvis 是钢铁侠托尼·斯塔克的私人人工智能助手,几乎无处不在,随时随地为托尼提供支持和帮助。 Jarvis 不仅仅是一个简单的语音助手,它深入融入了托尼的生活,管理他的日常事务,控制他的高科技设备,甚至在战斗中提供实时的战术建议。 Jarvis 的存在让托尼能够专注于更重要的事情,因为他知道有一个可靠的助手在背后支持他。
6/4/2025 10:06:59 AM
谢扬

DeepSeek 等模型训练所依赖的合成数据,BARE 提出了新思路

大家好,我是肆〇柒,在AI圈,大型语言模型(LLM)的训练对高质量、多样化数据的需求日益增长。 从去年到现在,一些模型在发布的时候,会有论文或者技术报告,里面多多少少都会提及合成数据,并且在多数情况下,合成数据的效果并不差。 比如,我所看到的报告中,使用了合成数据的模型如下盘点(应该会有遗漏,它并不完整)。
6/4/2025 9:15:16 AM
肆零柒

GPT-5七月上线?内部爆料+奥特曼疯狂暗示,自曝前方时刻「令人恐惧」

GPT-5,真要来了? 最近,关于GPT-5发布时间的消息,闹得是满城风雨。 多项信息来源显示,GPT-5上线的时间,就在今年7月!
6/4/2025 9:06:00 AM

超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试

一项新的强化学习方法,直接让Qwen性能大增,GPT-4o被赶超! 来自加拿大滑铁卢大学与TikTok新加坡,M-A-P的华人团队提出了一种全新训练框架:General-Reasoner。 结果直接让Qwen系列大模型的跨领域推理准确率提升近10%,在多个基准测试中甚至超越GPT-4o。
6/4/2025 9:05:18 AM

ChatGPT普通会员能用编程神器Codex了!支持联网,奥特曼:更多更新在路上

一觉醒来,ChatGPT又完成了一些“小”更新! 总结起来就是等等党胜利。 首先,刚发没多久的AI编程神器CodeX,现在可使用的用户群体扩展至了Plus用户。
6/4/2025 9:03:40 AM

论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

你好研究僧,听说刚刚中了顶会,却还在愁怎么做Poster(学术海报)? 别急,容在下为你推荐一款新时代科研党神器——PosterAgent,帮你一键从paper.pdf跳转poster.pptx。 相比GPT-4o,PosterAgent生成指标更优,同时token使用量减少87%,还只需要0.0045美元,就可将22页的论文转化为可编辑的 “.pptx” 终稿海报。
6/4/2025 9:03:00 AM

视觉感知驱动的多模态推理,阿里通义提出VRAG,定义下一代检索增强生成

在数字化时代,视觉信息在知识传递和决策支持中的重要性日益凸显。 然而,传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临着诸多挑战。 一方面,传统的基于文本的方法无法处理视觉相关数据;另一方面,现有的视觉 RAG 方法受限于定义的固定流程,难以有效激活模型的推理能力。
6/4/2025 8:42:00 AM

真实评估!北理发布全球首个「全场景教育」基准,支持4000+情境

为什么发展教育大模型需要新的数据和Eval体系? AI赋能教育教学,需要从「经验导向」迈向「证据导向」,真正将AI数据驱动思想赋能到教育场景中,这是核心动力。 教育场景复杂不仅涉及知识深度(基础教育到高等教育)、知识广度(涵盖不同学科),还涉及认知水平不同、个性化需求多样、教学决策性要求等。
6/4/2025 8:40:00 AM