理论
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限
强化学习(RL)到底是语言模型能力进化的「发动机」,还是只是更努力地背题、换个方式答题? 这个问题,学界争论已久:RL 真能让模型学会新的推理技能吗,还是只是提高了已有知识的调用效率? 过去的研究多数持悲观态度:认为 RL 带来的收益非常有限,有时甚至会让模型「同质化」加重,失去多样性。
6/4/2025 1:56:06 PM
冲击自回归,扩散模型正在改写下一代通用模型范式
上个月 21 号,Google I/O 2025 开发者大会可说是吸睛无数,各种 AI 模型、技术、工具、服务、应用让人目不暇接。 在这其中,Gemini Diffusion 绝对算是最让人兴奋的进步之一。 从名字看得出来,这是一个采用了扩散模型的 AI 模型,而这个模型却并非我们通常看到的扩散式视觉生成模型,而是一个地地道道的语言模型!
6/4/2025 1:55:03 PM
Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转
本文第一作者为刘启昊,约翰霍普金斯大学计算机科学博士四年级学生,师从 Alan Yuille 教授,研究方向涉及模型鲁棒性、生成模型与 3D 视觉。 通讯作者为 Mannat Singh,Meta GenAI 研究员,近期的研究主要涉及视频生成领域创新工作,包括 Emu Video、MovieGen 等项目。 在人工智能领域,跨模态生成(如文本到图像、图像到文本)一直是技术发展的前沿方向。
6/4/2025 1:53:57 PM
GPT-4o连验证码都解不了?SOTA模型成功率仅40%
当前最强多模态Agent连验证码都解不了? MetaAgentX团队推出首个专注于“多模态交互智能体×CAPTCHA(人机验证)问题”的开放式研究平台——Open CaptchaWorld。 该平台专门用于测试Agent解验证码的能力。
6/4/2025 1:53:22 PM
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
单张显卡,就能处理万帧视频输入,并且编码2048帧视频仅需12秒! 国产开源模型又上大分,这次是在长视频理解领域:智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型Video-XL-2。 长视频理解是多模态大模型关键能力之一。
6/4/2025 1:51:43 PM
突发!刚被OpenAI收购就惨遭Claude“卡脖子”!Windsurf CEO怒了:想花钱都买不到!网友:直接上GPT-5吧!
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)AI 编程圈又发生大事了。 OpenAI 刚刚要收购的 Windsurf,居然突然不能用 Claude 了。 Anthropic 临时掐断了 Claude 3.x 的一手访问权限,Claude 4 更是从未放行,就连 BYOK(自带 API 密钥)都得开发者自己去 Anthropic 买。
6/4/2025 1:46:15 PM
伊风
LangGPT:让人人都能写出大师级Prompt,从此告别“灵感枯竭症”!
一、什么是 LangGPT? Prompt的编程语言来了! 你见过这样的尴尬场面吗:苦苦啃Prompt文档一年,还没搞明白ChatGPT到底要怎么“聆听人言”?
6/4/2025 11:09:02 AM
许泽宇
让AI像人类一样认知真实世界!UCLA谷歌强强联手,长时记忆+3D空间理解超越基线16.5%
想象一下,你在一个陌生的房子里寻找合适的礼物盒包装泰迪熊,需要记住每个房间里的物品特征、位置关系,并根据反馈调整行动。 这一系列过程依赖人类强大的空间-时间长时记忆。 图片如何让AI在3D环境中像人类一样思考,一直是具身智能领域的难题。
6/4/2025 11:08:28 AM
OpenAI CEO警示:AI智能体正重塑职场格局,基层岗位面临结构性冲击
在 2025 年 Snowflake Summit 主题演讲中,OpenAI 首席执行官山姆・奥尔特曼(Sam Altman)抛出震撼观点:AI 智能体正以惊人速度渗透企业运营,其角色已从工具演变为 "数字基层员工",直接引发职场结构的根本性变革。 智能体崛起:从工具到 "数字员工" 的质变奥尔特曼指出,当前诸多企业已将 AI智能体纳入日常工作流,承担数据整理、报告生成、流程审批等标准化任务。 员工的核心职能逐渐转向 "智能体管理者"—— .
6/4/2025 11:06:01 AM
解读:AI智能体时代的实用指南——吴恩达与LangChain创始人的深度对话
Hi,大家好,我叫秋水,专注商用 AI Agent(智能体),帮企业用AI自动化业务,提升效率。 在刚刚结束的一场AI技术峰会上,深度学习领域的传奇人物吴恩达与LangChain创始人Harrison进行了一场精彩的谈话。 这场对话不仅揭示了AI智能体技术的最新趋势,更为普通人和企业指明了在AI时代如何抓住机遇的实用路径。
6/4/2025 11:04:03 AM
秋水
Fellou AI 浏览器 2.0来了!架构重大更新!很快取消邀请码机制!生产级复杂任务成功率超80%
作者 | 谢扬在漫威电影宇宙中,Jarvis 是钢铁侠托尼·斯塔克的私人人工智能助手,几乎无处不在,随时随地为托尼提供支持和帮助。 Jarvis 不仅仅是一个简单的语音助手,它深入融入了托尼的生活,管理他的日常事务,控制他的高科技设备,甚至在战斗中提供实时的战术建议。 Jarvis 的存在让托尼能够专注于更重要的事情,因为他知道有一个可靠的助手在背后支持他。
6/4/2025 10:06:59 AM
谢扬
DeepSeek 等模型训练所依赖的合成数据,BARE 提出了新思路
大家好,我是肆〇柒,在AI圈,大型语言模型(LLM)的训练对高质量、多样化数据的需求日益增长。 从去年到现在,一些模型在发布的时候,会有论文或者技术报告,里面多多少少都会提及合成数据,并且在多数情况下,合成数据的效果并不差。 比如,我所看到的报告中,使用了合成数据的模型如下盘点(应该会有遗漏,它并不完整)。
6/4/2025 9:15:16 AM
肆零柒
GPT-5七月上线?内部爆料+奥特曼疯狂暗示,自曝前方时刻「令人恐惧」
GPT-5,真要来了? 最近,关于GPT-5发布时间的消息,闹得是满城风雨。 多项信息来源显示,GPT-5上线的时间,就在今年7月!
6/4/2025 9:06:00 AM
超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试
一项新的强化学习方法,直接让Qwen性能大增,GPT-4o被赶超! 来自加拿大滑铁卢大学与TikTok新加坡,M-A-P的华人团队提出了一种全新训练框架:General-Reasoner。 结果直接让Qwen系列大模型的跨领域推理准确率提升近10%,在多个基准测试中甚至超越GPT-4o。
6/4/2025 9:05:18 AM
ChatGPT普通会员能用编程神器Codex了!支持联网,奥特曼:更多更新在路上
一觉醒来,ChatGPT又完成了一些“小”更新! 总结起来就是等等党胜利。 首先,刚发没多久的AI编程神器CodeX,现在可使用的用户群体扩展至了Plus用户。
6/4/2025 9:03:40 AM
论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster
你好研究僧,听说刚刚中了顶会,却还在愁怎么做Poster(学术海报)? 别急,容在下为你推荐一款新时代科研党神器——PosterAgent,帮你一键从paper.pdf跳转poster.pptx。 相比GPT-4o,PosterAgent生成指标更优,同时token使用量减少87%,还只需要0.0045美元,就可将22页的论文转化为可编辑的 “.pptx” 终稿海报。
6/4/2025 9:03:00 AM
视觉感知驱动的多模态推理,阿里通义提出VRAG,定义下一代检索增强生成
在数字化时代,视觉信息在知识传递和决策支持中的重要性日益凸显。 然而,传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临着诸多挑战。 一方面,传统的基于文本的方法无法处理视觉相关数据;另一方面,现有的视觉 RAG 方法受限于定义的固定流程,难以有效激活模型的推理能力。
6/4/2025 8:42:00 AM
真实评估!北理发布全球首个「全场景教育」基准,支持4000+情境
为什么发展教育大模型需要新的数据和Eval体系? AI赋能教育教学,需要从「经验导向」迈向「证据导向」,真正将AI数据驱动思想赋能到教育场景中,这是核心动力。 教育场景复杂不仅涉及知识深度(基础教育到高等教育)、知识广度(涵盖不同学科),还涉及认知水平不同、个性化需求多样、教学决策性要求等。
6/4/2025 8:40:00 AM
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊