理论
十步优化超越强化学习,仅需1条未标注数据!后训练强势破局
在具备强大的通用性能之后,当下大模型的研究方向已经转向了「如何解决特定且复杂的推理任务」,比如数学问题、分析物理现象或是构建编程逻辑。 要想达到更高的性能,除了海量文本的预训练之外,往往还需要进一步的后训练。 主流后训练方法是采用强化学习(RL),特别是结合可验证奖励的强化学习(RLVR)。
6/5/2025 2:33:00 AM
新智元
2025年,Mamba“联姻”Transformer,打造史上最强视觉骨干网络!
一眼概览MambaVision 提出一种混合 Mamba-Transformer 视觉骨干网络,首次将状态空间模型(SSM)与自注意力机制融合,显著提升图像分类、检测和分割任务的准确率与效率,达到新一代性能-速度最优前沿。 核心问题虽然 Mamba 模型在语言任务中展现了优秀的长序列建模能力,但其自回归结构难以高效捕捉图像中的全局空间依赖,限制了在计算机视觉中的表现。 如何在保持高吞吐和低复杂度的前提下建模图像中的长程依赖,是本研究要解决的核心问题。
6/5/2025 2:15:00 AM
萍哥学AI
AI Agent的新技术栈:Kafka、A2A、MCP 和 Flink
在网络拥有 HyperText Transfer Protocol (HTTP) 之前,在电子邮件拥有 Simple Mail Transfer Protocol (SMTP) 之前,我们受困于定制化集成、碎片化系统和脆弱的工作流程。 直到开放协议和共享基础设施出现,互联网才真正实现规模化,解锁了现代网络、全球通信和整个经济体系。 如今,AI 代理正处于类似的预标准化阶段。
6/5/2025 2:00:00 AM
AI研究生
人工智能和知识图谱四:知识图谱的超大规模产品
一、亚马逊网络服务 (AWS) — Amazon NeptuneAWS 的主要图形数据库服务是Amazon Neptune,这是一款完全托管的图形数据库引擎。 Neptune 功能多样,既支持 使用 SPARQL 查询的RDF 模型,也支持使用 Apache TinkerPop Gremlin 查询的属性图模型。 这种双重支持使 Neptune 适用于各种 KG 实现——您可以使用 RDF/OWL 存储语义知识图并通过 SPARQL 进行查询,或者将属性图方法与 Gremlin 结合使用。
6/5/2025 2:00:00 AM
晓晓
AI Agent落地面临的三大挑战
前面为大家介绍过AI Agent的发展史和工程结构模型,并对Agent的典型代表——Manus的技术架构进行了详细解析。 不少同学看完后纷纷留言说,他们在工作中也尝试在推动落地Agent,但结果总是不尽如意,希望我能给出一些建议。 我自己目前对AI Agent也处在探索实践阶段,并无法给出很好的建议。
6/5/2025 1:55:00 AM
写文章老张
铁了心为Agent开发铺路!OpenAI“真香”式升级:跳出Python圈、可人类干预、实时语音Agent、全链路追踪,代理福音
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)OpenAI 又放大招了! 用实力正名:在AI圈,自己的“一哥”地位不可动摇! 就在今天凌晨,OpenAI 官方开发者账号 @OpenAIDevs 在 X 平台上,一口气连续发布了 4 项关键更新,直接把 AI 代理(Agent)开发体验提升到新维度,围绕 Agent 开发体验、实时语音应用、人类干预机制和全链路追踪都做了重要升级。
6/4/2025 3:48:49 PM
云昭
最新发现!每参数3.6比特,语言模型最多能记住这么多
语言模型到底能记住多少信息? Meta、DeepMind、康奈尔大学和英伟达的一项测量结果显示:每个参数大约 3.6 比特。 一旦达到这个极限,它们就会停止记忆并开始泛化。
6/4/2025 1:56:51 PM
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限
强化学习(RL)到底是语言模型能力进化的「发动机」,还是只是更努力地背题、换个方式答题? 这个问题,学界争论已久:RL 真能让模型学会新的推理技能吗,还是只是提高了已有知识的调用效率? 过去的研究多数持悲观态度:认为 RL 带来的收益非常有限,有时甚至会让模型「同质化」加重,失去多样性。
6/4/2025 1:56:06 PM
冲击自回归,扩散模型正在改写下一代通用模型范式
上个月 21 号,Google I/O 2025 开发者大会可说是吸睛无数,各种 AI 模型、技术、工具、服务、应用让人目不暇接。 在这其中,Gemini Diffusion 绝对算是最让人兴奋的进步之一。 从名字看得出来,这是一个采用了扩散模型的 AI 模型,而这个模型却并非我们通常看到的扩散式视觉生成模型,而是一个地地道道的语言模型!
6/4/2025 1:55:03 PM
Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转
本文第一作者为刘启昊,约翰霍普金斯大学计算机科学博士四年级学生,师从 Alan Yuille 教授,研究方向涉及模型鲁棒性、生成模型与 3D 视觉。 通讯作者为 Mannat Singh,Meta GenAI 研究员,近期的研究主要涉及视频生成领域创新工作,包括 Emu Video、MovieGen 等项目。 在人工智能领域,跨模态生成(如文本到图像、图像到文本)一直是技术发展的前沿方向。
6/4/2025 1:53:57 PM
GPT-4o连验证码都解不了?SOTA模型成功率仅40%
当前最强多模态Agent连验证码都解不了? MetaAgentX团队推出首个专注于“多模态交互智能体×CAPTCHA(人机验证)问题”的开放式研究平台——Open CaptchaWorld。 该平台专门用于测试Agent解验证码的能力。
6/4/2025 1:53:22 PM
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
单张显卡,就能处理万帧视频输入,并且编码2048帧视频仅需12秒! 国产开源模型又上大分,这次是在长视频理解领域:智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型Video-XL-2。 长视频理解是多模态大模型关键能力之一。
6/4/2025 1:51:43 PM
突发!刚被OpenAI收购就惨遭Claude“卡脖子”!Windsurf CEO怒了:想花钱都买不到!网友:直接上GPT-5吧!
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)AI 编程圈又发生大事了。 OpenAI 刚刚要收购的 Windsurf,居然突然不能用 Claude 了。 Anthropic 临时掐断了 Claude 3.x 的一手访问权限,Claude 4 更是从未放行,就连 BYOK(自带 API 密钥)都得开发者自己去 Anthropic 买。
6/4/2025 1:46:15 PM
伊风
LangGPT:让人人都能写出大师级Prompt,从此告别“灵感枯竭症”!
一、什么是 LangGPT? Prompt的编程语言来了! 你见过这样的尴尬场面吗:苦苦啃Prompt文档一年,还没搞明白ChatGPT到底要怎么“聆听人言”?
6/4/2025 11:09:02 AM
许泽宇
让AI像人类一样认知真实世界!UCLA谷歌强强联手,长时记忆+3D空间理解超越基线16.5%
想象一下,你在一个陌生的房子里寻找合适的礼物盒包装泰迪熊,需要记住每个房间里的物品特征、位置关系,并根据反馈调整行动。 这一系列过程依赖人类强大的空间-时间长时记忆。 图片如何让AI在3D环境中像人类一样思考,一直是具身智能领域的难题。
6/4/2025 11:08:28 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
马斯克
英伟达
Anthropic
图像
AI创作
训练
LLM
论文
代码
算法
AI for Science
苹果
腾讯
Agent
Claude
芯片
Stable Diffusion
蛋白质
具身智能
xAI
开发者
生成式
人形机器人
神经网络
机器学习
3D
AI视频
RAG
大语言模型
Sora
研究
百度
生成
GPU
工具
字节跳动
华为
AGI
计算
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
亚马逊
AI模型
特斯拉
场景
深度学习
Transformer
架构
MCP
Copilot
编程
视觉