资讯列表
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
近期arxiv最热门论文,Qwen&清华LeapLab团队最新成果:在强化学习训练大模型推理能力时,仅仅20%的高熵token就能撑起整个训练效果,甚至比用全部token训练还要好。 团队用这个发现在Qwen3-32B上创造了新的SOTA记录:AIME’24上达到63.5分,AIME’25上达到56.7分,这是600B参数以下直接从base模型训练的最高分。 最大响应长度从20k延长到29k,AIME’24的分数更是飙升到了68.1分。
6/6/2025 9:13:00 AM
性能大涨!阿里开源新版Qwen3模型,霸榜文本表征
今天凌晨,阿里巴巴开源了两款Qwen3系列新模型,Qwen3-Embedding和Qwen3-Reranker。 这两个模型是专为文本表征、检索与排序任务设计,基于 Qwen3基础模型训练,充分继承了Qwen 3在多语言文本理解方面的优势,支持119种语言。 根据测试数据显示,在多语言文本表征基准测试中,Qwen3 Embedding的性能非常出色。
6/6/2025 9:12:53 AM
让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA
还记得今年初DeepSeek‑R1系列把纯强化学习(RL)训练开源,点燃社区对于RL的热情吗? 不久后,来自清华蚂蚁联合开源项目AReaL(v0.1)也通过在DeepSeek-R1-Distill-Qwen-1.5B上进行RL训练,观察到模型性能的持续提升。 AReaL(v0.1)在40小时内,使用RL训练的一个1.5B参数模型,在数学推理方面就超越了o1-Preview版本。
6/6/2025 9:10:00 AM
真实联网搜索Agent,7B媲美满血R1,华为盘古DeepDiver给出开域信息获取新解法
大型语言模型 (LLM) 的发展日新月异,但实时「内化」与时俱进的知识仍然是一项挑战。 如何让模型在面对复杂的知识密集型问题时,能够自主决策获取外部知识的策略? 华为诺亚方舟实验室研究团队提出了 Pangu DeepDiver 模型,通过 Search Intensity Scaling 实现了 LLM 搜索引擎自主交互的全新范式,使得 Pangu 7B 模型在开域信息获取能力上可以接近百倍参数的 DeepSeek-R1,并优于 DeepResearcher、R1-Searcher 等业界同期工作!
6/6/2025 9:07:00 AM
推理时间减少70%!前馈3DGS「压缩神器」来了,浙大Monash联合出品
在增强现实(AR)和虚拟现实(VR)等前沿应用领域,新视角合成(Novel View Synthesis,NVS)正扮演着越来越关键的角色。 3D高斯泼溅(3D Gaussian Splatting,3DGS)凭借其革命性的实时渲染能力和卓越的视觉质量,迅速成为NVS领域备受关注的技术方案。 现有的前馈3D高斯泼溅(Feed-Forward 3D Gaussian Splatting,3DGS)模型,虽然在实时渲染和高效生成3D场景方面取得了显著进展,但仍存在一些关键缺陷。
6/6/2025 9:07:00 AM
DeepMind揭惊人答案:智能体就是世界模型!跟Ilya 2年前预言竟不谋而合
就在刚刚,DeepMind科学家Jon Richens在ICML 2025上发表的论文,一石激起千层浪。 实现人类水平的智能体(即AGI),是否需要世界模型,还是存在无模型的捷径? 他们从第一性原理出发,揭示了一个令人惊讶的答案——智能体就是世界模型!
6/6/2025 9:02:00 AM
可灵AI月度付费金额连续两个月超1亿元,用户规模破2200万
根据快手官网信息显示,可灵AI在推出10个月之后(即今年3月)的年化收入运行率(ARR)已突破1亿美元,另外今年4月和5月的月度付费金额均超过1亿元人民币。 据了解,目前P(Prosumer)端付费订阅会员贡献了可灵AI将近70%的营业收入。 目前可灵AI全球用户规模突破2200万,为超过1万家的企业客户提供API服务。
6/6/2025 9:00:56 AM
AI在线
马斯克 X 平台更新政策,禁止第三方使用内容训练 AI 模型
马斯克旗下的社交平台 X(原推特)发布了更新的开发者协议,新增了一项条款,明确禁止第三方使用该平台的内容进行人工智能(AI)模型的训练。 根据外媒《The Verge》的报道,这一政策更新意味着开发者不能利用 X 平台或其 API 上的内容来 “微调或训练基础模型或前沿模型”。 图源备注:图片由AI生成,图片授权服务商Midjourney这一政策的出台,可能是 X 平台意图与第三方公司进行 AI 训练合作的表现,类似于 Reddit 和谷歌之间的协议。
6/6/2025 9:00:56 AM
AI在线
谷歌推出更新版 Gemini 2.5 Pro,AI 性能大幅提升
谷歌最近在其 AI 模型系列中迎来了重要更新。 继今年3月底推出 Gemini2.5Pro 模型后,谷歌紧接着在4月发布了更为轻量的 Gemini2.5Flash 版本。 虽然两者目前都处于预览阶段,但 Gemini2.5Flash 版本已经通过 Gemini App 向全球用户开放,用户可以体验其强大的功能。
6/6/2025 9:00:55 AM
AI在线
Anthropic 发布专为国家安全定制的 AI 模型,获亚马逊和谷歌支持
人工智能公司 Anthropic 推出了一款专为美国国家安全机构设计的 AI 模型套件,名为 Claude Gov。 这一产品已经得到了亚马逊和谷歌的战略支持,现阶段仅向持有最高安全许可的机构开放使用。 Claude Gov 模型套件是根据国防和情报部门的具体需求开发而成的。
6/6/2025 9:00:55 AM
AI在线
通义千问正式发布Qwen3-Embedding系列模型
近日,通义千问官方正式发布了Qwen3-Embedding系列模型,作为Qwen模型家族的新成员,该系列模型专为文本表征、检索与排序任务而设计。 Qwen3-Embedding系列基于Qwen3基础模型进行训练,充分继承了Qwen3在多语言文本理解能力上的显著优势。 该系列模型在多项基准测试中表现出色,特别是在文本表征和排序任务中展现了卓越性能。
6/6/2025 9:00:55 AM
AI在线
Anthropic谈为何切断 Windsurf 访问自家 AI 模型:聚焦长期合作客户
近日,Anthropic 的联合创始人兼首席科学官贾里德・卡普兰(Jared Kaplan)在接受外媒 TechCrunch 采访时,透露了公司决定限制 Windsurf 访问其 Claude AI 模型的原因。 此举是在有关 OpenAI 计划以30亿美元收购 Windsurf 的传闻传出后做出的,卡普兰表示:“我们的真正目标是为那些能够长期与我们合作的客户提供支持,而不是让短期客户享受我们的服务。 ”卡普兰进一步说明,Anthropic 已经切断了 Windsurf 对其 Claude3.5Sonnet 和 Claude3.7Sonnet 这两款编程 AI 模型的直接访问。
6/6/2025 9:00:55 AM
AI在线
大模型结构化推理优势难复制到垂直领域!最新法律AI评估标准来了,抱抱脸评测集趋势第一
大模型推理,无疑是当下最受热议的科技话题之一。 但在数学和物理等STEM之外,当LLM落到更多实际应用领域之中,大模型的推理能力又有多大的潜能和局限? 比如,如何评估大模型的推理能力在法律领域的应用,就在当前备受关注。
6/6/2025 9:00:00 AM
LLM 协作革命:Group Think 如何重塑推理边界
大家好,我是肆〇柒。 今天和大家聊聊 Group Think。 顾名思义,它通过让单个 LLM 模拟多个并行推理智能体,并以 token 级别的细粒度协作,提出了推理协作的新范式。
6/6/2025 8:57:42 AM
肆零柒
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
在大模型竞赛白热化的当下,「强化学习后训练」已成为突破LLM性能天花板的核心路径。 爆火出圈的OpenAI o1、DeepSeek-R1等模型,背后都是依靠RL后训练点石成金。 相较于预训练阶段的「广撒网」式知识获取,RL 后训练通过驱动模型与外部环境进行动态交互,直接塑造了LLM在复杂任务中的推理效能。
6/6/2025 8:55:00 AM
上海AI实验室造出首个「通才」机器人大脑:看懂世界+空间推理+精准操控全拿下
机器人的新大脑框架来了! 上海人工智能实验室联合多家单位提出了一种全新的通用具身智能大脑框架:Visual Embodied Brain,简称VeBrain。 该模型通过同时集成视觉感知、空间推理和机器人控制能力,可实现多模态大模型(MLLM)对物理实体的直接操控,使机器人能像人类一样“看到-思考-行动”。
6/6/2025 8:52:00 AM
RAG、向量数据库和LLM搜索:人工智能驱动商业智能的未来
译者 | 李睿审校 | 重楼本文对RAG、向量数据库和LLM搜索如何塑造人工智能驱动的商业智能未来进行探讨。 RAG通过集成知识检索提升LLM性能,解决其无法及时纳入最新或专有信息的问题,尤其在客户服务领域影响显著。 向量数据库则支持快速相似性搜索,理解查询语义。
6/6/2025 8:39:15 AM
李睿