数据
ICML 2025 | 生成式视角重塑监督学习!标签不只是答案,更是学习指南
生成式视角可以对监督学习重新思考乃至重新定义! 想象你在教一个学生解数学题——你会直接让他交卷对答案,还是会让他参考完整答案来理解解题思路? 如今,一种全新的监督学习范式正受到关注:标签不应只是用于对照回答的标准答案,更可能成为学习过程中的辅助参考。
6/25/2025 8:59:49 AM
3D VLA新范式!中科院&字节Seed提出BridgeVLA,斩获CVPR 2025 workshop冠军!
只需要三条轨迹,就能取得 96.8% 的成功率? 视觉干扰、任务组合等泛化场景都能轻松拿捏? 或许,3D VLA 操作新范式已经到来。
6/24/2025 11:50:37 AM
携程机票前端Web流式通信SSE全链路应用实践
作者简介Chris Xia,携程前端开发专家,关注新技术革新和研发效率提升。 本文介绍了携程机票前端基于Server-Sent Events(SSE)实现服务端推送的企业级全链路通用技术解决方案。 深入探讨 SSE 技术在应用过程中包括方案对比、技术选型、链路层优化以及实际效果等多维度的技术细节,为类似使用场景提供普适性参考和借鉴。
6/24/2025 9:51:47 AM
Chris Xia
月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA
昨天,月之暗面发了篇博客,介绍了一款名为 Kimi-Researcher 的自主 Agent。 这款 Agent 擅长多轮搜索和推理,平均每项任务执行 23 个推理步骤,访问超过 200 个网址。 它是基于 Kimi k 系列模型的内部版本构建,并完全通过端到端智能体强化学习进行训练,也是国内少有的基于自研模型打造的 Agent。
6/23/2025 9:00:00 AM
监督学习也能从错误中学习反思?!清华英伟达联合提出隐式负向策略爆炸提升数学能力
监督学习也能像强化学习一样进行“自我反思”了。 清华大学与英伟达、斯坦福联合提出新的监督学习方案——NFT(Negative-aware FineTuning),在RFT(Rejection FineTuning)算法基础上通过构造一个“隐式负向模型” 来额外利用负向数据进行训练。 这并不意味着使用“差数据”进行训练,而是在已知的模型计算结果前提下,通过负向数据训练正向模型,即“隐式负向策略(Implicit Negative Policy)”。
6/23/2025 8:52:00 AM
只改两行代码,RAG效率暴涨30%!多种任务适用,可扩展至百亿级数据规模应用
只需修改两行代码,RAG向量检索效率暴涨30%! 不仅适用于文搜文”、“图搜图”、“文搜图”、“推荐系统召回”多种任务;而且具备良好扩展性,适合十亿、百亿级别大规模应用。 浙江大学高云君、柯翔宇团队联手向量检索领域大佬傅聪,开源新方法PSP(Proximity graph with Spherical Pathway),突破RAG两大难题。
6/23/2025 8:49:00 AM
75%预训练数据都能删!Jeff Dean新作:全自动筛除低质量数据
机器学习领域有一条铁律,「Garbage In, Garbage Out.」,就是说模型的质量很大程度上取决于训练数据的质量。 大模型在预训练阶段会吸收海量的数据,其中数据的来源非常杂,导致质量参差不齐。 大量的实验和经验已经证明了,对预训练数据进行质量筛选是提高模型能力和效率的关键。
6/19/2025 8:50:00 AM
不用千亿参数也能合成高质量数据!这个开源框架让小模型“组团逆袭”,7B性能直追72B
无需蒸馏任何大规模语言模型,小模型也能自给自足、联合提升? 上海人工智能实验室联合中国人民大学提出的GRA框架(Generator–Reviewer–Adjudicator) 正是这样一种新范式:该方法以“多人协作”、“角色分工”的理念为核心,系统性探索了多开源小模型如何通过协同机制生成高质量训练数据。 实验结果显示,在涵盖数学、代码、逻辑推理、通识问答等10个主流数据集上,GRA生成的数据质量与单个大型语言模型(如Qwen-2.5-72B-Instruct)输出相当或更高,并在多数任务中取得了显著领先。
6/18/2025 8:47:00 AM
AI ASMR突然火爆全网!3天狂揽近10万粉丝,一条切水果视频播放量破1650万
短视频平台熬夜冲浪的我突然发现,AI ASMR突然火了? ! 大家可以打开声音欣赏一下这条切割浆果的视频,它拿下了16500000的浏览量。
6/16/2025 8:54:00 AM
CVPR 2025 多模态大一统:斯坦福 x 复旦提出符号主义建模生成式任务
共同第一作者包括:陈家棋,斯坦福大学访问学者,复旦大学硕士,研究方向为 LLM Agent和大一统模型;朱小烨,华南理工大学本科,研究方向为 LLM Agent、LLM 和强化学习;王越,康奈尔大学本科,研究方向为 LLM Agent、多模态语言模型。 指导老师:Julian McAuley(UCSD)、Li-jia Li (IEEE Fellow, LiveX AI)。 在人工智能内容创作蓬勃发展的今天,跨模态生成技术正在重塑艺术创作和视觉表达的边界。
6/13/2025 8:46:00 AM
CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源
本文第一作者杜恒辉为中国人民大学二年级硕士生,主要研究方向为多模态大模型视听场景理解与推理,长视频理解等,师从胡迪副教授。 作者来自于中国人民大学,清华大学和北京腾讯 PCG AI 技术中心。 我们人类生活在一个充满视觉和音频信息的世界中,近年来已经有很多工作利用这两个模态的信息来增强模型对视听场景的理解能力,衍生出了多种不同类型的任务,它们分别要求模型具备不同层面的能力。
6/13/2025 8:45:00 AM
杨立昆亲自指导开源世界大模型,为AI Agent打造超级大脑
今天凌晨,全球社交巨头Meta在官网开源了一个世界大模型V-JEPA 2。 与第一代相比,V-JEPA 2使用了100万视频 100万图片超大规模训练数据集,可以让AI Agent像人类那样理解真实的物理世界,为智能体打造一个“超级大脑”自主学会观察、规划到执行全自动化能力。 值得一提的是,图灵奖获得者、Meta首席科学家杨立昆(Yann LeCun)参与了该模型的开发,这在Meta开源的众多大模型中很罕见。
6/12/2025 9:12:00 AM
端到端GUI智能体首次实现“犯错-反思-修正”闭环,模拟人类认知全过程
端到端多模态GUI智能体有了“自我反思”能力! 南洋理工大学MMLab团队提出框架GUI-Reflection。 随着多模态大模型的发展,端到端GUI智能体在手机、电脑等设备上的自动化任务中展示出巨大潜力。
6/12/2025 8:58:00 AM
10%训练数据超越100%表现,机器人学习领域迎来重要突破
第一作者陈昌和是美国密歇根大学的研究生,师从 Nima Fazeli 教授,研究方向包括基础模型、机器人学习与具身人工智能,专注于机器人操控、物理交互与控制优化。 第二作者徐晓豪是美国密歇根大学机器人学院博士生,研究涵盖3D 感知、视觉语言模型驱动的多模态异常检测及鲁棒三维重建。 共同第一作者 Quantao Yang 是瑞典皇家理工学院博士后,师从 Olov Andersson 教授,研究聚焦于利用视觉语言模型与大型语言模型提升自主系统在动态环境中的感知与导航能力。
6/11/2025 2:45:26 PM
北大伯克利联手“拷问”大模型:最强Agent也才40分!新基准专治“不听话”的AI分析师
给大模型当老师,让它一步步按你的想法做数据分析,有多难? 结果是,连Claude-3.7和Gemini-2.5 Pro这样的顶尖选手,都开始“不听话”了。 在一个全新的测试基准中,它们面对多轮、不断演进的指令,最终的任务成功率最高仅有40%。
6/11/2025 9:08:00 AM
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
端侧性价比之王,清华大学和面壁智能团队开源新模型——MiniCPM 4,提供8B、0.5B两种参数规模,仅使用同级别开源模型22%的训练开销,就达到了同级别最优性能。 MiniCPM4-8B是开源首个开源的原生稀疏模型,5%的极高稀疏度加持,让长文本、深思考在端侧真正跑起来。 在MMLU、CEval、MATH500、HumanEval等基准测试中,以仅22%的训练开销,性能比肩 Qwen-3-8B,超越Gemma-3-12B。
6/11/2025 9:03:29 AM
大模型能够自发形成“人类思维地图”!Nature子刊重磅研究揭示多模态大模型类脑机制
大模型≠随机鹦鹉! Nature子刊最新研究证明:大模型内部存在着类似人类对现实世界概念的理解。 LLM能理解现实世界和各种抽象概念吗?
6/10/2025 9:04:00 AM
破解自驾数据难题!毫米波雷达可控仿真技术新框架来了
以神经网络为核心引擎,让AI承担雷达仿真数据生成任务,还实现对雷达物理特性的建模与控制——这就是光轮智能联合清华AIR、LeddarTech等机构提出的全新自动驾驶神经渲染框架SA-Radar。 在无需雷达具体细节的情况下,它能实现可控且逼真的雷达仿真,支持场景的灵活编辑——包括雷达属性修改、演员移除以及新视角合成,并能显著增强多种下游任务。 作为高级驾驶辅助系统(ADAS)中扮演着至关重要角色的雷达,其相关研究和开发仍面临数据获取的挑战。
6/10/2025 8:45:00 AM
资讯热榜
全新开源的DeepSeek-OCR,可能是最近最惊喜的模型!
刚刚,ChatGPT终于可以走遍整个互联网了!OpenAI深夜炸街:原生ChatGPT集成、即时理解、主动执行,浏览器赛道鲨疯了
告别抽卡!Vidu Q2多图参考生视频功能重磅上线
最强OCR竟然不是DeepSeek、Paddle!HuggingFace新作:六大顶尖开源OCR模型横评!继DS后又杀出匹黑马!
OpenAI首款ChatGPT浏览器发布!现在就能免费下载使用
通义千问再放大招!Qwen3-VL 家族新增 2B 与 32B 模型,开源矩阵全面升级
保姆级教程!教你用Coze工作流2分钟生成优质文章
OpenAI、Oracle 再加码 AI 基建:150亿美元 Lighthouse 园区启动建设
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
芯片
AI for Science
腾讯
Stable Diffusion
Agent
苹果
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
人形机器人
研究
AI视频
生成
RAG
大语言模型
百度
具身智能
Sora
工具
GPU
华为
计算
字节跳动
AI设计
搜索
大型语言模型
AGI
视频生成
场景
深度学习
DeepMind
架构
视觉
编程
生成式AI
预测
Transformer
AI模型
伟达
特斯拉
Copilot