模型
一招缓解LLM偏科!调整训练集组成,“秘方”在此 | 上交大&上海AI Lab等
大幅缓解LLM偏科,只需调整SFT训练集的组成。 本来不擅长coding的Llama 3.1-8B,代码能力明显提升。 上海交大&上海AI Lab联合团队提出创新方法IDEAL,可显著提升LLM在多种不同领域上的综合性能。
6/11/2025 9:17:00 AM
时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8
相邻的 KV 缓存将合并为一个。 在生成第一个字符时,KV 缓存长度为 1;生成第二个字符后,新生成的 KV 与前一个被合并,KV 缓存长度仍然保持为 1。 这种动态合并机制有效压缩了时间维度上的冗余信息。
6/11/2025 9:15:51 AM
刚刚,OpenAI正式发布o3-pro!奥特曼激动更新博客:温和的奇点
今天凌晨一点,OpenAI 宣布:OpenAI o3-pro today.前沿模型的轮流更新这一次轮到 OpenAI 了。 ,所有 Pro 订阅用户均可通过 ChatGPT 和 API 使用这款强大的推理模型。 Team 用户也可在模型选择器选择使用它。
6/11/2025 9:13:44 AM
北大伯克利联手“拷问”大模型:最强Agent也才40分!新基准专治“不听话”的AI分析师
给大模型当老师,让它一步步按你的想法做数据分析,有多难? 结果是,连Claude-3.7和Gemini-2.5 Pro这样的顶尖选手,都开始“不听话”了。 在一个全新的测试基准中,它们面对多轮、不断演进的指令,最终的任务成功率最高仅有40%。
6/11/2025 9:08:00 AM
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
端侧性价比之王,清华大学和面壁智能团队开源新模型——MiniCPM 4,提供8B、0.5B两种参数规模,仅使用同级别开源模型22%的训练开销,就达到了同级别最优性能。 MiniCPM4-8B是开源首个开源的原生稀疏模型,5%的极高稀疏度加持,让长文本、深思考在端侧真正跑起来。 在MMLU、CEval、MATH500、HumanEval等基准测试中,以仅22%的训练开销,性能比肩 Qwen-3-8B,超越Gemma-3-12B。
6/11/2025 9:03:29 AM
不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine
这是UC伯克利大学计算机副教授Sergey Levine最新提出的灵魂一问。 他同时是Google Brain的研究员,参与了Google知名机器人大模型PALM-E、RT1和RT2等项目。 Sergey Levine在谷歌学术的被引用次数高达18万次。
6/11/2025 8:59:21 AM
OpenAI新模型,被曝秘密训练中!万字硬核长文直指o4核心秘密
OpenAI的o4,已经在训练了? 就在最近,SemiAnalysis发表了一篇硬核长文博客,爆料了不少大模型圈的内幕消息。 其中,一些最核心的亮点,先一睹为快:OpenAI正在训练一个规模介于GPT-4.1和GPT-4.5之间的新模型下一代推理模型o4将基于GPT-4.1展开RL训练强化学习改变了实验室结构,甚至是大厂未来研究的侧重方向和优先级定义奖励函数难上加难,往往AI钻空子之后,漏洞才能被发现不牺牲LLM任何性能,不用合并权重,RL另一条路——数据混合与预训练不同,RL可持续更新Scaling模型能力,DeepSeek-R1是典例高质量数据是Scaling强化学习的护城河训练小模型,蒸馏效果要比RL更好新一轮预训练已开始首先,让我们看看其中最硬的内容——关于OpenAI的全新模型。
6/11/2025 8:54:52 AM
大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点
「我一直很困惑,语言模型怎么能从下一个 token 预测中学到这么多,而视频模型从下一帧预测中学到的却那么少? 难道是因为大模型(LLM)其实是伪装的大脑扫描仪? 」近日,加州大学伯克利分校副教授、强化学习大牛 Sergey Levine 发出了一记灵魂拷问。
6/11/2025 8:45:00 AM
刚刚,2025哥德尔奖出炉!破解30年难题,十年论文摘桂冠
就在刚刚,理论计算机科学界迎来喜讯! 康奈尔大学副教授Eshan Chattopadhyay与导师David Zuckerman,荣获2025年哥德尔奖! 凭借2016年合著的论文《Explicit Two-Source Extractors and Resilient Functions》,他们共享此奖。
6/10/2025 4:27:16 PM
我让十个大模型又参加了完整版数学高考,第一名居然是它......
昨天,我不是发了几个大模型参加数学高考的测试文章嘛。 没想到热度挺高,大家还挺关注的。 图片不过,很多评论区的小伙伴也说,根本看不出来区别。
6/10/2025 11:25:31 AM
数字生命卡兹克
强化学习之父:LLM主导只是暂时,扩展计算才是正解
这是新晋图灵奖得主、强化学习之父Richard Sutton对未来的最新预测。 就在刚刚的新加坡国立大学建校120周年(NUS120)之际,Sutton受邀发表演讲——塑造AI和强化学习的未来。 其实,这已经不是Sutton第一次在公开场合表达类似的观点,早在他19年的著作《痛苦的教训》中,他就明确提出:让AI尤其是LLM模仿人类思维方式,只能带来短期的性能提升,长期看只会阻碍研究的持续进步。
6/10/2025 11:22:09 AM
数学圈地震!o3靠直觉刷爆人类顶尖难题,14位专家集体破防
推理模型不会推理,一夜成为硅谷最热门的话题。 来自Epoch AI最新报告称,o3-mini-high不仅会推理,还能破解顶尖数学难题。 14位数学家组团,共同评估o3在29道FrontierMath推理能力。
6/10/2025 9:22:31 AM
比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临
王劲,香港大学计算机系二年级博士生,导师为罗平老师。 研究兴趣包括多模态大模型训练与评测、伪造检测等,有多项工作发表于 ICML、CVPR、ICCV、ECCV 等国际学术会议。 近年来,大型语言模型(LLMs)在多模态任务中取得了显著进展,在人工通用智能(AGI)的两大核心支柱(即理解与生成)方面展现出强大潜力。
6/10/2025 9:18:53 AM
AI集体“听不懂”!MMAR基准测试揭示音频大模型巨大短板
用AI来整理会议内容,已经是人类的常规操作。 不过,你猜怎么着? 面对1000道多步骤音频推理题时,30款AI模型竟然几乎全军覆没,很多开源模型表现甚至接近瞎猜。
6/10/2025 9:10:00 AM
AI七个月突破数学家“围剿”反超人类!14位数学家深挖原始推理token:不靠死记硬背靠直觉
从只能答对2%的题目,到在超难数学题集中刷下22%得分,甚至超过人类团队平均水平,大模型需要多长时间? 现在,令数学家们都惊讶的结果已经尘埃落定:7个月。 发生在大名鼎鼎的“专为为难大模型而生的”FrontierMath基准测试上的这一幕,在激起热议同时,也引发了新的思考:大模型们是怎么做到的?
6/10/2025 9:09:00 AM
双重突破:全球首个零售VLA大模型来了!开源OpenWBT让机器人遥操门槛暴降!
学会“适当暂停与总结”,大模型终于实现无限推理。 想象一下,让你一口气不歇地推演一个超复杂数学证明,大脑也会“内存溢出”吧? 如今的大模型在长上下文推理中也面临同样的困境,随着推理长度增加而指数级增长的计算成本,以及由于长度受限而被迫中断推理过程。
6/10/2025 9:07:00 AM
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
视觉语言模型(VLM)正经历从「感知」到「认知」的关键跃迁。 当OpenAI的o3系列通过「图像思维」(Thinking with Images)让模型学会缩放、标记视觉区域时,我们看到了多模态交互的全新可能。 然而,当前主流VLM仍被困在「文本茧房」中——依赖文本token间接翻译视觉信息,在高清图像中的微小物体、视频里的动态细节等场景中,常常因缺乏直接视觉操作能力而「视而不见」。
6/10/2025 9:07:00 AM
无需SFT也不用RL,样本级推理优化神器SLOT来了,准确率轻松+10%
试想一下,如果你参加考试时,可以在答题前花几秒钟「适应」一下这道具体的题目,你的表现会不会更好? 这正是西湖大学研究团队在最新论文中提出的核心思想。 他们开发的 SLOT(Sample-specific Language Model Optimization at Test-time)方法,把每个输入 prompt 本身当作一份「迷你训练数据」,让模型在生成答案前先「学习」理解这个具体问题。
6/10/2025 9:05:00 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
数据
机器人
大模型
Midjourney
开源
Meta
智能
用户
微软
GPT
学习
AI新词
技术
智能体
马斯克
Gemini
图像
AI创作
英伟达
Anthropic
训练
论文
代码
LLM
算法
Stable Diffusion
芯片
腾讯
苹果
AI for Science
Claude
蛋白质
Agent
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
工具
计算
RAG
大语言模型
GPU
华为
Sora
具身智能
AI设计
字节跳动
搜索
大型语言模型
AGI
场景
深度学习
视频生成
预测
视觉
架构
伟达
Transformer
DeepMind
编程
神器推荐
AI模型
亚马逊
特斯拉