模型
4B Qwen3逆袭671B DeepSeek!字节DAPO微调方法这么猛的吗
4B小模型极限在哪里? 最新模型Jan-nano引起热议,它在智能体任务上超过671B的最新版DeepSeek-V3 0528,在SimpleQA基准上获得80.7分。 先来看一下它的实际表现,包括两个任务:对研究某公司目前的扩张情况,该公司的扩张正威胁着另一家公司的市场份额,并撰写一份可能影响金融公司尽职调查流程的MBA水平报告。
6/17/2025 8:45:00 AM
ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
本文共同一作是张翔和曹峻泰。 张翔是英属哥伦比亚大学研究生,主要研究兴趣集中在大模型推理和 AI for Science;曹峻泰是英属哥伦比亚大学研究生,主要研究兴趣集中在大模型推理和可解释性研究;本文通讯作者是来自纽约大学石溪分校的助理教授尤晨羽,以及来自 Meta Gen AI 的研究员丁渡鉴。 近年来,大型语言模型(LLM)在自然语言处理领域取得了革命性进展。
6/16/2025 2:44:14 PM
Muon作者仅用一篇博客,就被OpenAI看中了
「许多博士(包括过去的我)都陷入了这样一个误区:认为只有在顶级会议上发表论文才是终极目标。 」AI 云服务商 Hyperbolic CEO Yuchen Jin 如是说。 但现在,发表论文并不与学术影响力直接画等号了。
6/16/2025 2:43:38 PM
10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题
推理大模型虽好,但一个简单的算数问题能推理整整三页,还都是重复的“废话”,找不到重点……一种可以把大模型的“碎碎念”转化为可控记忆条目的高效压缩方法,出现了! R-KV开源登场:显存↓90%、吞吐×6.6、准确率=100%。 它可以通过实时对token进行排序,兼顾重要性和非冗余性,仅保留信息丰富且多样化的token,从而解决大模型推理时的冗余问题。
6/16/2025 2:41:07 PM
网页智能体新突破!引入协同进化世界模型,腾讯AI Lab提出新框架
让网页智能体自演进突破性能天花板! 腾讯AI Lab提出WebEvolver框架,通过引入协同进化的世界模型(World Model),让智能体在真实网页环境中实现10%的性能提升。 由此突破现有基于大语言模型(LLM)的网页智能体“自我迭代演进的性能最终会停滞”的瓶颈。
6/16/2025 2:40:40 PM
如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架
在金融科技智能化转型进程中,大语言模型以及多模态大模型(LVLM)正成为核心技术驱动力。 尽管 LVLM 展现出卓越的跨模态认知能力,其部署却长期受限于显著的算力瓶颈 —— 大小中等的模型一次多图推理可能需要 100 G 的显存空间,严重制约产业落地。 针对这一技术痛点,哈工大团队联合度小满金融科技正式发布 EFFIVLM-BENCH,业界首个支持跨场景统一评估的多模态大模型高效化基准框架,为学术界提供可复现的压缩方案对比基准,同时赋能工业界实现最优部署策略遴选。
6/16/2025 2:39:56 PM
全球首次,Transformer「混血」速度狂飙65倍!英伟达已下注
扩散方法打入语言模型领域! 最近,康奈尔博士生Subham Sahoo,在X介绍了扩散大语言模型的最新工作。 这项研究引发了AI研究领域的思考。
6/16/2025 9:13:00 AM
12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈
多伦多大学、哈佛MIT等机构联手AI,短短2天内,竟干完了科学家12年的活! 研究一出,在全网掀起了巨震。 沃顿商学院CS教授Ethan Mollick大受震撼,「AI综述论文体量越来越大,而准确性超越了人类」。
6/16/2025 9:12:00 AM
破解三大数据库AI难题!北大&亚马逊推出全球首个图中心RDB基础模型
在企业系统和科学研究中普遍存在、结构复杂的关系型数据库(Relational DataBase, RDB)场景中,基础模型的探索仍处于早期阶段。 这是因为RDB中的多表交互和异质特征,使传统通用大模型在此类结构化环境下难以直接发挥效能。 基于此,北京大学张牧涵团队联合亚马逊云科技共同提出了Griffin:一个具有开创性的、以图为中心的RDB基础模型。
6/16/2025 9:10:00 AM
刚刚!陶哲轩3小时对话流出:AI抢攻菲尔兹奖倒计时
昨天,陶哲轩公开表示:在未来,AI有可能获得菲尔兹奖。 在时长3小时14分钟的节目中,他还讨论了数学和物理学中最难的问题:纳维–斯托克斯问题 万有理论 广义相对论 孪生素数猜想 费马大定理 考拉兹猜想 P=NP 问题一开始,陶哲轩就认为统一物理理论(比如量子力学与广义相对论)之所以难以进展,是因为还没有找到正确的数学语言。 而AI可能帮助人类实现「大统一理论」,至少也是发现过程中的一部分。
6/16/2025 9:07:00 AM
全球程序员炸锅!老黄伦敦放豪言:编程语言的未来是「Human」
你知道人类目前的编程语言到底有多少种? C、C 、C#、Java、Python、PHP、JavaScript、Go、Rust……但不论有多少种,这些都不重要了。 未来也许只会剩下唯一一种编程语言,AI将彻底改写人机交互的定义。
6/16/2025 9:03:00 AM
谢赛宁敲响学界警钟!AI研究可能陷入一场注定失败的有限游戏
凌晨三点的 AI 实验室,键盘敲击声在空荡的房间回响。 屏幕上,博士生小王、小李、小赵正疯狂调整模型参数,只为在 NeurIPS 截稿前将准确率从 98.2% 刷到 98.5%。 这样的场景,在如今的 AI 学术圈早已见怪不怪。
6/16/2025 8:53:00 AM
首个统一的图像与视频AIGC可解释性检测框架,多榜单SOTA性能
想象一下:你正在浏览社交媒体,看到一张震撼的图片或一段令人震撼的视频。 它栩栩如生,细节丰富,让你不禁信以为真。 但它究竟是真实记录,还是由顶尖 AI 精心炮制的「杰作」?
6/16/2025 8:51:00 AM
突破125年世纪难题!北大校友联手科大少年班才子破解希尔伯特第六问题
1900年,数学大师希尔伯特提出23个数学难题,其中第六个问题——“物理学的公理化”,被称为数学物理的终极挑战。 125年后,北大校友邓煜、中科大少年班马骁与陶哲轩高徒扎赫尔・哈尼终于在这一问题上取得重大突破。 在20世纪,关于第六问题,希尔伯特追问:能否像欧几里得几何一样,为物理学构建严格的数学基础?
6/16/2025 8:49:00 AM
苹果《思考的错觉》再挨批,Claude与人类共著论文指出其三大关键缺陷
几天前,苹果一篇《思考的错觉》论文吸睛无数又争议不断,其中研究了当今「推理模型」究竟真正能否「推理」的问题,而这里的结论是否定的。 论文中写到:「我们的研究表明,最先进的 LRM(例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking)仍然未能发展出可泛化的解决问题能力 —— 在不同环境中,当达到一定复杂度时,准确度最终会崩溃至零。 」不过,这篇论文的研究方法也受到了不少质疑,比如我们的一位读者就认为「给数学题题干加无关内容,发现大模型更容易答错,而质疑大模型不会推理」的做法并不十分合理。
6/16/2025 8:48:00 AM
LLM已能自我更新权重,自适应、知识整合能力大幅提升,AI醒了?
近段时间,关于 AI 自我演进/进化这一话题的研究和讨论开始变得愈渐密集。 本月初我们就曾梳理报道了一些,包括 Sakana AI 与不列颠哥伦比亚大学等机构合作的「达尔文-哥德尔机(DGM)」、CMU 的「自我奖励训练(SRT)」、上海交通大学等机构提出的多模态大模型的持续自我改进框架「MM-UPT」、香港中文大学联合 vivo 等机构的自改进框架「UI-Genie」。 那之后,相关研究依然还在不断涌现,以下拼图展示了一些例子:而前些天,OpenAI CEO、著名 𝕏 大 v 山姆・奥特曼在其博客《温和的奇点(The Gentle Singularity)》中更是畅想了一个 AI/智能机器人实现自我改进后的未来。
6/16/2025 8:46:00 AM
复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕
2024 年底,Ilya Sutskever 断言「我们所知的预训练时代即将终结」,让整个人工智能领域陷入对 Scaling What 的集体追问之中。 新的思路不断涌现:推理时扩展(Test-Time Scaling)让 OpenAI 的 o 系列在数学推理上大放异彩,DeepSeek-R1 通过 GRPO 替代 PPO 实现了强化学习的突破,强化学习 Self-play LLM 让 AI 在游戏和代码生成中展现惊人能力,Agent 化路径则催生了能够操作浏览器、调用工具的新一代智能助理…… 每一条路都在探寻可能的下一个跃迁。 在这场技术探讨中,复旦大学 / 上海创智学院的邱锡鹏教授提出了一个耐人寻味的新路径 ——Context Scaling。
6/16/2025 8:33:00 AM
AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%
大型推理模型(LRMs)在解决复杂任务时展现出的强大能力令人惊叹,但其背后隐藏的安全风险不容忽视。 尽管学术界已尝试通过监督微调(SFT)有效地提升模型安全,但下图的测试结果所示,监督微调在面对训练数据领域外的层出不穷的“越狱”攻击时,往往显得捉襟见肘,泛化能力有限。 同时,之前的工作没有对大型推理模型的安全思考做深入的分析,以进行针对性的提升。
6/16/2025 8:25:00 AM
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用