模型

如何选择最佳多模态大模型压缩方案？哈工大、度小满开源EFFIVLM-BENCH基准测试框架

在金融科技智能化转型进程中，大语言模型以及多模态大模型（LVLM）正成为核心技术驱动力。尽管 LVLM 展现出卓越的跨模态认知能力，其部署却长期受限于显著的算力瓶颈 —— 大小中等的模型一次多图推理可能需要 100 G 的显存空间，严重制约产业落地。针对这一技术痛点，哈工大团队联合度小满金融科技正式发布 EFFIVLM-BENCH，业界首个支持跨场景统一评估的多模态大模型高效化基准框架，为学术界提供可复现的压缩方案对比基准，同时赋能工业界实现最优部署策略遴选。

6/16/2025 2:39:56 PM

全球首次，Transformer「混血」速度狂飙65倍！英伟达已下注

扩散方法打入语言模型领域！最近，康奈尔博士生Subham Sahoo，在X介绍了扩散大语言模型的最新工作。这项研究引发了AI研究领域的思考。

6/16/2025 9:13:00 AM

12年博士研究，AI两天爆肝完成！科研效率狂飙3000倍，惊动学术圈

多伦多大学、哈佛MIT等机构联手AI，短短2天内，竟干完了科学家12年的活！研究一出，在全网掀起了巨震。沃顿商学院CS教授Ethan Mollick大受震撼，「AI综述论文体量越来越大，而准确性超越了人类」。

6/16/2025 9:12:00 AM

破解三大数据库AI难题！北大＆亚马逊推出全球首个图中心RDB基础模型

在企业系统和科学研究中普遍存在、结构复杂的关系型数据库（Relational DataBase, RDB）场景中，基础模型的探索仍处于早期阶段。这是因为RDB中的多表交互和异质特征，使传统通用大模型在此类结构化环境下难以直接发挥效能。基于此，北京大学张牧涵团队联合亚马逊云科技共同提出了Griffin：一个具有开创性的、以图为中心的RDB基础模型。

6/16/2025 9:10:00 AM

刚刚！陶哲轩3小时对话流出：AI抢攻菲尔兹奖倒计时

昨天，陶哲轩公开表示：在未来，AI有可能获得菲尔兹奖。在时长3小时14分钟的节目中，他还讨论了数学和物理学中最难的问题：纳维–斯托克斯问题万有理论广义相对论孪生素数猜想费马大定理考拉兹猜想 P=NP 问题一开始，陶哲轩就认为统一物理理论（比如量子力学与广义相对论）之所以难以进展，是因为还没有找到正确的数学语言。而AI可能帮助人类实现「大统一理论」，至少也是发现过程中的一部分。

6/16/2025 9:07:00 AM

全球程序员炸锅！老黄伦敦放豪言：编程语言的未来是「Human」

你知道人类目前的编程语言到底有多少种？ C、C 、C#、Java、Python、PHP、JavaScript、Go、Rust……但不论有多少种，这些都不重要了。未来也许只会剩下唯一一种编程语言，AI将彻底改写人机交互的定义。

6/16/2025 9:03:00 AM

谢赛宁敲响学界警钟！AI研究可能陷入一场注定失败的有限游戏

凌晨三点的 AI 实验室，键盘敲击声在空荡的房间回响。屏幕上，博士生小王、小李、小赵正疯狂调整模型参数，只为在 NeurIPS 截稿前将准确率从 98.2% 刷到 98.5%。这样的场景，在如今的 AI 学术圈早已见怪不怪。

6/16/2025 8:53:00 AM

首个统一的图像与视频AIGC可解释性检测框架，多榜单SOTA性能

想象一下：你正在浏览社交媒体，看到一张震撼的图片或一段令人震撼的视频。它栩栩如生，细节丰富，让你不禁信以为真。但它究竟是真实记录，还是由顶尖 AI 精心炮制的「杰作」？

6/16/2025 8:51:00 AM

突破125年世纪难题！北大校友联手科大少年班才子破解希尔伯特第六问题

1900年，数学大师希尔伯特提出23个数学难题，其中第六个问题——“物理学的公理化”，被称为数学物理的终极挑战。 125年后，北大校友邓煜、中科大少年班马骁与陶哲轩高徒扎赫尔・哈尼终于在这一问题上取得重大突破。在20世纪，关于第六问题，希尔伯特追问：能否像欧几里得几何一样，为物理学构建严格的数学基础？

6/16/2025 8:49:00 AM

苹果《思考的错觉》再挨批，Claude与人类共著论文指出其三大关键缺陷

几天前，苹果一篇《思考的错觉》论文吸睛无数又争议不断，其中研究了当今「推理模型」究竟真正能否「推理」的问题，而这里的结论是否定的。论文中写到：「我们的研究表明，最先进的 LRM（例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking）仍然未能发展出可泛化的解决问题能力 —— 在不同环境中，当达到一定复杂度时，准确度最终会崩溃至零。」不过，这篇论文的研究方法也受到了不少质疑，比如我们的一位读者就认为「给数学题题干加无关内容，发现大模型更容易答错，而质疑大模型不会推理」的做法并不十分合理。

6/16/2025 8:48:00 AM

LLM已能自我更新权重，自适应、知识整合能力大幅提升，AI醒了？

近段时间，关于 AI 自我演进/进化这一话题的研究和讨论开始变得愈渐密集。本月初我们就曾梳理报道了一些，包括 Sakana AI 与不列颠哥伦比亚大学等机构合作的「达尔文-哥德尔机（DGM）」、CMU 的「自我奖励训练（SRT）」、上海交通大学等机构提出的多模态大模型的持续自我改进框架「MM-UPT」、香港中文大学联合 vivo 等机构的自改进框架「UI-Genie」。那之后，相关研究依然还在不断涌现，以下拼图展示了一些例子：而前些天，OpenAI CEO、著名 𝕏 大 v 山姆・奥特曼在其博客《温和的奇点（The Gentle Singularity）》中更是畅想了一个 AI/智能机器人实现自我改进后的未来。

6/16/2025 8:46:00 AM

复旦大学/上海创智学院邱锡鹏：Context Scaling，通往AGI的下一幕

2024 年底，Ilya Sutskever 断言「我们所知的预训练时代即将终结」，让整个人工智能领域陷入对 Scaling What 的集体追问之中。新的思路不断涌现：推理时扩展（Test-Time Scaling）让 OpenAI 的 o 系列在数学推理上大放异彩，DeepSeek-R1 通过 GRPO 替代 PPO 实现了强化学习的突破，强化学习 Self-play LLM 让 AI 在游戏和代码生成中展现惊人能力，Agent 化路径则催生了能够操作浏览器、调用工具的新一代智能助理…… 每一条路都在探寻可能的下一个跃迁。在这场技术探讨中，复旦大学 / 上海创智学院的邱锡鹏教授提出了一个耐人寻味的新路径 ——Context Scaling。

6/16/2025 8:33:00 AM

AI自己给自己当网管，实现安全“顿悟时刻”，风险率直降9.6%

大型推理模型（LRMs）在解决复杂任务时展现出的强大能力令人惊叹，但其背后隐藏的安全风险不容忽视。尽管学术界已尝试通过监督微调（SFT）有效地提升模型安全，但下图的测试结果所示，监督微调在面对训练数据领域外的层出不穷的“越狱”攻击时，往往显得捉襟见肘，泛化能力有限。同时，之前的工作没有对大型推理模型的安全思考做深入的分析，以进行针对性的提升。

6/16/2025 8:25:00 AM

狂砸143亿，小扎挖来Meta自己的“奥特曼”？曝光神秘挖角名单：年薪千万刀，扎克伯格亲自发出“令人心动的 offer”！

最近，Meta抢人的料真是挺猛的。先是重金砸向数据独角兽 Scale AI，投资高达 143 亿美元，直接把 CEO Alexandr Wang 挖来，挂帅“超级智能实验室”。 Alexandr就这么离开了自己的初创公司，他在 X 上写道： “你们可能已经从最近的新闻中了解到，像这样级别的机会，往往意味着必须做出牺牲。

6/16/2025 2:25:00 AM 伊风

AGI真方向？谷歌证明：智能体在自研世界模型，世界模型is all You Need

我们知道，大模型技术爆发的原点可能在谷歌一篇名为《Attention is All You Need》的论文上。如今，在通用人工智能（AGI）初现曙光，Scaling Laws 却疑似接近极限的当口，又是谷歌对未来方向进行了一番思考，想来想去还是只有五个词：论文标题：General agents need world models论文链接： ICML 收录。他们发现：如果一个 AI 智能体能够处理复杂的、长期的任务，那么它一定学习过一个内部世界模型——我们甚至可以通过观察智能体的行为来提取它。

6/13/2025 2:27:05 PM

程序员从此不再写代码！红杉专访Codex团队，o3白菜价真相曝光

未来的AI Coding会是什么样子？ Copilot、Cursor、Windsurf还是Claude Code？都不是！

6/13/2025 2:22:04 PM

视频扩散模型新突破！清华腾讯联合实现高保真3D生成，告别多视图依赖

三维场景是构建世界模型、具身智能等前沿科技的关键环节之一。尽管Hunyuan3D、Rodin-v1.5、Tripo-v2.5等生成模型已在三维生成领域取得显著进展，但其往往聚焦在物体级别内容生成，难以实现复杂三维场景的构建。清华大学联合腾讯提出Scene Splatter——从一张图像出发，基于自定义的相机轨迹探索三维场景。

6/13/2025 2:13:26 PM

80%到25%逆转！大模型代码能力最新排名：Anthropic不再是唯一的神？

OpenRouter网站提供了一个很有意思的模型使用排行榜，它按照不同使用场景（如编程、写作等）进行了分类。有人整理了其中“编程”类别的数据，并按模型提供商进行了分组，从中可以看出一些有趣的市场趋势。数据显示，从2024年12月到2025年2月期间，Anthropic公司的模型在编程场景下的流量占比曾高达约80%，表现得相当强势。

6/13/2025 9:12:00 AM

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享 GGUF 是什么？一文看懂大模型里最火的模型格式最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉