模型
形式化证明迈向多模态,MLLM正确率仅4%!港科大等推出全新基准
近年来,自动定理证明(ATP)取得了显著进展,但大部分工作都集中在处理纯文本形式的定理。 然而,在现实世界中,尤其是在几何学领域,许多定理的呈现和理解都离不开图像、图表等视觉元素。 人类数学家善于从这些图表中获取直觉,并将其作为引导严谨证明过程的关键。
6/18/2025 8:49:00 AM
不用千亿参数也能合成高质量数据!这个开源框架让小模型“组团逆袭”,7B性能直追72B
无需蒸馏任何大规模语言模型,小模型也能自给自足、联合提升? 上海人工智能实验室联合中国人民大学提出的GRA框架(Generator–Reviewer–Adjudicator) 正是这样一种新范式:该方法以“多人协作”、“角色分工”的理念为核心,系统性探索了多开源小模型如何通过协同机制生成高质量训练数据。 实验结果显示,在涵盖数学、代码、逻辑推理、通识问答等10个主流数据集上,GRA生成的数据质量与单个大型语言模型(如Qwen-2.5-72B-Instruct)输出相当或更高,并在多数任务中取得了显著领先。
6/18/2025 8:47:00 AM
MiniMax Agent的能力,彻底震撼了我
我最近试用了一款叫MiniMax Agent的产品,说实话,体验完之后整个人都不好了。 图片你想想,以前我们做个网站,得先构思、找素材、写代码、调UI,光是找合适的图片就要花半天时间。 现在这玩意儿,你只要说一句话,它就能帮你搞定一切。
6/18/2025 2:01:00 AM
阿丸笔记
同一天开源新模型,一推理一编程,MiniMax和月之暗面开卷了
同一天,国内大模型厂商扎堆发起了新模型。 AI「六小龙」中的 MiniMax 和月之暗面各自公布了开源新成果。 其中,MiniMax 启动了「MiniMax Week」,并在第一天开源了其最新的长上下文推理 LLM——MiniMax-M1。
6/17/2025 3:24:48 PM
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
在开源模型领域,DeepSeek 又带来了惊喜。 上个月 28 号,DeepSeek 来了波小更新,其 R1 推理模型升级到了最新版本(0528),并公开了模型及权重。 这一次,R1-0528 进一步改进了基准测试性能,提升了前端功能,减少了幻觉,支持 JSON 输出和函数调用。
6/17/2025 9:09:00 AM
Kimi新模型拿下代码开源SOTA,仅仅72B,发布即开源
深夜,沉寂已久的Kimi突然发布了新模型——开源代码模型Kimi-Dev,在SWE-bench Verified上以60.4%的成绩取得开源SOTA。 参数量只有72B,但编程水平比最新的DeepSeek-R1还强,和闭源模型比较也表现优异。 有网友看到后表示,感觉月之暗面的实力被低估了,其水平应该比xAI强。
6/17/2025 9:07:24 AM
搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好
当前,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径。 但在真实实践中,搜索智能体的强化学习训练并未展现出预期的稳定优势。 一方面,部分方法优化的目标与真实下游需求存在偏离,另一方面,搜索器与生成器间的耦合也影响了泛化与部署效率。
6/17/2025 9:04:33 AM
2天完成人类12年工作,AI自动更新文献综述,准确率碾压人类近15%
当碳基生物还在为写文献综述,打开了一百个浏览器窗口时,隔壁AI已经卷起来了。 (doge)两天完成人类12年工作——医学研究领域中,系统评价(SRs)作为临床决策的黄金标准,平均耗时超过16个月,花费10万美元以上,且容易延长无效或有害治疗方法的使用。 于是多伦多大学、哈佛医学院等机构联合开发了AI端到端工作流程——otto-SR。
6/17/2025 9:00:00 AM
MIT工科生跨界AI,独作论文登Nature:只需3.5小时修复600年前名画
MIT理工男跨界艺术,一不小心就以一篇独作论文登上Nature? 由他设计的AI算法,将原本需要数月/数年才能搞定的名画修复工作,极限压缩至几小时。 Alex Kachkine,打破画作修复只能对原作数字扫描品进行“缝缝补补”的传统艺能,提出一种“以数字方式修复一幅画,并在物理上实现效果”的全新方法。
6/17/2025 8:50:00 AM
4B Qwen3逆袭671B DeepSeek!字节DAPO微调方法这么猛的吗
4B小模型极限在哪里? 最新模型Jan-nano引起热议,它在智能体任务上超过671B的最新版DeepSeek-V3 0528,在SimpleQA基准上获得80.7分。 先来看一下它的实际表现,包括两个任务:对研究某公司目前的扩张情况,该公司的扩张正威胁着另一家公司的市场份额,并撰写一份可能影响金融公司尽职调查流程的MBA水平报告。
6/17/2025 8:45:00 AM
ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
本文共同一作是张翔和曹峻泰。 张翔是英属哥伦比亚大学研究生,主要研究兴趣集中在大模型推理和 AI for Science;曹峻泰是英属哥伦比亚大学研究生,主要研究兴趣集中在大模型推理和可解释性研究;本文通讯作者是来自纽约大学石溪分校的助理教授尤晨羽,以及来自 Meta Gen AI 的研究员丁渡鉴。 近年来,大型语言模型(LLM)在自然语言处理领域取得了革命性进展。
6/16/2025 2:44:14 PM
Muon作者仅用一篇博客,就被OpenAI看中了
「许多博士(包括过去的我)都陷入了这样一个误区:认为只有在顶级会议上发表论文才是终极目标。 」AI 云服务商 Hyperbolic CEO Yuchen Jin 如是说。 但现在,发表论文并不与学术影响力直接画等号了。
6/16/2025 2:43:38 PM
10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题
推理大模型虽好,但一个简单的算数问题能推理整整三页,还都是重复的“废话”,找不到重点……一种可以把大模型的“碎碎念”转化为可控记忆条目的高效压缩方法,出现了! R-KV开源登场:显存↓90%、吞吐×6.6、准确率=100%。 它可以通过实时对token进行排序,兼顾重要性和非冗余性,仅保留信息丰富且多样化的token,从而解决大模型推理时的冗余问题。
6/16/2025 2:41:07 PM
网页智能体新突破!引入协同进化世界模型,腾讯AI Lab提出新框架
让网页智能体自演进突破性能天花板! 腾讯AI Lab提出WebEvolver框架,通过引入协同进化的世界模型(World Model),让智能体在真实网页环境中实现10%的性能提升。 由此突破现有基于大语言模型(LLM)的网页智能体“自我迭代演进的性能最终会停滞”的瓶颈。
6/16/2025 2:40:40 PM
如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架
在金融科技智能化转型进程中,大语言模型以及多模态大模型(LVLM)正成为核心技术驱动力。 尽管 LVLM 展现出卓越的跨模态认知能力,其部署却长期受限于显著的算力瓶颈 —— 大小中等的模型一次多图推理可能需要 100 G 的显存空间,严重制约产业落地。 针对这一技术痛点,哈工大团队联合度小满金融科技正式发布 EFFIVLM-BENCH,业界首个支持跨场景统一评估的多模态大模型高效化基准框架,为学术界提供可复现的压缩方案对比基准,同时赋能工业界实现最优部署策略遴选。
6/16/2025 2:39:56 PM
全球首次,Transformer「混血」速度狂飙65倍!英伟达已下注
扩散方法打入语言模型领域! 最近,康奈尔博士生Subham Sahoo,在X介绍了扩散大语言模型的最新工作。 这项研究引发了AI研究领域的思考。
6/16/2025 9:13:00 AM
12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈
多伦多大学、哈佛MIT等机构联手AI,短短2天内,竟干完了科学家12年的活! 研究一出,在全网掀起了巨震。 沃顿商学院CS教授Ethan Mollick大受震撼,「AI综述论文体量越来越大,而准确性超越了人类」。
6/16/2025 9:12:00 AM
破解三大数据库AI难题!北大&亚马逊推出全球首个图中心RDB基础模型
在企业系统和科学研究中普遍存在、结构复杂的关系型数据库(Relational DataBase, RDB)场景中,基础模型的探索仍处于早期阶段。 这是因为RDB中的多表交互和异质特征,使传统通用大模型在此类结构化环境下难以直接发挥效能。 基于此,北京大学张牧涵团队联合亚马逊云科技共同提出了Griffin:一个具有开创性的、以图为中心的RDB基础模型。
6/16/2025 9:10:00 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
AI新词
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
Claude
苹果
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
生成式
神经网络
机器学习
3D
RAG
具身智能
AI视频
人形机器人
研究
大语言模型
百度
生成
GPU
Sora
工具
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
生成式AI
深度学习
DeepMind
架构
MCP
AI模型
亚马逊
特斯拉
Transformer
编程
视觉
预测