模型
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源
如果一个视觉语言模型(VLM)只会“看”,那真的是已经不够看的了。 因为现在真实世界的任务简直不要太复杂,要想让AI干点实事儿,光有多模态还不够,必须还得有深度思考的强推理能力。 而就在刚刚,智谱发布并开源了一个仅9B大小的模型——GLM-4.1V-9B-Thinking,在28项评测中一举拿下23个SOTA!
7/2/2025 2:39:29 PM
ICML 2025 Spotlight | 清华朱军组&NVIDIA提出DDO:扩散/自回归模型训练新范式,刷新图像生成SOTA
文章一作郑凯文为清华大学三年级博士生,研究方向为深度生成模型,曾提出流式扩散模型最大似然估计改进技术 i-DODE,扩散模型高效采样器 DPM-Solver-v3,扩散桥模型采样器 DBIM 以及掩码式离散扩散模型采样器 FHS 等。 清华大学朱军教授团队与 NVIDIA Deep Imagination 研究组联合提出一种全新的视觉生成模型优化范式 —— 直接判别优化(DDO)。 该方法将基于似然的生成模型(如扩散模型、自回归模型)隐式参数化为 GAN,从而设计出一种无需额外网络、训练高效的微调方法,并大幅突破传统最大似然训练的性能瓶颈。
7/2/2025 9:21:30 AM
Meta“1亿美元年薪”震荡硅谷!奥特曼回应:总有人唯利是图,而且都算不上TOP
疯狂,太疯狂。 这两天,硅谷乃至全球AI领域的注意力都被Meta老板扎克伯克带走了,毕竟也不是谁都能boss直聘,一举挖走8名OpenAI核心员工。 更何况其中大部分,还是以聪明能干吃苦耐劳著称的华人研究员。
7/2/2025 9:13:56 AM
华为又开源了个大的:超大规模MoE推理秘籍
超大规模MoE模型(如DeepSeek),到底该怎么推理才能做到又快又稳。 现在,这个问题似乎已经有了标准答案——华为一个新项目,直接把推理超大规模MoE背后的架构、技术和代码,统统给开源了! 这个新开源项目名叫Omni-Infer,整体来看,它对于企业用户来说是非常利好的。
7/2/2025 8:55:00 AM
超越微软,全球第一!上交AI智能体炼成「Kaggle特级大师」,登顶OpenAI MLE-bench
就在刚刚,一支来自中国高校的团队成功刷榜了OpenAI发布的权威基准测试MLE-bench! 这一次,荣耀属于上海交通大学人工智能学院Agents团队。 他们提出的AI专家智能体「ML-Master」,凭借着29.3%的平均奖牌率,拿下第一!
7/2/2025 8:50:00 AM
策略改写「一战历史」!中科院开源全新博弈智能体框架DipLLM
围棋、德州扑克曾是AI崛起的试炼场,从AlphaGo到Libratus,人工智能不断刷新策略上限。 但接下来的战场更难——Diplomacy:一款融合协作与竞争的七人博弈游戏,单轮动作空间高达10的64次方,其策略建模复杂度前所未有! 为此,Meta曾推出智能体Cicero[Meta, Science 2022],结合人类数据与策略搜索,在该领域实现突破,但其方法高度依赖超大规模均衡搜索与重资源训练,难以扩展与迁移。
7/2/2025 8:43:00 AM
伯克利&Meta面向具身智能的世界模型:让AI通过全身动作「看见」未来
本文基于 Yutong Bai、Danny Tran、Amir Bar、Yann LeCun、Trevor Darrell 和 Jitendra Malik 等人的研究工作。 论文标题:Whole-Body Conditioned Egocentric Video Prediction论文地址:::,人工智能领域一直在思考一个看似简单但非常根本的问题:如果一个智能体要在真实世界中行动、规划,并且和环境互动,它需要一个怎样的「世界模型」? 在很多早期研究中,世界模型就是一个预测引擎:只要给它一个抽象的控制指令,比如「向前走一米」或者「向左转 30 度」,它就能模拟出未来的图像。
7/2/2025 8:40:00 AM
1080p飞升4k,浙大开源原生超高清视频生成方案,突破AI视频生成清晰度上限
为什么AI生成的视频总是模糊卡顿? 为什么细节纹理经不起放大? 为什么动作描述总与画面错位?
7/2/2025 8:30:00 AM
小扎“挖人”超级智能团队名单泄露:华人占一半,Alexandr Wang领导
据报刚刚小扎在一份内部备忘录中,正式向员工介绍了其新组建的“超级智能”团队20几名成员,名单和简历显示,许多新入职的员工都来自AI领域的顶尖对手公司,其中华人占了快一半了整个组织命名为Meta超级智能实验室(MSL),包括所有的基础模型、产品和FAIR团队,以及一个专注于开发下一代模型的新实验室小扎向Scale AI投资了143亿美元,并聘请Scale AI CEO Alexandr Wang将担任公司的“首席AI官”并领导MSL。 同时,前GitHub CEO Nat Friedman将与Wang共同领导这个新实验室,专注于AI产品和应用研究小扎这一把砸下上百亿美金,真是下血本了,这其实也是Deepseek的威力,因为R1彻底颠覆了Meta的 llama开源模型名单以下是Zuckerberg备忘录中公布的新员工名单。 值得注意的是,这份名单并未包括从OpenAI苏黎世办公室加入的员工其中四名OpenAI华人顶尖研发领导。
7/1/2025 9:10:42 AM
只用2700万参数,这个推理模型超越了DeepSeek和Claude
大模型的架构,到了需要变革的时候? 在对复杂任务的推理工作上,当前的大语言模型(LLM)主要采用思维链(CoT)技术,但这些技术存在任务分解复杂、数据需求大以及高延迟等问题。 近日,受到人脑分层和多时间尺度处理机制启发,来自 Sapient Intelligence 的研究者提出了分层推理模型(HRM),这是一种全新循环架构,能够在保持训练稳定性和效率的同时,实现高计算深度。
7/1/2025 9:08:00 AM
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
大模型可以不再依赖人类调教,真正“自学成才”啦? 新研究仅通过RLVR(可验证奖励的强化学习),成功让模型自主进化出通用的探索、验证与记忆能力,让模型学会“自学”! 当前主流的LLM Agent依然高度依赖于提示词工程、复杂的系统编排、甚至静态规则表,这使得它们在面对复杂任务时难以实现真正的智能行为演化。
7/1/2025 9:05:28 AM
黑化威胁操纵人类!Claude勒索,o1自主逃逸,人类「执剑人」紧急上线
我们可能都「被AI骗了」。 最先进的AI正走在一条「危险进化」的道路上,而绝大部分科学家们都被AI欺骗了! 当DeepSeek在年初将「推理过程」完全展示给世人后,我们突然发现「思考」好像也并不是人类专属的能力。
7/1/2025 9:02:06 AM
LeCun发布最新世界模型:首次实现16秒连贯场景预测,具身智能掌握第一视角!还打脸用了VAE
LeCun在干嘛呢? 就在扎克伯克亲自带队Meta的AI项目,千亿薪酬挖得硅谷人心浮动之际。 Meta在AI领域最负盛名的大佬、图灵奖得主、深度学习三巨头之一的Yann LeCun,却几乎声量全无,他没有参与LLM基础模型的研发,也开始在社交网络上消停了。
7/1/2025 9:02:00 AM
会“思考”的目标检测模型来了!IDEA提出Rex-Thinker:基于思维链的指代物体检测模型,准确率+可解释性双突破
Caption: Rex-Thinker 的思考过程在日常生活中,我们常通过语言描述寻找特定物体:“穿蓝衬衫的人”“桌子左边的杯子”。 如何让 AI 精准理解这类指令并定位目标,一直是计算机视觉的核心挑战。 现有方法常被两大问题困扰: 决策过程不透明 (“黑箱” 预测)和 拒识能力不足 (对不存在物体输出错误结果)。
7/1/2025 8:53:26 AM
用好视觉Attention局部性,清华、字节提出Token Reorder,无损实现5倍稀疏、4比特量化
赵天辰,清华大学电子工程系高能效计算实验室研究生,研究方向主要是:面向视觉生成的高效算法,与软硬件协同设计近年来,随着视觉生成模型的发展,视觉生成任务的输入序列长度逐渐增长(高分辨率生成,视频多帧生成,可达到 10K-100K)。 与输入序列长度呈平方复杂度的 Attention 操作,成为主要的性能瓶颈(可占据全模型的 60-80% 的开销),有明显的效率优化需求。 注意力的稀疏化(Sparse Attention)与低比特量化(Attention Quantization)为常用的 Attention 优化技巧,在许多现有应用中取得优秀的效果。
6/30/2025 2:02:00 PM
RAG终极框架!港大开源RAG-Anything:统一多模态知识图谱
RAG-Anything的核心技术创新在于构建了统一的多模态知识图谱架构,能够同时处理并关联文档中的文字内容、图表信息、表格数据、数学公式等多种类型的异构内容,解决了传统RAG系统仅支持文本处理的技术限制,为多模态文档的智能理解提供了新的技术方案。 项目地址:: (RAG)系统,专注解决复杂场景下的智能问答与信息检索难题。 该系统提供完整的端到端多模态文档处理解决方案,能够统一处理文本、图像、表格、数学公式等多种异构内容,实现从文档解析、知识图谱构建到智能问答的全流程自动化,为下一代AI应用提供了可靠的技术基础。
6/30/2025 1:57:59 PM
百度文心大模型4.5系列正式开源,同步开放API服务
百度文心大模型开源,如期而至。 就在今天,百度官宣文心大模型4.5系列正式开源,还同步提供API服务。 此番,百度一次性推出10款开源模型,涵盖从47B参数的混合专家(MoE)模型到轻量级0.3B稠密型模型,覆盖文本、多模态等多种任务需求。
6/30/2025 1:54:34 PM
媲美DeepSeek!腾讯开源新版混元模型:AI Agent强化,超30种智能体指令
腾讯开源了混元大模型的最新版本Hunyuan-A13B。 Hunyuan-A13B是一个专家混合模型,拥有800亿参数,其中130亿参数处于激活状态。 支持快、慢两种思考模式:快速思维模式,提供简洁高效的输出,适用于高效、简单的日常任务;慢速思维模式,支持更深层次的推理步骤包含反思和回溯,生成更长的思维链,提升复杂任务的准确性。
6/30/2025 9:04:00 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
数据
机器人
大模型
Midjourney
开源
Meta
智能
用户
微软
GPT
学习
AI新词
技术
智能体
马斯克
Gemini
图像
AI创作
英伟达
Anthropic
训练
论文
代码
LLM
算法
Stable Diffusion
芯片
腾讯
苹果
AI for Science
Claude
蛋白质
Agent
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
工具
计算
RAG
大语言模型
GPU
华为
Sora
具身智能
AI设计
字节跳动
搜索
大型语言模型
AGI
场景
深度学习
视频生成
预测
视觉
架构
伟达
Transformer
DeepMind
编程
神器推荐
AI模型
亚马逊
特斯拉