AI
舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA
本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。 游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授。 该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 LLaDA。
低Token高精度!字节复旦推出自适应推理框架CAR
过度依赖CoT思维链推理会降低模型性能,有新解了! 来自字节、复旦大学的研究人员提出自适应推理框架CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。 推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现。
扩散语言模型九倍推理加速!上海交大:KV Cache并非自回归模型的专属技巧
首个用于加速扩散式大语言模型(diffusion-based Large Language Models, 简称 dLLMs)推理过程的免训练方法。 上海交通大学EPIC Lab团队提出了一种无需训练、即插即用的高效推理缓存机制:dLLM-Cache。 其核心思想在于,在一个多步去噪过程中,复用相邻时间步上变化较小的特征,仅更新那些变化较大的特征,从而实现了计算量的大幅降低,并保持了原有的生成质量。
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力
在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。 具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜索,或编写/执行代码以操控图像,从而实现「图像中的思考」。 尽管开源研究社区在纯文本的智能体能力方面(比如函数调用和工具集成)已取得显著进展,但涉及图像理解与操作的多模态智能体能力及其对应的评估体系仍处于起步阶段。
北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强
随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。 如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能? 如何建立更全面、更可靠的 AI 评估体系?
OpenAI 首款 AI 硬件被曝 2026 年登场,ChatGPT 全面融入用户生活
科技媒体 bleepingcomputer 今天(5 月 27 日)发布博文,报道称 OpenAI 公司计划 2026 年发布一款由 ChatGPT 驱动的新产品,希望让 ChatGPT 成为用户生活中无处不在的助手。
AI数字人助力PPT展示,SlidesOrator在BEYOND Expo崭露头角
在近日举行的 BEYOND Expo 展会上,SlidesOrator 项目引起了与会者的广泛关注。 这一新颖的工具不需要高端的机械设备或虚拟现实眼镜,展台简约却不失亮点,直接聚焦于每一位职场人士都能感同身受的一个核心问题:如何更好地展示 PPT。 SlidesOrator 的理念与其功能紧密相连,它的目标不仅是帮助用户快速制作 PPT,更在于通过 AI 技术将演讲变得 “自动而可信”。
全球首个:OpenAI 免除 20 美元月费,阿联酋全民免费用 ChatGPT Plus 订阅
科技媒体 Axios 于 5 月 25 日报道称,阿拉伯联合酋长国(UAE)将成为全球首个为全体公民(citizens)和居民(residents)免费提供 ChatGPT Plus 服务的国家。
微软携手清华、北大推出奖励推理模型:根据 AI 任务复杂性动态分配计算资源
微软研究院联合清华大学、北京大学组建团队,推出奖励推理模型(Reward Reasoning Models,RRMs),通过显式推理过程动态分配计算资源,提升复杂任务评估效果。
我国首个软件开发 AI 智能体标准发布,20 余家巨头联手参编
中国信息通信研究院联合中国工商银行、百度、腾讯、阿里、华为等二十余家头部企业,正式发布《面向软件工程智能体的技术和应用要求第 1 部分:开发智能体》(标准编号 AIIA / T 0219-2025)。
OpenAI顶级工程师Philip Su:几个接地气的程序员职场发展经验
今天的文章发的有点晚,因为我又翻译了一期很长的优质内容。 现在每天信息真是太多了,我最近把一些群全部折叠,减少干扰。 要不然,每天开着微信,朋友圈、微信群、公众号、视频号,这些小红点把人的时间切的稀巴烂。
Meta Llama 创始团队被曝分崩离析:14 名 AI 核心人才中 11 人投奔竞争对手
科技媒体 Business Insider 昨日(5 月 26 日)发布博文,报道称 Meta 正面临严重的 AI 人才流失危机,其开源 AI 项目 Llama 的 14 名初始创作者中,已有 11 人离职,其中多人加入了竞争对手 Mistral AI。
与Gemini Diffusion共振!首个扩散式「发散思维链」来了
近年来,思维链在大模型训练和推理中愈发重要。 近日,西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。 该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤,然后利用基于结果的强化学习去优化整个生成轨迹,最大化模型最终答案的正确率。
红杉中国xbench全球首发,AI智能体真实战力揭榜!
随着基础模型的快速发展和AI Agent进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。 因此,构建更加科学、长效和如实反映AI客观能力的评测体系,正在成为指引AI技术突破与产品迭代的重要需求。 有鉴于此,红杉中国今天正式推出一款全新的AI基准测试工具xbench,并发布论文《xbench: Tracking Agents Productivity ,Scaling with Profession-Aligned Real-world Evaluations》。
刚刚,北大校友Lilian Weng自曝公司首个产品?一篇论文未发,估值却已90亿
OpenAI前研究员大佬、如今的Thinking Machines Lab联创Lilian Weng,刚刚转发了一个神秘产品——一个看似仪表盘的东西。 或许,这就将是公司即将打造的第一个爆品? 这个产品所揭示的理念,可谓十分惊人——在训练过程中,研究人员可以直接用它来手动调整所有的超参数了!
可能是目前最好的3B多模态模型,有望做“AI作业帮”
作者 | 徐浚哲、尹宇阳我们团队近期开源多模态模型VLR1-3B的预览版(preview),欢迎大家尝试:“小”模型,使用了强化学习训练方式,增强了推理性能。 达到了同级别模型中推理能力第一(SOTA)。 主要是数学相关的测试,在MathVista和MathVision这两个权威AI数学榜单的官网上,VLR1-3B 这“小”模型不仅都在榜,而且比很多商业闭源大模型(如Gemini1.5和GPT-4V)表现都要强,甚至在MathVista的评测中领先GPT-4o~同时对比了多个banchMark结果,Average第一~ModelAverageMathVistaMathVisionMathVerseDynaMathWeMathLogicVistaQwen2-VL-2B20.548.016.117.53.810.826.6InternVL2.5-2B21.251.114.022.34.48.027.3InternVL3-2B29.157.620.224.514.822.940.3Qwen2.5-VL-3B31.861.221.931.213.222.940.3VLM-R1-3B-Math-030533.462.721.932.213.030.040.5Taichu-VLR-3B33.664.923.132.112.630.438.7VLAA-Thinker-Qwen2.5VL-3B35.461.024.436.418.233.838.5TBAC-VLR1-3B-preview35.764.825.033.217.732.440.8正巧最近正愁帮邻居刚上初中的孩子批数学作业,被多项式计算和几何证明搞得焦头烂额的。
AI和分析如何改变供应链弹性
在一个充满波动性和前所未有的挑战的时代,供应链正面临着来自各方的巨大压力。 预见并缓解干扰的能力已成为企业成功的决定性因素。 “供应链比以往任何时候都更加关键,但也更加脆弱,”Qlik公司EMEA地区现场CTO马丁·汤姆斯强调,“从原材料短缺到地缘政治不稳定,从消费者需求的不断变化到自然灾害,任何干扰都可能破坏运营并损害信任。
智能体「Agent」技术全景:挑战、机遇与未来
大家好,我是肆〇柒。 这篇论文的研究来自 MetaGPT、Montréal & Mila人工智能研究所、南洋理工大学、美国阿贡国家实验室、悉尼大学、宾夕法尼亚州立大学、微软亚洲研究院、伊利诺伊大学厄巴纳-香槟分校、香港科技大学、南加州大学、耶鲁大学、斯坦福大学、佐治亚大学、俄亥俄州立大学、阿卜杜拉国王科技大学、杜克大学、香港理工大学、谷歌 DeepMind 以及加拿大高等研究院(CIFAR)等众多研究者的集体智慧与前瞻思考,历时半年创作而成。 这篇论文的质量很高,为我们综述了 AI Agent 领域的全景现状,能看的出来是花了大心思的。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
AI新词
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
英伟达
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
代码
AI for Science
苹果
算法
腾讯
Agent
Claude
芯片
Stable Diffusion
具身智能
xAI
蛋白质
开发者
人形机器人
生成式
神经网络
机器学习
AI视频
3D
RAG
大语言模型
字节跳动
Sora
百度
研究
GPU
生成
工具
华为
AGI
计算
大型语言模型
AI设计
生成式AI
搜索
视频生成
亚马逊
AI模型
特斯拉
DeepMind
场景
深度学习
Transformer
Copilot
架构
MCP
编程
视觉