框架
超大模型推理加速2.18倍!SGLang联合美团技术团队开源投机采样训练框架
专门适用超大模型、带来2.18倍推理加速,最新投机采样训练框架开源! SGLang团队联合美团搜推平台、Cloudsway.AI开源SpecForge。 SGLang,当前趋势下最受青睐的推理框架之一,为DeepSeek提供了专属优化,也深受英伟达、AMD、xAI等厂商喜爱。
7/28/2025 8:42:00 AM
北大-灵初重磅发布具身VLA全面综述!一文看清VLA技术路线与未来趋势
如今,GPT-4o、Gemini 2.5 Pro 等多模态基础模型在对话、代码生成和数学推理等任务中已经达到甚至超越了人类水平。 研究者开始探索如何将这种智能从数字世界延伸至物理空间,以实现具身智能。 这其中最受关注的前沿方向之一,便是视觉 - 语言 - 动作模型(Vision-Language-Action Models,简称 VLA)。
7/25/2025 10:19:44 AM
IEEE ICDCS’ 25 | 提速79%!上交大新方法优化企业级AI流程调度
复合LLM应用 (compound LLM applications) 是一种结合大语言模型(LLM)与外部工具、API、或其他LLM的高效多阶段工作流应用。 ⽬前,服务这些应⽤任务需要⾯对运⾏时⻓不确定、⼯作流结构不确定等问题,这对现有集群任务调度算法提出了极大挑战,并严重影响任务运⾏效率。 为了解决上述问题,上海交通大学朱怡飞教授团队联合江行智能提出调度框架LLMSched,通过引入三类新节点来扩展传统任务表征方法实现复合LLM应用任务的有效表征,借助贝叶斯网络识别可降低不确定性的关键节点,并以信息熵衡量节点的熵减程度。
7/25/2025 9:22:13 AM
首个统一「图像/视频」自适应语义分割框架来了!QuadMix刷榜多项基准
在语义分割领域,无监督领域自适应(Unsupervised Domain Adaptive Semantic Segmentation,UDA-SS)旨在将有标签的源域知识迁移到无标签的目标域。 随着数据规模和多样性的迅速提升,该任务日益重要。 目前主流研究集中于图像UDA-SS,视频UDA-SS近年来逐渐开始受到关注。
7/24/2025 9:17:00 AM
机器人高层指挥低层做,“坐标系转移接口”一次演示实现泛化学习 | ICML2025
如何让AI像人一样,仅凭少量演示,就能稳健适应复杂多变的真实场景? 美国东北大学和波士顿动力RAI提出了HEP(Hierarchical Equivariant Policy via Frame Transfer)框架,首创“坐标系转移接口”,让机器人学习更高效、泛化更灵活。 总的来说,HEP框架具有以下亮点:极简高效的分层结构高层负责全局目标设定,低层自主在本地坐标下优化动作,显著提升操作的灵活性与效率;空间对称性自然泛化模型自动适应目标平移、旋转等变化,极大降低泛化对数据量的依赖;创新型体素编码器三维视觉信息高效表达,兼顾细节还原与计算速度。
7/22/2025 12:42:53 PM
AI“压力面”,DeepSeek性能暴跌近30% | 清华&上海AI Lab
给AI一场压力测试,结果性能暴跌近30%。 来自上海人工智能实验室、清华大学和中国人民大学的研究团队设计了一个全新的“压力测试”框架——REST (Reasoning Evaluation through Simultaneous Testing)。 该框架在一个prompt里同时抛给模型多个问题,模拟真实世界中复杂的、多任务并行的推理场景。
7/21/2025 8:47:00 AM
单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器
预训练的视觉语言模型(VLM)因其强大的图文联合建模能力,在多种任务上展现出巨大潜力,也成为了许多目前广泛使用的多模态嵌入模型的基础。 然而,这些使用因果注意力机制的多模态嵌入模型在多模态嵌入任务中存在三个关键限制:表示能力弱:因果注意力机制单向预测的特性,限制了模型充分捕获双向跨模态的深层语义。 泛化性差:传统模型多依赖于简单的图文对训练数据,缺乏更广泛、更丰富的数据源,难以在新任务或新领域快速泛化。
7/11/2025 9:10:00 AM
开源大佬炮轰MCP:我不是MCP的忠实拥趸!MCP是一个死胡同!根本不是为无推理自动化而设计的!绕开MCP,试试代码生成的世界
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)今天凌晨,知名开源 Web 框架作者 Ronacher 发表了一篇引起热烈反响的博客。 虽然他自谦地在X上称这篇“烂文章”,但网友们却非常认同。 图片这篇文章标题为:《Tools:Code is all your need》。
7/4/2025 12:35:32 PM
云昭
2025年软件开发者必备的十大AI智能体框架全解析
人工智能智能体(AI Agent)技术正在彻底改变软件开发的范式,从简单的聊天机器人进化到具备多步推理、工具调用和协作解决问题能力的复杂系统。 对于希望构建智能应用的开发者而言,选择合适的AI智能体框架成为项目成功的关键。 本文将深入解析2025年最值得关注的11大AI智能体框架,从技术特性、适用场景到代码示例进行全方位对比,帮助开发者做出明智选择。
7/4/2025 4:22:00 AM
大模型之路
阿里云推出自动驾驶模型加速框架PAI-TurboX 训练时间可缩短50%
近日,阿里云正式发布面向自动驾驶领域模型的训练、推理加速框架——PAI-TurboX,旨在提升感知、规划控制乃至世界模型的训推效率。 该框架在多个行业模型的训练任务中展现出了显著优势,可缩短高达50%的时间。 PAI-TurboX框架的应用范围广泛,涵盖了多模态数据预处理、离线大规模模型训练以及实时智驾推理等多个环节,为自动驾驶、具身智能等领域提供了全面解决方案。
6/23/2025 5:00:38 PM
AI在线
三个大模型合作,1000次迭代,竟能像人类科学家一样发现方程
随着 AI4Science 的浪潮席卷科研各领域,如何将强大的人工智能模型真正用于分析科学数据、构建数学模型、发现科学规律,正成为该领域亟待突破的关键问题。 近日,中国科学院自动化研究所的研究人员提出了一种创新性框架 ——DrSR (Dual Reasoning Symbolic Regression):通过数据分析与经验归纳 “双轮驱动”,赋予大模型像科学家一样 “分析数据、反思成败、优化模型” 的能力。 在 DrSR 中,三位 “虚拟科学家” 协同工作:一个善于洞察变量关系的 “数据科学家”;一个擅长总结失败教训与成功经验的 “理论科学家”;一个勇于尝试假设、不断优化模型的 “实验科学家”。
6/23/2025 9:04:00 AM
SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?
近年来,链式推理和强化学习已经被广泛应用于大语言模型,让大语言模型的推理能力得到了显著提升。 然而,在图像生成模型中,这种成功经验尚未得到充分探索。 图像生成模型往往直接依据给定文本生成图像,缺乏类似人类创作过程中的推理,导致生成的图像在语义遵循上仍有一定局限。
6/17/2025 8:47:00 AM
如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架
在金融科技智能化转型进程中,大语言模型以及多模态大模型(LVLM)正成为核心技术驱动力。 尽管 LVLM 展现出卓越的跨模态认知能力,其部署却长期受限于显著的算力瓶颈 —— 大小中等的模型一次多图推理可能需要 100 G 的显存空间,严重制约产业落地。 针对这一技术痛点,哈工大团队联合度小满金融科技正式发布 EFFIVLM-BENCH,业界首个支持跨场景统一评估的多模态大模型高效化基准框架,为学术界提供可复现的压缩方案对比基准,同时赋能工业界实现最优部署策略遴选。
6/16/2025 2:39:56 PM
最大的开源GraphRag:知识图谱完全自主构建|港科大&华为
知识图谱(KGs)已经可以很好地将海量的复杂信息整理成结构化的、机器可读的知识,但目前的构建方法仍需要由领域专家预先创建模式,这限制了KGs的可扩展性、适应性和领域覆盖范围。 为此,香港科技大学KnowComp实验室联合香港华为理论部提出了AutoSchemaKG:一个无需预定义模式、用于完全自主知识图谱构建的框架。 该系统利用大型语言模型,可以直接从文本中同时提取知识三元组并归纳出全面的模式,对实体和事件进行建模,同时采用概念化方法将实例组织成语义类别。
6/12/2025 11:56:30 AM
什么时候GraphRAG超越传统RAG:突破医学等知识密集任务的AI新范式和GraphRAG-Bench评估框架
核心速览研究背景研究问题:这篇文章要解决的问题是如何在检索增强生成(RAG)系统中有效利用图结构来提升大型语言模型(LLMs)的性能,特别是在知识密集型任务中。 研究难点:该问题的研究难点包括:现有基准测试(如HotpotQA、MultiHopRAG和UltraDomain)未能充分评估图结构在RAG系统中的有效性;现有数据集缺乏领域特定知识和明确的逻辑连接;现有基准测试的任务复杂度划分不细致,无法全面评估模型的复杂推理能力。 相关工作:该问题的研究相关工作有:传统的RAG系统通过将文本分块进行索引和检索,但这种方法会牺牲上下文信息;GraphRAG系统通过构建外部结构化图来改进LLMs的上下文理解能力,但其在实际任务中的表现不一致。
6/11/2025 2:55:00 AM
知识图谱科技
打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准
多模态检索是信息理解与获取的关键技术,但其中的跨模态干扰问题一直是一大难题。 可行的解决办法是构建一种统一的多模态表示方式,为此,来自快手与东北大学的研究人员推出了多模态统一嵌入框架——UNITE。 UNITE的核心目标,就是构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器。
6/9/2025 8:50:00 AM
超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试
一项新的强化学习方法,直接让Qwen性能大增,GPT-4o被赶超! 来自加拿大滑铁卢大学与TikTok新加坡,M-A-P的华人团队提出了一种全新训练框架:General-Reasoner。 结果直接让Qwen系列大模型的跨领域推理准确率提升近10%,在多个基准测试中甚至超越GPT-4o。
6/4/2025 9:05:18 AM
资讯热榜
阿里推出 AI 医学助手 App“氢离子”:收录千万级核心期刊文献,还可查疾病、找药品
Lovart 实战深度测评!仅需4小时帮你完成一整套品牌全案设计!
性能比肩 Gemini-2.5 pro、o4-mini:阿里通义千问 Qwen 3 推理模型超级进化,现已开源
Meta 被指控盗用 2000 余部成人影片训练 AI,或面临 3.5 亿美元天价赔偿
刷新无监督异常检测上限!首提「匹配代价滤波for异常检测」范式 | ICML'25
OpenAI 董事会主席:如果你想快速烧掉百万美元,就开发自己的 AI 模型吧
AI和云基础设施初创企业E2B如何成为88%的财富100强企业的必备选择
行业首个 100% 开源的企业级智能体,京东云开源 JoyAgent
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用