框架
打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准
多模态检索是信息理解与获取的关键技术,但其中的跨模态干扰问题一直是一大难题。 可行的解决办法是构建一种统一的多模态表示方式,为此,来自快手与东北大学的研究人员推出了多模态统一嵌入框架——UNITE。 UNITE的核心目标,就是构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器。
6/9/2025 8:50:00 AM
超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试
一项新的强化学习方法,直接让Qwen性能大增,GPT-4o被赶超! 来自加拿大滑铁卢大学与TikTok新加坡,M-A-P的华人团队提出了一种全新训练框架:General-Reasoner。 结果直接让Qwen系列大模型的跨领域推理准确率提升近10%,在多个基准测试中甚至超越GPT-4o。
6/4/2025 9:05:18 AM
CVPR 2025 | 解决XR算力瓶颈,FovealSeg框架实现毫秒级IOI分割
本文共同第一作者为纽约大学研究生 Hongyi Zeng 和Wenxuan Liu。 合作作者为 Tianhua Xia、Jinhui Chen、Ziyun Li。 通讯作者为纽约大学电子工程系和计算机系教授 Sai Qian Zhang,研究方向为高效人工智能,硬件加速和增强现实。
6/3/2025 9:12:00 AM
无需人工标注!AI自生成训练数据,靠「演绎-归纳-溯因」解锁推理能力
当AI试图破解数学、编程与科学的难题时,它常常像一位灵感乍现的天才,却又难以稳定发挥。 新加坡国立大学、清华大学和Salesforce AI Research的研究者,提出了一种革命性的训练框架——元能力对齐,赋予模型稳健的推理能力,让顿悟成为常态。 论文链接:,能够高效地系统化培养大模型的数学,编程和科学问题上的基本推理能力。
6/3/2025 9:05:00 AM
AI记忆系统首获统一框架!6大操作让大模型拥有人类记忆能力
当AI不再只是“即兴发挥”的对话者,而开始拥有“记忆力”——我们该如何重新定义智能? 来自香港中文大学、爱丁堡大学、香港科技大学与华为爱丁堡研究中心的研究团队联合发布了一项关于AI记忆机制的系统性综述,旨在在大模型时代背景下,重新审视并系统化理解智能体的记忆构建与演化路径。 大语言模型(LLMs)正快速从纯文本生成工具演化为具有长期交互能力的智能体。
6/3/2025 8:32:00 AM
让AI学着“看菜下碟”!港中大等新框架让推理长度减少90%,准确率反增17%
人类在面对简单提问时常常不假思索直接回答,只有遇到复杂难题才会认真推理。 如果AI模型也能像人一样决定“要不要思考”,效率是否会大大提升? 近日,香港中文大学联合新加坡国立大学Show Lab的研究者提出了一种名为TON(Think Or Not)的新颖选择性推理框架,让视觉语言模型(VLM)可以自主判断是否需要显式推理。
6/3/2025 8:25:00 AM
10个小模型并联跑赢GPT-4.1!无额外训练,方法仅四步
近年来,语言模型技术迅速发展,然而代表性成果如Gemini 2.5Pro和GPT-4.1,逐渐被谷歌、OpenAI等科技巨头所垄断。 与此同时,开源社区的小规模模型正面临日益严峻的挑战——他们参数规模通常仅在7B左右,难以在多任务、多领域场景中与大型闭源模型相抗衡,尚未形成真正意义上的通用人工智能能力。 在此背景下,上海人工智能实验室联合东北大学、西北工业大学等机构,提出了Avengers框架,旨在探索开源小模型群体智能的新路径。
6/3/2025 8:12:00 AM
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
推理模型常常表现出类似自我反思的行为,但问题是——这些行为是否真的能有效探索新策略呢? 对此,西北大学与Google、谷歌DeepMind团队质疑了传统强化学习与反思的关系,并提出了贝叶斯自适应的强化学习方法,首次解释了为什么、如何、以及何时应该反思并探索新策略。 图片通过对比分别使用传统强化学习和新方法训练的模型,研究人员发现:在完成“模型需要在3步内输出三个连续相同字符”这一合成任务中,传统RL往往一条路走到黑,而新方法懂得排除无效假设,适时切换新策略。
6/3/2025 3:15:00 AM
量子位
Linear-MoE:线性注意力遇上混合专家的开源实践
近年来随着大语言模型的爆火,旨在取代 Transformer 的高效模型架构及其预训练成为大模型领域的研究热点,主要包括线性序列建模(如 Linear Attention、SSM、Linear RNN 等)和混合专家(Mixture-of-Experts, MoE)两部分。 这两部分分别都有了长足的进步,但两者的结合却鲜少有人研究,两者结合后的 Linear-MoE 架构开源实现更是完全缺失。 值得一提的是,近期广受好评的 MiniMax-01 模型(使用 Lightning Attention-MoE)和腾讯混元 TurboS 模型(使用 Mamba2-MoE)均属于 Linear-MoE 架构。
5/30/2025 9:06:00 AM
搜索Agent最新高效推理框架:吞吐量翻3倍、延迟降至1/5,还不牺牲答案质量丨南开& UIUC研究
AI越来越聪明,但如果它们反应慢,效率低,也难以满足我们的需求。 大语言模型(LLM)驱动的搜索智能体,通过动态拆解问题、交错执行“思考”(推理)和“查找”(检索)来解决复杂任务,展现了惊人能力。 然而,这种深度交互的背后,也隐藏着显著的效率痛点。
5/29/2025 9:21:28 AM
MiniMax开源首个视觉RL统一框架,闫俊杰领衔!推理感知两手抓,性能横扫MEGA-Bench
仅需一个强化学习(RL)框架,就能实现视觉任务大统一? 现有RL对推理和感知任务只能二选一,但“大模型六小强”之一MiniMax表示:我全都要! 最新开源V-Triune(视觉三重统一强化学习系统)框架,使VLM首次能够在单个后训练流程中,联合学习和掌握视觉推理和感知任务。
5/28/2025 11:55:56 AM
单卡即可微调大模型!内存占用仅1/8,性能依然拉满 | ICML 2025
诸如Qwen,GPT,DeepSeek R1等基础大模型已成为现代深度学习的基石。 然而,在应用于具体下游任务时,它们庞大的参数规模使得额外微调成本较高。 为了解决这一问题,近期的研究聚焦于低秩适应 (LoRA) 方法,通过保持基座模型参数冻结,仅对新增的小型轻量级适配器进行微调,从而降低微调成本。
5/28/2025 11:42:14 AM
Qwen-Agent:基于通义千问的智能体开发框架全面解析
最近逛 GitHub 时,看到了 Qwen 开源的专用 Agent 框架,Qwen-Agent 。 为开发者提供了强大的工具和灵活的接口,支持构建具备指令遵循、工具使用、规划、记忆等能力的智能体应用。 本文将深入解析 Qwen-Agent 的核心功能、安装配置、使用示例及常见问题,帮助开发者快速上手并高效开发。
5/15/2025 3:25:00 AM
wayn
开源社区新添利器:DeerFlow深度研究框架融合AI与专业工具
DeerFlow,一个由社区驱动的全新深度研究框架日前发布,旨在将语言模型与专业工具相结合,为开源社区提供强大的自动化研究解决方案。 这款基于LangGraph构建的模块化多智能体系统,秉持"源于开源,回馈开源"的理念,为研究人员和开发者提供了一套完整的工具链。 DeerFlow的核心优势在于其全面的功能整合。
5/9/2025 11:04:20 AM
AI在线
腾讯助力DeepSeek:网络通信性能大幅提升,AI训练更高效
近日,腾讯技术团队对 DeepSeek 开源的 DeepEP 通信框架进行了深度优化,显著提升了其在多种网络环境下的性能。 经过测试,优化后的通信框架在 RoCE 网络环境下的性能提升达到了惊人的100%,而在 IB 网络环境中则提升了30%。 这一成果不仅为企业的 AI 大模型训练提供了更高效的解决方案,还为相关技术的进一步发展奠定了基础。
5/8/2025 7:00:46 PM
AI在线
小红书推出多模态笔记推荐框架 NoteLLM,提升用户体验!
近日,小红书正式推出了名为 NoteLLM 的多模态大型语言模型框架,旨在为用户提供更精准的笔记推荐服务。 这个框架不仅能够理解文本信息,还能有效处理图像,借助其强大的语义理解能力,大幅提升了笔记推荐的准确性与相关性。 NoteLLM 的核心技术在于生成笔记的压缩嵌入与自动生成标签的能力。
5/7/2025 6:00:55 PM
AI在线
如何选择Embedding Model?关于嵌入模型的十个思考
在大模型应用中,尤其基于RAG框架的大模型应用,嵌入模型(embedding Model)是不可或缺的关键组件。 这里总结了笔者在实践中关于潜入模型的10个思考,希望对大家有所帮助。 嵌入模型在RAG中的重要性嵌入模型能够将文本转换成数值形式的向量,这让计算机可以更高效地处理、对比和检索信息。
5/6/2025 8:51:37 AM
曹洪伟
最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格
视频理解的CoT推理能力,怎么评? 中科大等团队提出了评估基准——VCR-Bench,里面包含七个独立评估维度的任务框架,每个维度针对性地考察模型的不同能力(如时空推理、因果推断等)。 为确保评估的全面性和可靠性,每个维度都设计了100余条高质量样本。
4/18/2025 9:13:00 AM
量子位
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊