AI在线 AI在线

语言模型

借助 Kubernetes 与 vLLM 实现大规模大语言模型推理

在当下的人工智能领域,大语言模型(LLMs)正以前所未有的力量推动各类应用变革,从智能聊天机器人、精准搜索引擎,到高效的代码辅助工具以及自动化文档处理系统,其身影无处不在。 然而,将大语言模型高效地部署到生产环境中,却面临着严峻的基础设施与工程挑战。 尤其是当需要同时处理数百甚至数千个并发请求,且要保证低延迟和高可靠性时,传统的技术方案往往难以应对。
9/2/2025 4:22:00 AM
大模型之路

牛津大学警告:越“温暖”的 AI,越爱胡说八道,温柔体贴=更高错误率

牛津大学的一支研究团队发现,越是表现出温暖和同理心的语言模型,越容易出错,甚至更频繁地重复虚假信息和阴谋论。 这次,研究团队测试了五个不同架构和规模的模型,包括Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o。 研究发现,温暖的模型在推广阴谋论、提供不正确的医疗建议和事实信息方面,表现出更高的错误率。
8/25/2025 12:02:00 AM

ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

本文的第一作者为北京大学王选计算机研究所博士生雷廷,通讯作者为博士生导师刘洋。 团队近年来在 TPAMI、CVPR、ICCV、ICML 等顶会上有多项代表性成果发表,多次荣获多模态感知和生成竞赛冠军,和国内外知名高校、科研机构广泛开展合作。 目前的 HOI 检测方法普遍依赖视觉语言模型(VLM),但受限于图像编码器的表现,难以有效捕捉细粒度的区域级交互信息。
8/20/2025 9:13:00 AM

如何在你的计算机上运行OpenAI新的gpt-oss-20b LLM?

译者 | 布加迪审校 | 重楼你只需要24GB 的内存,除非你的GPU自带VRAM,否则需要相当的耐心。 上周,OpenAI发布了两款流行的开放权重模型,均名为gpt-oss。 由于你可以下载它们,因此可以在本地运行。
8/13/2025 7:25:57 AM
布加迪

17 种 RAG 架构实现原理与选型

RAG(Retrieval-Augmented Generation)是一种结合外部知识检索与语言模型生成的混合技术架构。 它在大型语言模型(如 GPT)生成能力的基础上,通过外部知识库提高了准确性、时效性和可控性,广泛用于企业问答、搜索增强、智能客服、代码辅助、知识图谱等场景。 然而,RAG不是一个固定结构,也没有固定的套路,而是一套可以灵活演化的系统。
8/4/2025 6:05:00 AM
Andflow

四款扩散大语言模型全部破防?上交&上海AI Lab发现致命安全缺陷

扩散语言模型(Diffusion-based LLMs,简称 dLLMs)以其并行解码、双向上下文建模、灵活插入masked token进行解码的特性,成为一个重要的发展方向。 相较传统的自回归语言模型,dLLMs 既可以一次性生成多个位置的词,也能更自然地完成文本插入、改写、补全等任务,被广泛应用于交互式问答、代码生成、甚至多模态场景。 但在这股看似技术跃迁的浪潮背后,一场潜藏的安全危机正在酝酿:能否继续沿用自回归模型的对齐与防护机制,保障dLLM的输出安全?
7/24/2025 9:15:00 AM

无Tokenizer时代真要来了?Mamba作者再发颠覆性论文,挑战Transformer

我们终于摆脱 tokenization 了吗? 答案是:可能性无限大。 最近,Mamba 作者之一 Albert Gu 又发新研究,他参与的一篇论文《 Dynamic Chunking for End-to-End Hierarchical Sequence Modeling 》提出了一个分层网络 H-Net,其用模型内部的动态分块过程取代 tokenization,从而自动发现和操作有意义的数据单元。
7/14/2025 8:50:00 AM

LeCun团队揭示LLM语义压缩本质:统计压缩牺牲细节

当我们读到“苹果”“香蕉”“西瓜”这些词,虽然颜色不同、形状不同、味道也不同,但仍会下意识地归为“水果”。 哪怕是第一次见到“火龙果”这个词,也能凭借语义线索判断它大概也是一种水果。 这种能力被称为语义压缩,它让我们能够高效地组织知识、迅速地对世界进行分类。
7/4/2025 9:53:57 AM

视觉语言模型如何突破感知边界?上海 AI 新势力提出“世界意识”赋能真实环境规划

——如何让多模态智能体真正“看懂”世界并做出复杂决策“把切好的苹果片冰一下再丢进垃圾桶”——这样一条看似普通的自然语言指令,若让一台具身智能体(Embodied Agent)执行,其背后实则隐藏了多步规划、常识应用、环境理解、工具使用等一系列交互复杂度极高的子任务。 如何让 AI 理解任务的潜台词、合理分解步骤,并在真实视觉输入中找准对象并正确执行,正是当前具身智能与多模态学习面临的最大挑战之一。 具身智能与多模态规划的研究背景具身智能(Embodied Intelligence)可以被视为 AI 研究“从认知走向行为”的转折点。
7/1/2025 1:35:00 AM
FlerkenS

CVPR 2025 | 零开销,消除图像幻觉!基于零空间投影挖掘正常样本特征

当前大型视觉语言模型(LVLMs)普遍存在「物体幻觉」问题:模型会凭空生成图像中不存在的物体描述。 为了高效地实现幻觉消除,西安交通大学研究团队提出了一种利用「幻觉子空间」(HalluSpace)进行零空间投影的高效模型权重编辑方法Nullu(Null space of HalluSpace)。 论文地址:::从特征空间寻找到正常样本表征与幻觉样本特征的核心差异。
6/30/2025 8:15:00 AM

RAG(检索增强生成):提升大语言模型性能的终极指南

一、大语言模型的困境:从“鹦鹉学舌”到“知识饥渴”在人工智能领域,大语言模型(LLMs)的出现曾让我们惊叹于其语言能力——它们能流畅对话、撰写文章,甚至模仿人类的逻辑推理。 然而,随着应用场景的深入,这些“超级智能鹦鹉”的局限性逐渐暴露:时效性缺失模型训练数据往往截止到某个固定时间点,无法回答“昨晚比赛结果”“最新政策变化”等实时问题。 知识边界模糊面对企业内部文档、专业领域知识等私有数据时,传统LLMs因缺乏访问权限而无法准确响应。
5/28/2025 1:25:00 AM
大模型之路

字体控狂喜!Liblib AI 黑科技 RepText:无需理解文字,AI就能 1:1 复刻多国语言视觉效果

Liblib AI提出了 RepText,可以使预训练的单语文本转图像生成模型能够以用户指定的字体准确渲染,或者更准确地说,复制多语种视觉文本,而无需真正理解这些字体。 这样不管是中文、日文、韩文还是其他语言都可以精准的生成! 从某种意义上说也算是打破了AI图文生成语言的壁垒!
5/9/2025 9:12:00 AM

Ema推新型语言模型EmaFusion:成本和准确性方面击败了 O3、Gemini

在 AI 行业竞争日益激烈的今天,Ema 公司推出了一款新型语言模型 EmaFusion,声称在成本和准确性上超越了包括 O3、Gemini 和 Sonnet 在内的多款知名 AI 模型。 与传统的单一策略系统不同,EmaFusion 采用了一种 “级联” 判断系统,能够动态平衡成本和准确性,同时用户也可以根据具体任务的需求进行微调。 Ema 的首席执行官 Surojit Chatterjee 表示,EmaFusion 像一个 “任务智能大脑”,能够智能地拆解复杂的问题,并将其分配给最合适的 AI 模型来解决。
4/27/2025 10:00:48 AM
AI在线

UIUC联手谷歌发布Search-R1 大模型学会边查百度边答题

最近AI圈炸出一项黑科技——让语言模型学会自己上网查资料!不仅考试分数暴涨41%,还解锁了"边推理边搜索"的究极形态。 今天带你们围观这场学术界的"作弊式进化",看完保证你想给自家AI办张网吧会员卡!论文地址: 主页:"人肉搜索插件"话说在某个月黑风高的实验室,一群教授盯着电脑屏幕集体瞳孔地震——他们家的AI做题时居然学会了"偷看小抄"!这波操作源自伊利诺伊大学的最新论文《Search-R1》,简单来说就是给语言模型装了个人工智障版"搜索引擎外挂"。 传统AI做题就像开卷考试:你先把维基百科塞它脑子里(RAG技术),结果这货要么翻错页,要么对着菜谱答高数题。
4/21/2025 6:00:37 PM
AI在线

xAI发布Grok3Mini:为开发者提供高性价比AI模型

xAI近日推出了其全新的语言模型——Grok3Mini,进一步推动了高效AI技术的发展。 Grok3Mini专为速度和经济性设计,尽管体积较小,但在多个领域的表现优于许多更昂贵的AI模型,尤其在数学、编程和科学基准测试中表现突出。 Grok3Mini:高性能与低成本的完美平衡Grok3Mini是Grok3系列的一部分,该系列包含六种变体,其中包括标准的Grok3、Grok3Fast,以及四种版本的Grok3Mini,提供慢速和快速两个版本,每种版本又具备低推理能力或高推理能力的选项。
4/21/2025 12:00:58 PM
AI在线

让DeepSeek更可靠!清华提出Hyper-RAG,用超图提升知识建模精准度

大语言模型(Large Language Models, LLMs)在面对专业领域知识问题的时候,经常会生成偏离既定事实的回复,或模糊不清的回答,从而带来了潜在应用风险。 检索增强生成(Retrieval-Augmented Generation, RAG)通过构建特定领域知识库,采用基于向量的检索技术来提取与给定查询相关的信息,从而使LLM能够生成更准确、更可靠的内容。 然而,现有的基于图的RAG方法受限于仅能表示实体之间的成对关联,无法表示那些更复杂的多实体间的群组高阶关联,导致数据结构化过程中这些高阶信息的丢失。
4/21/2025 8:45:00 AM
新智元

OpenAI发布GPT-4.1指令提示工程指南

4月15日,OpenAI 发布了针对 GPT-4.1的提示工程指南,为开发者提供了全面的建议和最佳实践,帮助他们更高效地构建和优化 AI 应用。 这份指南详细介绍了 GPT-4.1的特性,并提供了从基础原则到高级策略的一系列技巧,旨在帮助开发者充分利用 GPT-4.1的强大能力。 GPT-4.1是 OpenAI 最新的语言模型,它在编程能力、指令遵循能力和长上下文处理能力上相比前代模型有显著提升。
4/15/2025 1:01:48 PM
AI在线

使用人工智能幻觉评估图像真实感​

译者 | 朱先忠审校 | 重楼引言最近,俄罗斯的一项新研究提出了通过一种非常规方法来检测不切实际的人工智能生成的图像。 这种方法的主要思想是:不是通过提高大型视觉语言模型(LVLM)的准确性,而是通过有意利用它们产生幻觉的倾向。 这种新方法使用LVLM提取有关图像的多个“原子事实”,然后应用自然语言推理(NLI)系统地衡量这些陈述之间的矛盾,从而有效地将模型的缺陷转化为检测违背常识的图像的诊断工具。
4/9/2025 8:23:49 AM
朱先忠