AI在线 AI在线

LLM

从“知识断片”到“零样本推理”:AutoBnB-RAG如何赋能多智能体AI安全协作

大家好,我是肆〇柒。 今天要和大家分享的这项研究来自佐治亚理工学院(Georgia Institute of Technology)的工作,AutoBnB-RAG非常巧妙,为解决大型语言模型在网络安全决策中的“知识断片”问题,提供了一个既符合人类专家直觉又极具工程智慧的方案——让AI团队在“卡壳”时才去“查资料”。 这个研究为我们在多智能体中应用 agentic RAG 带来一些启发。
9/2/2025 2:00:00 AM
肆零柒

GPT-5冷酷操盘,狼人杀一战封神!七大LLM狂飙演技,人类玩家看完沉默

一群模型去玩狼人杀,谁能夺下冠军? 这不,GPT-5、Gemini 2.5 Pro、Qwen3-235B-Instruct、GPT-OSS-120B等七大顶尖模型组队,同擂台开战。 一共210场血战,最终,GPT-5以96.7%的胜率独占榜首。
9/1/2025 9:03:00 AM

LLM也具有身份认同?当LLM发现博弈对手是自己时,行为变化了

LLM 似乎可以扮演任何角色。 使用提示词,你可以让它变身经验丰富的老师、资深程序员、提示词优化专家、推理游戏侦探…… 但你是否想过:LLM 是否存在某种身份认同? 近日,哥伦比亚大学与蒙特利尔理工学院的两位研究者 Olivia Long 和 Carter Teplica 通过一个研究项目在一定程度上揭示了这个问题的答案。
8/31/2025 6:08:00 PM
机器之心

Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死

强化学习时代,什么最重要? Karpathy给出了答案,环境! 只有环境,才能让LLM真正进行交互、执行动作、观察结果。
8/29/2025 5:09:30 PM
新智元

ChatGPT后遗症来了!人类日常聊天越来越AI化

和AI聊了两年多,人类说话ChatGPT味越来越重了? 最新研究结果显示,还真是。 佛罗里达州立大学的研究团队花了两年时间,分析了ChatGPT发布前后的非脚本化口语录音,在2210万个词的数据集中发现像“delve”、“intricate”这些学术写作词高频出现在人们日常说话中。
8/28/2025 4:55:58 PM
闻乐

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

近年来,ChatGPT、Llama等大语言模型在软件工程领域的能力突飞猛进,从需求分析、代码生成到测试与维护几乎无所不能。 但一个核心问题是:我们如何客观评估这些模型在不同软件工程任务中的表现? 在SE领域,Benchmark既是分数卡,让不同模型在同一标准下比拼;也是方向盘,引导技术改进与未来研究方向。
8/28/2025 9:10:00 AM

从3000万到1777.9 Token:LogicRAG用动态逻辑图实现“零预建图的高效推理

大家好,我是肆〇柒。 今天要和大家分享的是一项来自香港理工大学的研究——LogicRAG。 这项工作挑战了当前主流的GraphRAG范式,提出了一种无需预建图、按需生成动态逻辑结构的新型RAG框架。
8/28/2025 1:00:00 AM
肆零柒

那么多的MCP server,如何构建自己的MCP client?

现在,每个人都痴迷于大模型的能力,从GPT-5的谣言, 到Claude 3 性能, 以及Gemini的多模态演示。 但事实是,模型并不是人工智能的全部,但Agent可能是。 Agent的定义可能不是它们知道什么,而是由它们能做什么来定义。
8/27/2025 1:33:00 AM
曹洪伟

ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术

本文第一作者是清华大学博士生张清杰,研究方向是大语言模型异常行为和可解释性;本文通讯作者是清华大学邱寒副教授;其他作者来自清华大学、南洋理工大学和蚂蚁集团。 如果我们的教科书里包含大量的污言秽语,那么我们能学好语言吗? 这种荒唐的问题却出现在最先进 ChatGPT 系列模型的学习过程中。
8/26/2025 9:15:00 AM

多智能体系统不是银弹

一、背景介绍可以了解到多智能体系统,正是通过独特的架构设计,让 AI 突破单智能体的能力边界,实现更复杂的任务协作。 多智能体组成虚拟团队,模拟人类专业协作模式,以解决超越单智能体能力边界的复杂问题。 image.png在众多多智能体框架中,LangGraph 的多智能体架构设计极具代表性,堪称实践典范。
8/26/2025 9:14:26 AM
架构精进之路

告别固定分块!2024 EMNLP 新方法 LumberChunker:用 LLM 实现动态语义分块,检索效果显著提升

在大语言模型(LLM)主导的现代 NLP 领域,密集检索已成为问答、摘要、知识问答等任务的核心支撑 —— 毕竟模型再强大,也需要精准的外部上下文来避免 “幻觉”、获取最新信息。 但检索效果的好坏,往往卡在一个容易被忽视的环节:文本分块。 传统分块方法(按句子、段落或固定长度切割)就像用尺子机械丈量文本,完全忽略了内容的语义关联性:要么把一个完整的概念拆得七零八落,导致检索片段上下文残缺;要么把多个无关主题硬塞进一个块里,引入大量噪声。
8/25/2025 8:59:13 AM
Goldma

运用轻量化大语言模型:实现事件响应加速与幻觉抑制双重突破

墨尔本大学和伦敦帝国理工学院的研究人员开发了一种利用大语言模型(LLM)改进事件响应规划的方法,重点在于降低产生幻觉的风险,该方法采用经过微调的小型大语言模型,并结合检索增强生成技术和决策理论规划。 他们所针对的问题十分常见:目前事件响应在很大程度上仍依赖人工操作,速度缓慢,且依赖专家配置的应急预案。 许多企业需要数周甚至数月才能从事件中完全恢复。
8/25/2025 7:00:00 AM
Mirko Zorz

大模型的基石:LLM预训练全解析

前言过去几年,大语言模型(LLM, Large Language Models)逐渐成为人工智能领域的核心驱动力。 从GPT到LLaMA,再到国内外涌现的大大小小模型,它们无一不是在“预训练”这一步骤中打下了坚实的基础。 可以说,预训练是LLM的生命起点,是它们从“婴儿”成长为“博学者”的关键阶段。
8/24/2025 9:24:07 AM
AI大模型应用开发

2025 年过半,RAG 领域进展如何?这份报告为你深度解析

2025 年已经过半,在 LLM 领域,RAG(检索增强生成)技术一直是备受关注的焦点。 近期,RAGFlow 团队发布了 2025 年过半的 RAG 进展报告下面来详细看下。 1、RAG 与智能体的关系被误读的 "智能体化 RAG"2025 年 AI 圈最热闹的话题莫过于智能体系统,随之而来的 "智能体无需 RAG" 论调一度引发行业困惑。
8/22/2025 9:36:04 AM
Goldma

GPT-5点赞!八大顶尖机构发布「自进化智能体」全面综述

LLM驱动的AI智能体已展现出惊人潜力:它们以LLM为核心,集成感知模块(处理文本/图像/音频/视频)、规划模块(如链式思考CoT或树式思考ToT)、记忆模块(短期上下文存储与长期知识检索)和工具模块(调用API如搜索引擎或代码执行器)。 在单智能体系统中,这些组件协同工作,处理从网页导航、代码生成、投资辅助到生物医学分析的任务。 而在多智能体系统(MAS)中,智能体间通过协作(如辩论或任务分解)攻克复杂问题,模拟人类团队的群体智能。
8/21/2025 2:14:17 PM
新智元

USENIX Security 25 | TEE+Legacy GPU混合算力下的模型隐私安全攻防

近日,字节跳动安全研究团队、北京大学和伊利诺伊大学香槟分校合作的研究论文《Game of Arrows: On the (In-)Security of Weight Obfuscation for On-Device TEE-Shielded LLM Partition Algorithms》被安全领域国际顶会USENIX Security收录。 USENIX Security 会议是网络与信息安全领域的四大顶级会议之一,也是中国计算机学会推荐的网络与信息安全领域A类国际学术会议。 该会议享有广泛的学术影响和深厚的学术底蕴,近五年平均录用率约为20%。
8/21/2025 2:05:07 PM
字节跳动技术团队

dLLM的「Free Lunch」!浙大&蚂蚁利用中间结果显著提升扩散语言模型

本文第一作者王文,浙江大学博士生,研究方向是多模态理解与生成等。 本文通讯作者沈春华,浙江大学求是讲席教授,主要研究课题包括具身智能、大模型推理增强、强化学习、通用感知模型等。 近年来,扩散大语言模型(Diffusion Large Language Models, dLLMs)正迅速崭露头角,成为文本生成领域的一股新势力。
8/20/2025 12:38:26 PM

ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

本文的第一作者为北京大学王选计算机研究所博士生雷廷,通讯作者为博士生导师刘洋。 团队近年来在 TPAMI、CVPR、ICCV、ICML 等顶会上有多项代表性成果发表,多次荣获多模态感知和生成竞赛冠军,和国内外知名高校、科研机构广泛开展合作。 目前的 HOI 检测方法普遍依赖视觉语言模型(VLM),但受限于图像编码器的表现,难以有效捕捉细粒度的区域级交互信息。
8/20/2025 9:13:00 AM