AI在线 AI在线

大型语言模型

Self-Play Critic:以“对抗博弈”创新大语言模型推理评估

大家好,我是肆〇柒。 今天,我想和大家聊一项创新的评估思路——Self-Play Critic(SPC)。 大型语言模型(LLM)目前已成为我们生活和工作中不可或缺的工具。
8/8/2025 3:00:00 AM
肆零柒

17 种 RAG 架构实现原理与选型

RAG(Retrieval-Augmented Generation)是一种结合外部知识检索与语言模型生成的混合技术架构。 它在大型语言模型(如 GPT)生成能力的基础上,通过外部知识库提高了准确性、时效性和可控性,广泛用于企业问答、搜索增强、智能客服、代码辅助、知识图谱等场景。 然而,RAG不是一个固定结构,也没有固定的套路,而是一套可以灵活演化的系统。
8/4/2025 6:05:00 AM
Andflow

全新的AI模型带来更快速的漏洞检测方案

一组研究人员开发出一种名为White-Basilisk的新型AI模型,该模型检测软件漏洞的效率高于许多大型系统。 当前,开发人员和安全团队在保障复杂代码库安全方面面临着越来越大的压力,且往往缺乏部署大规模AI工具的资源,该模型正是在这一背景下发布的。 小模型,大成效与需要数十亿参数和强大计算能力的大型语言模型(LLM)不同,White-Basilisk模型非常紧凑,仅有2亿个参数,然而,在多个用于漏洞检测的公共基准测试中,它的表现优于规模超过其30倍的模型,这至少在专门的安全任务方面,对“模型越大越好”的观点提出了质疑。
8/1/2025 2:38:14 PM
Mirko Zorz

AREAL 开源:解耦架构与创新算法驱动的强化学习系统

大家好,我是肆〇柒。 推理能力在当下 AI 领域,尤其自然语言处理、智能决策系统、科学研究辅助等众多关键领域,已然成为推动技术革新的关键要素。 然而,目前大型语言模型虽已取得瞩目成果,但在处理复杂逻辑时,常受困于逻辑连贯性把控,长链推理面临信息丢失、逻辑断裂问题,长序列输出任务下推理耗时久、资源消耗大,这些痛点严重制约模型应用场景拓展与性能深化。
7/25/2025 9:03:24 AM
肆零柒

AI Agent 协议:未来AI智能生态的基础设施

大家好,我是肆〇柒。 今天想跟大家深入聊聊 AI 智能体协议这个极具前瞻性的话题。 关于智能体协议,我跟了一段时间,发现它就像是打开智能体协作大门的一把钥匙,特别有意思,而且对未来的智能生态影响深远。
7/23/2025 9:21:03 AM
肆零柒

AGENTGROUPCHAT-V2:大型语言模型多智能体协作的创新思考

大家好,我是肆〇柒。 LLM 多智能体系统在社会模拟和复杂任务解决这两大领域大显身手。 在社会模拟里,它们精准地复刻人类社交互动模式,助力我们洞察群体行为背后的社会学;在复杂任务解决场景下,智能体们协同合作,先是制定详尽规划,再按部就班执行,轻松应对复杂局面。
7/15/2025 12:14:44 PM
肆零柒

重新审视 LLM:集体知识的动态映射与人机共舞

大家好,我是肆〇柒。 今天咱们不聊那些晦涩的技术。 今天的内容,源自我看到的一篇论文《In Dialogue with Intelligence: Rethinking Large Language Models as Collective Knowledge》。
7/11/2025 10:11:38 AM
肆零柒

OctoThinker:借“中期训练”之力,缩小 Llama 和 Qwen 模型的差距

大家好,我是肆〇柒,大型语言模型(LLM)通过链式思考(CoT)进行深度推理,并借助大规模强化学习(RL)在复杂任务(如竞赛级数学问题解决)上取得了显著进展。 OpenAI 的 o1、o3 等模型在数学推理任务上表现卓越,这些模型通常采用多层神经网络架构,通过大规模数据训练捕捉语言的复杂模式,从而实现高效的文本生成和推理。 而 DeepSeek-R1-Zero 等模型在基础语言模型上直接应用大规模 RL 也展现了有趣的推理行为。
7/10/2025 10:25:23 AM
肆零柒

ASTRO:赋予语言模型搜索式推理能力的创新框架

大家好,我是肆〇柒。 当下大型语言模型(LLM)已深度融入诸多领域,从智能写作到语言翻译,从智能客服到数据分析,其影响力无处不在。 然而,在处理复杂问题时,推理能力的强弱直接决定了模型的实用性。
7/10/2025 9:14:11 AM
肆零柒

日本 2024 财年生成式 AI 使用率仅 26.7%,远落后于中美

AI在线 7 月 8 日消息,据日本总务省周二发布的 2025 年白皮书显示,日本在生成式人工智能(AI)的使用率上明显落后于全球领先国家。 白皮书指出,2024 财年仅有 26.7% 的日本民众表示使用过此类工具,尽管这一数字较 2023 财年增长了约三倍,但仍远低于美国和中国等 AI 领先国家。 其中,美国的使用率高达 68.8%,而中国的使用率更是达到了 81.2%。
7/8/2025 10:49:51 PM
远洋

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异,推出 OctoThinker

大型语言模型(LLM)通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展,如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型,展现出强大的推理能力。 然而,这种成功在不同的基础模型系列中难以复制,尤其是在 Llama 系列上。 这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?强化学习在 Llama 模型上的扩展限制OpenAI 的 o1、o3和 DeepSeek 的 R1等模型在竞赛级数学问题上通过大规模强化学习取得了突破,推动了对千亿参数以下小型模型强化学习能力的探索。
7/3/2025 12:00:57 PM
AI在线

科学家们有话说!SciArena 平台上线,多维度评测大语言模型科学表现

一个名为 SciArena 的全新开放平台现已上线,旨在通过人类偏好评估大型语言模型(LLM)在科学文献任务中的表现。 早期结果已揭示不同模型之间存在显著的性能差距。 SciArena 由耶鲁大学、纽约大学和艾伦人工智能研究所的研究人员共同开发,旨在系统性评估专有和开源 LLM 处理科学文献任务的效果,填补了该领域系统性评估的空白。
7/3/2025 10:00:57 AM
AI在线

提示工程运维崛起:应对错误输入和语境膨胀带来的隐性AI成本

模型提供商不断推出越来越复杂的大型语言模型(LLM),这些模型具有更长的上下文窗口和增强的推理能力。 这使得模型能够处理更多信息并进行更多“思考”,但同时也增加了计算量:模型处理和输出的信息越多,消耗的能量就越大,成本也就越高。 再加上提示词调整(prompting)所涉及的反复试验——可能需要尝试几次才能得到预期结果,而且有时手头的问题根本不需要一个能像博士那样思考的模型——计算支出可能会失去控制。
7/2/2025 7:25:00 AM
Taryn

苹果 AI 团队遭遇动荡:顶尖研究员离职引发信任危机

最近,苹果公司在人工智能领域面临了一场不小的风波。 一位重要的高级研究员汤姆・冈特(Tom Gunter)在公司工作八年后选择离职,这一消息引发了内部的广泛关注。 冈特在大型语言模型方面的专业知识被认为是无可替代的,尤其是在当前竞争对手如 Meta 和 OpenAI 都在通过高额薪资挖角人才的情况下。
7/1/2025 10:01:01 AM
AI在线

智能体规模化部署的隐形悬崖:如何避免部署崩盘?

想要构建并扩展智能体的企业还需要接受另一个现实:智能体的构建方式与其他软件截然不同。 根据Writer公司的CEO兼联合创始人May Habib的说法,智能体在构建方式、运行方式以及改进方式上都“有着根本的不同”,这意味着在处理自适应系统时,需要摒弃传统的软件开发生命周期(SDLC)。 “智能体并不总是可靠地遵循规则,”Habib在周三VB Transform大会的舞台上表示,“它们是结果导向的,它们会解读信息,会适应变化,而且,它们的行为真的只有在现实世界环境中才会显现出来。
6/30/2025 7:07:00 AM
Marty Swant

大语言模型热潮与现实的差距:CISO应关注什么

从AI应用中的风险,如中毒的训练数据和幻觉现象,到AI赋能的安全措施,再到深度伪造、用户错误以及新型AI生成的攻击技术,网络安全行业正充斥着令人恐惧的安全威胁,这些威胁让CISO们不堪重负。 例如,在2025年4月的RSA会议期间及之后,与会者纷纷对AI带来的恐惧、不确定性和怀疑(FUD)表示强烈不满,尤其是供应商方面的表现。 其中一位是Netflix的信息风险工程师Tony Martin-Vegue,他在RSAC会议后的采访中告诉记者,虽然AI的炒作和潜力很大,但无法阻止其发展,不过有方法可以穿透炒作,并在最关键的地方应用基本控制措施。
6/27/2025 7:12:00 AM
Deb Radcliff

LLM 的反馈困境:为何大型语言模型难以完全吸收外部建议

大家好,我是肆〇柒。 在 AI 领域,大型语言模型(LLM)正以前所未有的速度改变着我们处理信息和解决问题的方式。 然而,在当下落地 AI 应用时,一个关键问题逐渐浮出水面:LLM 是否能够真正理解并整合外部反馈,从而实现自我改进并达到其性能的极限?
6/25/2025 10:21:08 AM
肆零柒

加州法院裁定使用版权内容训练 AI 合规,引发创作者担忧

美国加州北区地方法院作出了一项重要裁决,允许使用受版权保护的作品来训练人工智能模型。 这个决定引发了广泛的关注和争议,尤其是在创意产业中,许多艺术家和内容创作者对此表示担忧。 裁决支持了被告 Anthropic 公司在没有授权的情况下使用盗版材料来训练其 AI 模型 Claude,进一步引发了关于创作者权益的讨论。
6/25/2025 9:00:44 AM
AI在线