AI在线 AI在线

系统

构建生产级LLM应用完整指南:从原型到落地的全流程实践

一、LLM应用落地的真实挑战当Jasper AI的写作助手因意外流量在数小时内崩溃时,人们意识到:让LLM应用从实验室走向真实用户,绝非简单的代码迁移。 根据Anthropic 2024年开发者调查,73%的LLM应用在触达用户前折戟沉沙,问题并非出在AI模型本身,而是支撑系统无法应对真实世界的复杂性——用户的不可预测输入、API的偶发故障、成本的突然飙升,这些都是原型阶段未曾遭遇的“暗礁”。 本文将以实战为导向,结合代码示例与架构设计,详解如何将一个基于OpenAI API的简单聊天机器人,升级为具备容错能力、成本可控且可弹性扩展的生产级系统。
6/5/2025 2:45:00 AM
大模型之路

AI是否知道什么时候该"思考"?Thinkless教会大模型何时该动脑筋

你是否曾经问过简单问题,却得到AI长篇大论的回答? 或者问复杂问题时,AI却草草了事? 今天我要和大家分享一项突破性研究,它让AI学会了"什么时候该思考,什么时候该直接回答"。
5/23/2025 6:47:33 PM
无影寺

Patronus AI 推出 Percival:一分钟诊断百步代理链中的隐藏故障

随着企业越来越多地部署自主运行的 AI 代理系统,对这些复杂系统的监控与调试需求也迅速增长。 总部位于旧金山的 AI 安全公司 Patronus AI 今日发布了其最新产品 Percival,一个能够自动识别 AI 代理系统中故障模式并提出修复建议的监控平台。 “Percival 是业界首个可以自动追踪代理轨迹、识别复杂故障,并系统化输出修复建议的智能代理。
5/15/2025 11:01:55 AM
AI在线

Cursor AI 系统提示词泄露:Vibe 编程的七大提示词技巧

在当前 AI 快速演进的背景下,语言模型展现出的“智能性”愈发惊艳。 即使用户输入的提示词模糊不清,Claude 3.5 或 Cursor 等系统依旧能准确“读懂心思”,给出相对贴切的回应。 这种智能表现,部分原因来自系统提示词(System Prompt)机制的设计。
5/14/2025 8:11:07 AM
前端小智

RASA:LLM系统中实现智能体记忆的认知框架(含代码)

大语言模型(LLMs)和智能体不断进化,已不再局限于简单的响应和输出,而是在推理与行动能力上持续成熟。 随着智能体架构的进步,记忆、回忆和知识应用的方式,在系统设计和可信度方面变得愈发关键且复杂。 RASA(Role-Aligned Software Architecture,角色对齐软件架构)作为一个创新性的认知框架,为构建具备强大记忆能力、能够灵活适应各种场景的智能体提供了全新的思路和方法。
5/12/2025 2:50:00 AM
大模型之路

微软正式开源UFO²,Windows桌面迈入「AgentOS 时代」

本论文第一作者为微软 DKI 团队的 Chaoyun Zhang,其为 Windows 平台首个智能体系统 ——UFO 的核心开发者,该项目已在 GitHub 上开源并获得约 7,000 Stars,在社区中引发广泛关注。 同时,他也是一篇超过 90 页的 GUI Agent 综述文章的主要撰写者,系统梳理了该领域的关键进展与技术框架。 其余项目的主要贡献者亦均来自微软 DKI 团队,具备深厚的研究与工程背景。
5/7/2025 9:16:00 AM

突破瓶颈,嵌入式AI神经持续学习引擎—Replay4NCL

阿联酋大学、纽约大学阿布扎比分校以及巴基斯坦国立科技大学的研究人员,联合推出了一种高效内存重放方法Replay4NCL,以解决嵌入式 AI 系统在动态环境中持续学习的难题。 值得一提的是,该研究成果已经被第62届设计自动化大会(DAC)审核通过,会在2025年6月在旧金山举办的大会上展示。 随着AI技术的快速迭代发展,嵌入式 AI 系统在各种应用场景中扮演着越来越重要的角色,例如,移动机器人、无人驾驶、无人机等。
5/6/2025 10:13:41 AM
AIGC开放社区

深度研究 | Agentic AI系统安全防护实施指南

在人工智能迅猛发展的今天,Agentic AI系统以其前所未有的自主性、适应性和决策能力,正在重塑企业的数字化格局。 这些具备"代理能力"的AI系统能够自主感知环境、制定决策并采取行动,为企业带来效率提升和创新机遇。 然而,随之而来的是全新的安全挑战与风险维度:当AI拥有了更大的自主权,我们如何确保它始终在可控、安全、合规的轨道上运行?
4/30/2025 12:00:00 AM
徐晓丽

首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路

钱成目前是伊利诺伊大学香槟分校 (UIUC) 一年级博士生,导师为季姮教授。 本科就读于清华大学,导师为刘知远教授。 其工作集中在大语言模型工具使用与推理以及人工智能体方向。
4/29/2025 9:12:00 AM
机器之心

AI也要007?Letta、伯克利提出「睡眠时间计算」,推理效率翻倍还不加钱

AI 也要 007 工作制了! 近日,AI 初创公司 Letta 和 UC 伯克利的研究人员提出了一种扩展人工智能能力的新方式 —— 睡眠时间计算(Sleep-time Compute),让模型在空闲时间「思考」,旨在提高大型语言模型(LLM)的推理效率,降低推理成本,同时保持或提升准确性。 睡眠时间计算的核心理念在于:智能体即使在「睡眠」(即用户未提出查询时的闲置状态)时段,也应持续运行,利用这些非交互期重组信息、提前完成推理。
4/23/2025 9:10:00 AM
机器之心

百页专业报告一次直出!Jürgen团队开源框架WriteHERE,重塑AI写作天花板

在 AI 长文写作领域,一项革命性突破正在改写行业规则 —— 由「人工智能之父」Jürgen Schmidhuber 领衔的团队,正式开源其长文写作框架 WriteHERE。 该框架凭借异质递归规划(Heterogeneous Recursive Planning)技术,实现单次生成超 4 万字、100 页专业报告的能力,在小说创作、报告生成场景中全面超越 Perplexity 付费版「深度研究」、DeepMind 的 Agent's Room 及斯坦福 STORM 等顶尖方案。 论文标题:Beyond Outlining: Heterogeneous Recursive Planning for Adaptive Long-form Writing with Language Models论文地址: & 在线 Demo: 仓库:「大纲先行」到「实时编织」现有 AI 长文生成系统(如 Agent's Room、STORM)多将写作简化为「规划 - 填充」的线性流程,而 WriteHERE 首次通过数学形式化揭示:长文写作本质上是检索(Retrieval)、推理(Reasoning)、写作(Composition)三类异构任务的动态编织。
4/22/2025 9:35:00 AM
机器之心

靠C#年入百万:开发DeepSeek爆文生成系统,日更50篇的源码解剖

在内容创作领域,流量就是财富密码。 如何高效产出吸引眼球的爆文,成为众多创作者和内容机构的核心诉求。 借助当下先进的AI技术,结合强大的C#开发能力,一套能够日更50篇爆文的DeepSeek爆文生成系统应运而生,为从业者打开了年入百万的大门。
3/31/2025 12:22:25 AM
conan

一文看懂多模态思维链

多模态思维链(MCoT)系统综述来了! 不仅阐释了与该领域相关的基本概念和定义,还包括详细的分类法、对不同应用中现有方法的分析、对当前挑战的洞察以及促进多模态推理发展的未来研究方向。 图片当下,传统思维链(CoT)已经让AI在文字推理上变得更聪明,比如一步步推导数学题的答案。
3/25/2025 9:06:11 AM
量子位

揭秘老黄演讲中关键技术:PD分离!UCSD华人团队力作,LLM吞吐量跃升4倍

现在,PD分离已经成为兵家必争之地。 前有Mooncake/DeepSeek等公司采用这种技术来优化大模型的推理服务,后有Nvidia/PyTorch基于该技术孵化下一代LLM服务系统。 甚至最近,黄仁勋也在2025 GTC的舞台上提到了PD分离(Prefill-Decode Disaggregation)技术,进一步证明了这一技术获得的广泛关注。
3/20/2025 9:00:00 AM
新智元

DeepSeek突袭公布成本利润率:545%

五连开源后,DeepSeek还有One More Thing! 就在刚刚,DeepSeek官方亲自揭秘了DeepSeek-V3/R1推理系统。 重点包括,优化吞吐量和延迟的方法:跨节点EP驱动的批量扩展计算与通信重叠负载均衡还公布了DeepSeek的在线服务数据统计:每个H800节点每秒有73.7k/14.8k个输入/输出token成本利润率545%更多细节,一起来看官方原文↓更大的吞吐,更低的延迟DeepSeek-V3/R1推理系统的优化目标是:更大的吞吐,更低的延迟。
3/3/2025 8:21:00 AM
量子位

工信部新规:智能驾驶辅助系统须限制不规范使用行为

2月28日,工信部发布《智能网联汽车产品准入、召回及软件在线升级管理与技术指南》,明确要求智能网联汽车系统在驾驶员未规范使用组合驾驶辅助功能时,应具备禁止激活相应功能等限制策略。 这一新规旨在进一步提升智能驾驶辅助系统的安全性与可控性。 根据指南,智能网联汽车系统需具备明确的激活、执行和退出策略。
2/28/2025 5:13:00 PM
AI在线

岚图汽车将发布超高效 AI 语音对话系统,响应小于 1 秒

岚图汽车宣布,其自主研发的 AI 语音对话系统将于2025年上半年正式发布,并应用于即将推出的新车型。 该系统的响应时间极快,所有操作的反应时间都将小于1秒,这意味着车主在使用语音控制车辆时可以获得更为顺畅的体验。 此外,该系统还具备超过98% 的唤醒识别率,能够精准识别用户的指令。
2/26/2025 8:56:00 PM
AI在线

谷歌豪华阵容打造AI科学家,用测试时间计算加速科学发现,CEO皮猜也来站台了

CEO皮猜亲自站台,谷歌的最新研究狠狠火了——为科学家群体推出“科研搭子”AI co-scientist,一个能够利用高级推理综合大量文献、生成新颖假设,并提出详细研究计划的多智能体AI系统。 划重点,该系统将与OpenAI o1/DeepSeek-R1相似的测试时间计算用来加速科学发现。 据皮猜介绍,这个系统已经在肝脏纤维化治疗、抗菌耐药性和药物再利用等重要研究领域取得了初步成果。
2/21/2025 9:20:00 AM
量子位