AI在线 AI在线

架构

你的RAG系统安全么?

生成式人工智能(GenAI)近年来发展迅速,大语言模型成为这一浪潮的核心力量。 无论是商业还是开源模型,它们都具备强大的语言理解与生成能力,正广泛应用于内容创作、聊天机器人等场景,让企业更容易落地智能应用。 但一个关键挑战是如何让这些通用的 LLM 更懂特定领域,同时保持知识的时效性。
7/1/2025 9:36:42 AM
曹洪伟

华为CloudMatrix重磅论文披露AI数据中心新范式,推理效率超NV H100

今年,AI大厂采购GPU的投入又双叒疯狂加码——马斯克xAI打算把自家的10万卡超算扩增10倍,Meta也计划投资100亿建设一个130万卡规模的数据中心……GPU的数量,已经成为了互联网企业AI实力的直接代表。 的确,建设AI算力,这种堆卡模式是最简单粗暴的,但实际上,AI集群却并非是卡越多就越好用。 GPU虽然计算性能好,但是在集群化的模式下依然有很多挑战,即便强如英伟达,也面临通信瓶颈、内存碎片化、资源利用率波动等问题。
6/30/2025 8:49:00 AM

MiniMax 发布 M1 大模型,百万Token上下文+MoE架构,只花了 GPT-4 的零头!

近日,国内 AI 初创公司 MiniMax 发布了一款全新的语言大模型 MiniMax-M1。 有两个方面最引人注目:1.高达100万Token的上下文处理能力。 2.极具竞争力的训练成本效益。
6/18/2025 4:42:38 PM

3D高斯泼溅,可输入视图量高达500!推理速度提升3倍,内存少80%

在增强现实(AR)和虚拟现实(VR)等前沿应用领域,新视角合成(Novel View Synthesis, NVS)正扮演着越来越关键的角色。 近年来,3D高斯泼溅(3D Gaussian Splatting, 3DGS)技术横空出世,凭借其革命性的实时渲染能力和卓越的视觉质量,迅速成为NVS领域的一大突破。 然而,传统3DGS对耗时的「逐场景优化」的依赖,严重限制了其在实际应用中的部署。
6/18/2025 8:54:48 AM

刚刚,谷歌AI路线图曝光:竟要抛弃注意力机制?Transformer有致命缺陷!

就在最近,谷歌未来的AI路线图曝光! 谷歌产品负责人Logan Kilpatrick在AI工程师世界博览会的演讲中,介绍了Gemini模型的未来。 在未来,Gemini的全模态是重点,模型正在逐步变成智能体,推理能力还会持续扩展。
6/17/2025 9:05:00 AM

时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8

相邻的 KV 缓存将合并为一个。 在生成第一个字符时,KV 缓存长度为 1;生成第二个字符后,新生成的 KV 与前一个被合并,KV 缓存长度仍然保持为 1。 这种动态合并机制有效压缩了时间维度上的冗余信息。
6/11/2025 9:15:51 AM

20人团队提前实现DeepSeek构想,AI算力变天?直击大模型算力成本痛点

如果有一种芯片,天生只为大模型而生,能否突破当前AI的算力瓶颈? 要知道,如今的芯片算力,强依赖于制程、工艺等非芯片设计因素。 这是因为,传统通用型的GPGPU计算架构在应对日益庞大的模型和复杂计算时,其硬件固有的局限性日益凸显。
6/11/2025 9:06:00 AM

我们一起聊聊聊聊智能体的基础架构

2023年下半年,智能体这个概念开始随着AI的突进式发展而被很多人关注起来。 到了2024年,大模型的能力进一步增强,为智能体快速发展提供了底层能力支撑。 随着2025年DeepSeek的爆火,智能体在各行各业的落地应用案例开始明显增加。
6/10/2025 3:00:00 AM
写文章的老张

“一代更比一代强”:现代 RAG 架构的演进之路

基于 RAG(检索增强生成)的 AI 系统,过去是,现在仍然是企业利用大语言模型(LLM)的最有价值的应用之一。 我记得差不多两年前我写了第一篇关于 RAG 的文章,那时候这个术语还未被广泛采用。 我当时描述的是一个以最基础方式实现的 RAG 系统。
6/6/2025 1:15:00 AM
Baihai IDP

构建生产级LLM应用完整指南:从原型到落地的全流程实践

一、LLM应用落地的真实挑战当Jasper AI的写作助手因意外流量在数小时内崩溃时,人们意识到:让LLM应用从实验室走向真实用户,绝非简单的代码迁移。 根据Anthropic 2024年开发者调查,73%的LLM应用在触达用户前折戟沉沙,问题并非出在AI模型本身,而是支撑系统无法应对真实世界的复杂性——用户的不可预测输入、API的偶发故障、成本的突然飙升,这些都是原型阶段未曾遭遇的“暗礁”。 本文将以实战为导向,结合代码示例与架构设计,详解如何将一个基于OpenAI API的简单聊天机器人,升级为具备容错能力、成本可控且可弹性扩展的生产级系统。
6/5/2025 2:45:00 AM
大模型之路

LangGPT:让人人都能写出大师级Prompt,从此告别“灵感枯竭症”!

一、什么是 LangGPT? Prompt的编程语言来了! 你见过这样的尴尬场面吗:苦苦啃Prompt文档一年,还没搞明白ChatGPT到底要怎么“聆听人言”?
6/4/2025 11:09:02 AM
许泽宇

Fellou AI 浏览器 2.0来了!架构重大更新!很快取消邀请码机制!生产级复杂任务成功率超80%

作者 | 谢扬在漫威电影宇宙中,Jarvis 是钢铁侠托尼·斯塔克的私人人工智能助手,几乎无处不在,随时随地为托尼提供支持和帮助。 Jarvis 不仅仅是一个简单的语音助手,它深入融入了托尼的生活,管理他的日常事务,控制他的高科技设备,甚至在战斗中提供实时的战术建议。 Jarvis 的存在让托尼能够专注于更重要的事情,因为他知道有一个可靠的助手在背后支持他。
6/4/2025 10:06:59 AM
谢扬

AI 时代下设计模式的逆袭:为何经典架构思想从未过时?

一、设计模式的“前世今生”:从被忽视到重新审视在软件开发的漫长历程中,设计模式曾经历过备受追捧、过度使用,乃至被部分开发者束之高阁的阶段。 20世纪90年代,《设计模式:可复用面向对象软件的基础》一书的问世,如同在软件开发领域投下一颗重磅炸弹。 抽象工厂、装饰器等模式成为开发者们热议的话题,它们为解决常见问题提供了标准化的方案,建立了一套通用的技术语言,让开发者无需每次都从零开始构思解决方案。
6/4/2025 2:00:05 AM
大模型之路

构建强大AI Agent的关键 = Pydantic AI + MCP + Advanced Web Scraping

引言在文中,我将展示一个超快速教程,教你如何使用 Pydantic AI、MCP 和高级网页抓取技术,构建一个强大的智能聊天机器人,适用于商业或个人用途。 MCP 逐渐被接受,因为它是一个开放标准。 我制作了一些非常酷的视频,你一定会喜欢。
6/3/2025 1:04:00 AM
AI研究生

硬核分享!构建单智能体已经Out了!大佬分享:架构设计如何推动可靠的多智能体编排

作者 | Nikhil Gupta,Atlassian AI产品管理负责人编译 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)时至今日,如果再提如何构建一个Agent,肯定已经过时了。 打造一个超级智能的单一模型已经不再是2025年的主旋律。 而真正的力量和令人兴奋的新领域,是让多个专业化的AI智能体协同运转起来。
5/28/2025 6:04:20 PM
云昭

Claude 4一战封神!找出6万行架构级重构的白鲸bug! 前大厂开发者自述:四年投入了200个小时没发现,别的模型都没做到!

出品 | 51CTO技术栈(微信号:blog51cto)今天,一篇Reddit上的帖子走红了,光看题目就很有料:Claude Opus 帮我解决了一个我四年来都找不到的“白鲸级 bug”图片发帖人是一位有 30 年经验的前 FAANG C 工程师,是团队里负责给bug清场的大佬级角色。 但这一次,他坦言被 Claude Opus “彻底震撼了”。 这个 Bug 有多棘手?
5/27/2025 7:08:26 PM
伊风

​腾讯混元 TurboS 技术报告全面揭秘,560B参数混合Mamba架构

腾讯发布了混元 TurboS 技术报告,揭示了其旗舰大语言模型 TurboS 的核心创新与强大能力。 根据全球权威大模型评测平台 Chatbot Arena 的最新排名,混元 TurboS 在239个参赛模型中位列第七,成为国内仅次于 Deepseek 的顶尖模型,并在国际上仅落后于谷歌、OpenAI 及 xAI 等几家机构。 混元 TurboS 模型的架构采用了创新的 Hybrid Transformer-Mamba 结构,这种新颖的设计结合了 Mamba 架构在处理长序列上的高效性与 Transformer 架构在上下文理解上的优势,从而实现了性能与效率的平衡。
5/22/2025 5:00:55 PM
AI在线

字节提出从单一主题发展到多主题定制的通用框架UNO,通过情境生成释放更多可控性

字节跳动的智能创作团队提出了一个从单一主题发展到多主题定制的通用框架UNO,从少到多的泛化:通过情境生成释放更多可控性。 能够将不同的任务统一在一个模型下。 在单主题和多主题驱动的生成中都能实现高度一致性,同时确保可控性。
5/20/2025 9:13:45 AM
AIGC Studio