AI在线 AI在线

大型语言模型

GPT-4.1 模型遭遇质疑:对齐性和稳定性引发关注

近日,OpenAI 推出了其新一代人工智能模型 ——GPT-4.1,声称在遵循用户指令方面表现优异。 然而,令人意外的是,多项独立测试的结果显示,GPT-4.1的对齐性和稳定性较之前的版本有所下降,尤其是在处理敏感话题时的表现不尽如人意。 牛津大学的研究科学家 Owain Evans 指出,经过不安全代码微调的 GPT-4.1在应对性别角色等敏感问题时,给出的回应存在更高的不一致性,这一现象在其前代模型 GPT-4o 中并不明显。
4/24/2025 9:00:53 AM
AI在线

MCP vs Function Calling,该如何选?

Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景落地 - 如何为 LLM 集成选择合适的策略? 众所周知,大型语言模型(LLMs)已经彻底改变了企业自动化、客户交互以及决策制定的方式,其强大的语言生成能力为各行业带来了前所未有的机遇。 然而,要充分发挥 LLMs 的潜力,仅仅部署一个预训练模型是远远不够的。
4/22/2025 9:17:41 AM
Luga Lee

谷歌新型 AI 系统在复杂诊断中表现超越医生

译者 | 刘汪洋审校 | 重楼最近,《自然》杂志上的一篇新论文引发了关注。 它展示了谷歌如何用 AI 改变医疗的未来:通过自动化技术降低成本、减轻医生负担,使他们能够将更多精力投入到复杂病例的处理中。 当你带着疑难杂症就医时,自然希望得到准确的诊断。
4/22/2025 8:13:39 AM
刘汪洋

AI工具的广泛使用标志着恶意机器人活动的新时代

据Thales称,易于获取的AI工具的增多显著降低了网络攻击者的入门门槛,使他们能够大规模创建和部署恶意机器人。 十年来,自动化机器人流量首次超过人类产生的流量,在2024年构成所有网络流量的51%,这一转变在很大程度上归因于AI和大型语言模型(LLM)的兴起,它们简化了用于恶意目的的机器人的创建和扩展。 随着AI工具变得越来越容易获取,网络犯罪分子越来越多地利用这些技术来创建和部署恶意机器人,这些机器人现在占所有互联网流量的37%,较2023年的32%有显著增长,这是恶意机器人活动连续第六年增长,给致力于保护其数字资产的企业带来了安全挑战。
4/21/2025 4:39:09 PM

谷歌发布 Gemma 3 QAT 模型:一张3090显卡也能轻松驾驭

谷歌近期推出了 Gemma3系列的全新版本,这一消息让众多 AI 爱好者为之振奋。 仅在上线一个月后,谷歌便发布了经过量化感知训练(QAT)优化的 Gemma3,旨在显著降低内存需求的同时,保持模型的高质量。 具体来说,经过 QAT 优化的 Gemma327B 模型,其显存需求从54GB 大幅降低到14.1GB,意味着用户现在可以在 NVIDIA RTX3090等消费级 GPU 上本地运行这一大型模型。
4/21/2025 1:00:37 PM
AI在线

打破LLM的语境障碍:InfiniRetri vs RAG

译者 | 晶颜审校 | 重楼大型语言模型(LLM)正在重塑人工智能的格局,然其亦面临一项持续性挑战——检索和利用超出其训练数据的信息。 目前,有两种模式相左的方法可以解决这个问题:其一为InfiniRetri,该方法借助LLM自身的注意力机制,从长输入中检索相关上下文;其二是检索增强生成(RAG),它在生成响应前,动态地从结构化数据库获取外部知识。 每种方法都有其独特的优势、局限性和权衡之处。
4/21/2025 8:11:09 AM
晶颜

对 ChatGPT 说“谢谢”,竟给 OpenAI 带来“数千万美元”开销

OpenAI CEO透露,仅仅是用户与AI进行的日常寒暄和礼貌性交流,例如“谢谢”和“请”等,就给公司带来了“数千万美元”的开销。#AI成本# #人机互动#
4/20/2025 11:36:07 AM
远洋

别再只玩ChatGPT了!OpenAI悄悄发布《构建 Agent 实战指南》 手把手教你打造智能体

OpenAI 最近悄悄发布了一份 《构建 Agent 实战指南》 (A practical guide to building agents),简直就是一份“AI 打工人”的养成手册!今天,老司机我就带你用最接地气、最有趣的方式,把这份官方秘籍给你扒个底朝天,让你也能轻松 Get 打造专属 AI Agent 的精髓!准备好了吗?发车!等等,Agent 到底是个啥玩意儿?跟普通软件有啥不一样?咱们先搞清楚,Agent 不是你手机里那些按部就班执行命令的 App,也不是只会简单聊天的机器人。 OpenAI 给它下了个定义:Agent 是能独立自主地、代表你完成特定任务的系统。 划重点:独立自主!想想你平时用的软件,比如订票 App,你得一步步告诉它去哪儿、啥时候、坐啥舱位,它才给你结果。
4/18/2025 3:00:39 PM
AI在线

​OpenAI 发布“智能体构建实战指南”实用性文档(附文档资源)

人工智能领域领军企业 OpenAI 近日重磅发布了一份名为“构建智能体实践指南”("A practical guide to building agents")的实用性文档。 这份共34页的指南旨在为产品和工程团队提供构建首个智能体系统的必要知识和最佳实践,其内容凝结了 OpenAI 从众多客户实际部署案例中获得的深刻洞察。 通过阅读本指南,开发者将能够理解智能体的核心概念,掌握何时以及如何设计、构建和安全部署智能体。
4/18/2025 12:02:38 PM
AI在线

当智能体失控时,企业将遭受重创

在采访中,AutoRABIT的CTO Jason Lord探讨了将智能体集成到现实世界中的系统所带来的网络安全风险。 诸如幻觉、提示注入和嵌入式偏见等问题可能会使这些系统成为易受攻击的目标。 Lord呼吁进行监督、持续监控和人为介入循环控制以应对这些威胁。
4/18/2025 11:22:57 AM
Mirko Zorz

微软推出新型语言模型 BitNet b1.58 2B4T,仅占用0.4GB内存

近日,微软研究团队正式发布了一款名为 BitNet b1.582B4T 的开源大型语言模型。 这款模型拥有20亿参数,采用了独特的1.58位低精度架构进行原生训练,与传统的训练后量化方式相比,BitNet 在计算资源的需求上有了显著的降低。 根据微软的介绍,该模型在非嵌入内存占用方面仅为0.4GB,远低于市场上其他同类产品,如 Gemma-31B 的1.4GB 和 MiniCPM2B 的4.8GB。
4/18/2025 10:01:28 AM
AI在线

亚洲崛起:DeepSeek、巨额投资与数据中心助力 AI 竞争力

在今年的达沃斯世界经济论坛上,众多商界和政界领袖齐聚一堂,普遍认为美国科技巨头在人工智能(AI)领域占据主导地位,而中国乃至整个亚洲似乎都在这一赛道上滞后。 然而,在与会者离开后,这种看法开始遭遇挑战。 首先,来自中国的一家名不见经传的对冲基金 —— 深度寻求(DeepSeek)在这一时刻引发了全球的注意。
4/18/2025 10:01:28 AM
AI在线

​Gartner报告显示:2027年,任务特定AI将超越通用AI

近日,Gartner 发布了一份新报告,指出到2027年,企业将使用任务特定的人工智能模型的频率是通用大型语言模型的三倍。 报告中提到,虽然通用的语言模型在语言处理方面具有强大的能力,但在需要深入理解特定业务领域的任务中,它们的响应准确性却会下降。 因此,越来越多的企业开始关注定制化的 AI 模型,以满足其特定需求。
4/17/2025 12:01:15 PM
AI在线

从黑箱到透明工厂:Anthropic用回路追踪技术给LLM装上思维监控屏​

译者 | 朱先忠审校 | 重楼引言多年来,基于Transformer的大型语言模型(LLM)在从简单的信息检索系统到能够进行编码、写作、开展研究的复杂智能体等一系列任务上取得了长足的进步。 然而,尽管这些模型功能强大,但它们在很大程度上仍然是黑匣子。 给定输入,它们可以完成任务,但我们缺乏直观的方法来理解任务的具体完成方式。
4/16/2025 8:05:00 AM
朱先忠

软件包幻觉:LLM可能会向粗心的开发人员提供恶意代码

大型语言模型倾向于“虚构”不存在的代码包,这可能会成为一种新型供应链攻击的基础,这种攻击被赛斯·拉森(Seth Larson,Python软件基金会的驻场安全开发人员)称为“slopsquatting”。 一种已知现象如今,许多软件开发人员使用大型语言模型(LLM)来辅助编程,然而,不幸的是,LLM在回答各种话题的问题时,会编造事实并自信地呈现出来,这一已知倾向也延伸到了编码领域。 这种情况已为人所知一段时间了。
4/16/2025 7:02:00 AM
Zeljka

隐藏在AI工作流程中的悄无声息的数据泄露

随着AI日益融入日常业务流程,数据泄露的风险也随之增加。 Prompt泄露并非罕见个例,而是员工使用大型语言模型时的自然结果。 CISO不能将其视为次要问题。
4/16/2025 7:00:00 AM
Mirko

智谱全新站点 http://z.ai 正式启用

北京智谱华章科技有限公司(以下简称智谱)全新官方网站 已全面上线。 据 AIbase 了解,该平台集成了最新的对话、推理与沉思三款 GLM 模型,自今日起全面向全球用户免费开放使用。
4/15/2025 10:01:32 AM
AI在线

​THUDM 发布 GLM 4:32 亿参数模型与 GPT-4o 和 DeepSeek-V3 正面竞争

在快速发展的语言模型领域,研究人员和组织面临着诸多挑战。 这些挑战包括提升推理能力、提供强大的多语言支持以及有效管理复杂的开放任务。 尽管较小的模型通常更容易获得且成本较低,但在性能上往往不及更大的模型。
4/15/2025 10:01:31 AM
AI在线