AI在线 AI在线

大型语言模型

Meta 团队研究发现:简化推理链条能显著提升 AI 准确率

Meta 团队研究发现:简化推理链条能显著提升 AI 准确率

近期,Meta 的 FAIR 团队与耶路撒冷希伯来大学的研究人员联合发布了一项新研究,表明减少大型语言模型的推理时间可以显著提高其在复杂推理任务中的表现。 研究结果显示,使用较短推理链的 AI 模型准确率提高了34.5%,这一发现对当前 AI 行业的假设提出了挑战。 图源备注:图片由AI生成,图片授权服务商Midjourney在这项研究中,作者指出,长时间的思考链条并不一定能够带来更好的推理能力,反而会导致计算资源的浪费。
5/29/2025 4:00:54 PM AI在线
AlphaEvolve: 谷歌DeepMind迈向通用人工智能(AGI)的突破性一步

AlphaEvolve: 谷歌DeepMind迈向通用人工智能(AGI)的突破性一步

译者 | 李睿审校 | 重楼谷歌DeepMind推出的AlphaEvolve旨在自主发现算法和科学解决方案。 它基于进化计算原理,通过LLM驱动的独立进化流程,不断优化代码。 AlphaEvolve不仅超越人类专家设计的算法,还在数学和谷歌基础设施优化上取得突破。
5/29/2025 8:19:49 AM 李睿
​Mistral 推出全新 Agents API:助力开发者构建智能 AI 代理

​Mistral 推出全新 Agents API:助力开发者构建智能 AI 代理

Mistral 公司近日发布了其全新的 Agents API,这是一个专为开发者设计的框架,旨在简化 AI 代理的创建,代理可以执行多种任务,例如运行 Python 代码、生成图像以及进行检索增强生成(RAG)。 这一 API 的推出,旨在为大型语言模型(LLMs)提供一个统一的环境,使其能够与多个工具和数据源以结构化且持久的方式进行交互。 Agents API 建立在 Mistral 的语言模型基础上,集成了多个内置连接器。
5/28/2025 10:01:01 AM AI在线
阿里突破性发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型,性能媲美Claude-3.7

阿里突破性发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型,性能媲美Claude-3.7

阿里巴巴今日正式发布QwenLong-L1-32B,这是一款专为长上下文推理设计的大型语言模型,标志着AI长文本处理能力的重大突破。 该模型在性能表现上超越了o3-mini和Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking达到相当水平。 技术创新亮点QwenLong-L1-32B最大的技术突破在于其是全球首个通过强化学习训练的长文本情境推理模型。
5/27/2025 10:01:20 AM AI在线
开创性扩散思维链:让人工智能更具创造力和灵活性

开创性扩散思维链:让人工智能更具创造力和灵活性

在近年来的人工智能研究中,思维链的概念越来越受到重视,尤其是在大型语言模型的训练和推理中。 最近,西湖大学 MAPLE 实验室的齐国君教授团队首次提出了一种新颖的 “扩散式发散思维链”,这是一种为扩散语言模型量身定制的全新推理方式。 传统的大型语言模型通常采用线性思维链,即通过逐步推理生成答案。
5/27/2025 10:01:20 AM AI在线
并行扩展(Parallel Scaling):一种新型语言模型扩展范式(万字)

并行扩展(Parallel Scaling):一种新型语言模型扩展范式(万字)

“ PARSCALE 作为一种新型的语言模型扩展范式,通过增加并行计算次数 P,在保持参数规模几乎不变的情况下,能够显著提升模型的推理能力。 ”大家好,我是肆〇柒。 今天,我们来聊一项可以改变语言模型性能的技术——PARSCALE(Parallel Scaling)。
5/22/2025 4:00:00 AM 肆零柒
新的自主式AI工具带来新的威胁:智能体泛滥

新的自主式AI工具带来新的威胁:智能体泛滥

你可能已经拥有一个用于开发和管理智能体的平台,甚至可能有两个或更多,这种智能体的泛滥使得智能体能够在企业的更多领域中运作,但也带来了更高的复杂性、增加了安全顾虑,并可能损害投资回报率。 在过去的一年里,供应商们一直在急于将智能体产品添加到他们的产品组合中。 微软、AWS、谷歌、IBM、Salesforce、ServiceNow、Workday和SAP都已经涉足这一领域,而数据管理软件提供商Informatica本周也承诺将在其智能数据管理云中添加智能体,以自动化数据处理流程。
5/20/2025 7:00:00 AM Anirban
体验Fellou AI,告别谷歌和ChatGPT

体验Fellou AI,告别谷歌和ChatGPT

译者 | 李睿审校 | 重楼网页搜索体验如今正在快速改进,用户无需浏览大量网页即可获取准确信息。 Fellou作为新的浏览代理工具,能够理解用户需求,自动搜索、创建报告、跨网站工作、安全登录私人网站,为用户节省时间,提升搜索体验。 回顾过去一年,人们浏览网页的方式发生了翻天覆地的变化。
5/16/2025 8:35:07 AM 李睿
即使最好的保障措施也无法阻止大语言模型被愚弄

即使最好的保障措施也无法阻止大语言模型被愚弄

在采访中,诺丁汉大学副教授Michael Pound分享了他对与大型语言模型(LLM)相关的网络安全风险的见解。 他讨论了CISO和安全团队在LLM使用方面存在的理解或准备上的最大差距,以及在将LLMs集成到业务运营中时保护敏感数据所需的预防措施。 你认为在LLM使用方面,CISO和安全团队在理解或准备上存在的最大差距是什么?许多安全专业人员——相当合理地——对LLM背后的机器学习原理并不精通。
5/12/2025 8:00:00 AM Mirko Zorz
大型语言模型参数高效微调技术详解(必看)

大型语言模型参数高效微调技术详解(必看)

随着Transformer架构的广泛应用,以GPT为代表的大型语言模型(LLM)在自然语言处理领域取得了突破性进展。 这些模型通过"预训练 微调"的范式,在下游任务中展现出强大的性能。 然而,随着模型参数规模从数亿增长到数百亿甚至万亿,全量参数微调(Full Fine-tuning)面临以下挑战:计算资源瓶颈:全量微调需要消耗大量的计算资源和内存存储成本高昂:为每个下游任务单独存储微调模型成本巨大灾难性遗忘:全量微调易导致模型"遗忘"预训练阶段获得的知识过拟合风险:尤其在训练数据有限的情况下,全量微调易出现过拟合基于上述考量,参数高效微调技术(Parameter-Efficient Fine-Tuning, PEFT)应运而生。
5/8/2025 5:00:00 AM 口袋数据
GPT-4.1 模型遭遇质疑:对齐性和稳定性引发关注

GPT-4.1 模型遭遇质疑:对齐性和稳定性引发关注

近日,OpenAI 推出了其新一代人工智能模型 ——GPT-4.1,声称在遵循用户指令方面表现优异。 然而,令人意外的是,多项独立测试的结果显示,GPT-4.1的对齐性和稳定性较之前的版本有所下降,尤其是在处理敏感话题时的表现不尽如人意。 牛津大学的研究科学家 Owain Evans 指出,经过不安全代码微调的 GPT-4.1在应对性别角色等敏感问题时,给出的回应存在更高的不一致性,这一现象在其前代模型 GPT-4o 中并不明显。
4/24/2025 9:00:53 AM AI在线
MCP vs Function Calling,该如何选?

MCP vs Function Calling,该如何选?

Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景落地 - 如何为 LLM 集成选择合适的策略? 众所周知,大型语言模型(LLMs)已经彻底改变了企业自动化、客户交互以及决策制定的方式,其强大的语言生成能力为各行业带来了前所未有的机遇。 然而,要充分发挥 LLMs 的潜力,仅仅部署一个预训练模型是远远不够的。
4/22/2025 9:17:41 AM Luga Lee
谷歌新型 AI 系统在复杂诊断中表现超越医生

谷歌新型 AI 系统在复杂诊断中表现超越医生

译者 | 刘汪洋审校 | 重楼最近,《自然》杂志上的一篇新论文引发了关注。 它展示了谷歌如何用 AI 改变医疗的未来:通过自动化技术降低成本、减轻医生负担,使他们能够将更多精力投入到复杂病例的处理中。 当你带着疑难杂症就医时,自然希望得到准确的诊断。
4/22/2025 8:13:39 AM 刘汪洋
AI工具的广泛使用标志着恶意机器人活动的新时代

AI工具的广泛使用标志着恶意机器人活动的新时代

据Thales称,易于获取的AI工具的增多显著降低了网络攻击者的入门门槛,使他们能够大规模创建和部署恶意机器人。 十年来,自动化机器人流量首次超过人类产生的流量,在2024年构成所有网络流量的51%,这一转变在很大程度上归因于AI和大型语言模型(LLM)的兴起,它们简化了用于恶意目的的机器人的创建和扩展。 随着AI工具变得越来越容易获取,网络犯罪分子越来越多地利用这些技术来创建和部署恶意机器人,这些机器人现在占所有互联网流量的37%,较2023年的32%有显著增长,这是恶意机器人活动连续第六年增长,给致力于保护其数字资产的企业带来了安全挑战。
4/21/2025 4:39:09 PM
谷歌发布 Gemma 3 QAT 模型:一张3090显卡也能轻松驾驭

谷歌发布 Gemma 3 QAT 模型:一张3090显卡也能轻松驾驭

谷歌近期推出了 Gemma3系列的全新版本,这一消息让众多 AI 爱好者为之振奋。 仅在上线一个月后,谷歌便发布了经过量化感知训练(QAT)优化的 Gemma3,旨在显著降低内存需求的同时,保持模型的高质量。 具体来说,经过 QAT 优化的 Gemma327B 模型,其显存需求从54GB 大幅降低到14.1GB,意味着用户现在可以在 NVIDIA RTX3090等消费级 GPU 上本地运行这一大型模型。
4/21/2025 1:00:37 PM AI在线
打破LLM的语境障碍:InfiniRetri vs RAG

打破LLM的语境障碍:InfiniRetri vs RAG

译者 | 晶颜审校 | 重楼大型语言模型(LLM)正在重塑人工智能的格局,然其亦面临一项持续性挑战——检索和利用超出其训练数据的信息。 目前,有两种模式相左的方法可以解决这个问题:其一为InfiniRetri,该方法借助LLM自身的注意力机制,从长输入中检索相关上下文;其二是检索增强生成(RAG),它在生成响应前,动态地从结构化数据库获取外部知识。 每种方法都有其独特的优势、局限性和权衡之处。
4/21/2025 8:11:09 AM 晶颜
对 ChatGPT 说“谢谢”,竟给 OpenAI 带来“数千万美元”开销

对 ChatGPT 说“谢谢”,竟给 OpenAI 带来“数千万美元”开销

OpenAI CEO透露,仅仅是用户与AI进行的日常寒暄和礼貌性交流,例如“谢谢”和“请”等,就给公司带来了“数千万美元”的开销。#AI成本# #人机互动#
4/20/2025 11:36:07 AM 远洋
别再只玩ChatGPT了!OpenAI悄悄发布《构建 Agent 实战指南》 手把手教你打造智能体

别再只玩ChatGPT了!OpenAI悄悄发布《构建 Agent 实战指南》 手把手教你打造智能体

OpenAI 最近悄悄发布了一份 《构建 Agent 实战指南》 (A practical guide to building agents),简直就是一份“AI 打工人”的养成手册!今天,老司机我就带你用最接地气、最有趣的方式,把这份官方秘籍给你扒个底朝天,让你也能轻松 Get 打造专属 AI Agent 的精髓!准备好了吗?发车!等等,Agent 到底是个啥玩意儿?跟普通软件有啥不一样?咱们先搞清楚,Agent 不是你手机里那些按部就班执行命令的 App,也不是只会简单聊天的机器人。 OpenAI 给它下了个定义:Agent 是能独立自主地、代表你完成特定任务的系统。 划重点:独立自主!想想你平时用的软件,比如订票 App,你得一步步告诉它去哪儿、啥时候、坐啥舱位,它才给你结果。
4/18/2025 3:00:39 PM AI在线