AI在线 AI在线

大语言模型

通义实验室、北大发布新技术ZeroSearch 让LLM检索能力激活,成本降低88%

最近,通义实验室和北京大学的研究团队推出了一项名为 ZeroSearch 的创新框架,这一新技术可以在不需要真实搜索的情况下,激活大语言模型的检索能力,并且训练成本降低了惊人的88%。 这一突破为大语言模型的训练和应用提供了全新的思路。 传统的训练方法通常依赖于真实的搜索引擎来获取信息,这不仅造成了高昂的 API 调用成本,还可能因搜索结果的质量不稳定而影响模型的表现。
5/29/2025 2:00:56 PM
AI在线

谷歌放大招!LMEval开源评测框架上线,AI模型比拼从此更透明

近日,谷歌正式发布了开源框架 LMEval,旨在为大语言模型(LLM)和多模态模型提供标准化的评测工具。 这一框架的推出,不仅简化了跨平台模型性能比较,还支持文本、图像和代码等多领域的评估,展现了谷歌在AI评测领域的最新突破。 AIbase为您整理了LMEval的最新动态及其对AI行业的影响。
5/29/2025 12:01:03 PM
AI在线

新神器LocAgent发布,代码定位准确率高达92.7%,程序员的福音!

程序员们又有新工具可以欢呼了!由 OpenHands、耶鲁大学、南加州大学和斯坦福大学的研究团队联手推出的 LocAgent,正是一个专门为代码定位而设计的图索引大语言模型(LLM)代理框架。 令人振奋的是,LocAgent 的代码定位准确率达到了92.7%,这一新高度将在2025年 ACL 会议上正式亮相。 程序员在工作中常常会遇到难以定位代码问题的困扰。
5/29/2025 10:01:21 AM
AI在线

正式开源!DeepSeek-R1-0528震撼发布,性能直逼OpenAI o3,免费API已上线

近日,AI领域迎来重磅消息!中国AI初创公司DeepSeek正式发布了其开源大语言模型 DeepSeek-R1-0528的最新版本。 这一更新不仅在性能上实现了重大突破,还通过免费API的提供进一步推动了AI技术的普及与应用。 以下,AIbase将为您详细解析此次更新的亮点与意义。
5/29/2025 10:01:21 AM
AI在线

快速理解热门 LLM 大语言模型

作者 | masonpy本文尽量用最简单的方式, 帮读者理解 LLM,Transformer, Prompt, Function calling, MCP, Agent, A2A 等这些基本概念。 表述时不追求绝对准确,尽量通俗易懂,部分内容有个人理解的成份,内容难免疏漏, 欢迎指正。 注意:本文需要你有基本的代码阅读能力,当然非开发阅读也不会很困难。
5/29/2025 8:30:00 AM
腾讯技术工程

北大团队首次系统性评估大语言模型心理特征,推动AI评估新标准

在人工智能迅猛发展的今天,大语言模型(LLM)展现出了超凡的能力,但如何科学评估它们的 “心智” 特征,比如价值观、性格和社交智能,依旧是一个亟待解决的难题。 近期,北京大学的宋国杰教授团队发布了一篇全面的综述论文,系统梳理了大语言模型心理测量学的研究进展,为 AI 的评估提供了新视角。 这篇论文名为《大语言模型心理测量学:评估、验证与增强的系统综述》,长达63页,引用了500篇相关文献。
5/27/2025 4:01:00 PM
AI在线

字节跳动 AdaCoT:基于强化学习的自适应推理触发方法(万字)

大家好,我是肆〇柒。 在当下,大型语言模型(LLM)凭借其强大的语言理解和生成能力,在众多领域展现出了巨大的潜力。 然而,尽管 LLM 在处理常规任务时表现出色,但在面对复杂推理任务时,却常常暴露出明显的短板。
5/26/2025 5:16:51 PM
肆零柒

大语言模型究竟为何会在对话中“迷失”​

译者 | 张哲刚审校 | 重楼微软研究院和 Salesforce的一篇新论文发现,即使是功能最强大的大型语言模型,如果面临的指令是分阶段而非一次性给出,往往也会表现不佳。 该文作者运行六项任务进行研究,最终发现:当提示被拆分成多个回合时,大语言模型的性能平均下降了39%。 单轮次对话(左图)可获得最佳结果,但对最终用户而言显得并不自然。
5/23/2025 8:18:52 AM
张哲刚

进化智能体 AlphaEvolve:科学发现与算法优化的新引擎

大家好,我是肆〇柒。 今天,我们来聊一个非常有趣且前沿的Agent技术——AlphaEvolve。 这是一个由 Google DeepMind 开发的进化型编码智能体,它通过结合大型语言模型(LLM)和进化算法,为科学发现和算法优化带来了另外一种可能性。
5/23/2025 3:00:00 AM
肆零柒

苹果研究破解 AI“英语口音”难题,提升多语言自然性

为了缩小差距,研究人员通过“ 回译法”自动生成训练样本,将人工撰写的流畅中文内容先翻译成英文,再逆向翻译成带有 "翻译腔" 的“反面”样本。利用这类对比数据训练模型加强自然表达能力,在保持基准性能的前提下显著改善语言输出质量。
5/17/2025 6:42:15 AM
问舟

HippoRAG:基于海马体记忆索引理论的知识密集型任务新突破

在自然语言处理领域,大语言模型(LLMs)已经取得了令人瞩目的成就。 然而,当面对知识密集型任务时,例如科学文献综述、法律案件简报或医疗诊断,这些模型往往显得力不从心。 它们难以有效地整合新的或特定领域的知识,而现有的检索增强生成(RAG)方法也因无法满足复杂的跨段落或文档的知识整合需求而受到限制。
5/13/2025 1:00:00 AM
Goldma

如何估算大语言模型LLM 的 GPU 内存:用于本地运行 LLM 的 GPU 内存

随着 DeepSeek、GPT、Llama、Mistral 等大规模 LLM 的兴起,AI 从业者面临的最大挑战之一是确定需要多少 GPU 内存才能高效地服务于这些模型。 GPU 资源昂贵且稀缺,因此优化内存分配至关重要。 本指南将引导您使用一个简单而有效的公式来估算服务 LLM 所需的 GPU 内存。
5/9/2025 1:00:00 AM
晓晓

模型越新幻觉越重!AI幻觉扣住产业发展命脉

自诞生以来,人工智能大模型始终被“幻觉”问题困扰。 这里的“幻觉”,指的是大语言模型会将虚构信息当作真实事实输出。 实际上,“幻觉”这一表述相当委婉,它实则暴露出AI的核心缺陷——当前的大语言模型尚未达到真正意义上的智能水平。
5/8/2025 6:00:00 AM
小刀

Gemini 2.5 Pro再更新!编程能力屠榜!一句话、一张草图变应用

出品 | 51CTO技术栈(微信号:blog51cto)AI 编码模型的新王者登基了! 今天,Google 旗下的 DeepMind AI 研究部门正式发布了 Gemini 2.5 Pro “I/O” 版,这是今年 3 月推出的 Gemini 2.5 Pro 多模态大语言模型(LLM)的更新版本。 DeepMind CEO Demis Hassabis 在 X 上表示:“这是我们迄今为止打造的最佳编码模型!
5/7/2025 10:09:08 AM

SmallRye大模型简介:使用Langchain4J轻松向应用内引入AI服务

译者 | 核子可乐审校 | 重楼Langchain4J解决了哪些问题? Langchain4J 本质上是为 Java 开发者打造的工具箱,旨在简化向高级语言中集成 AI 功能(如聊天机器人或文本生成器)的过程,同时屏蔽底层复杂细节。 想象一下:我们想要构建一个能回答问题、生成内容或模拟人类对话的智能应用。
5/7/2025 8:14:58 AM
核子可乐

智谱与生数科技达成战略合作 专注大模型联合创新

4月27日,清华大学旗下的两家明星人工智能公司智谱(Z.ai)和生数科技(shengshu.com)宣布达成重大战略合作。 此次合作旨在通过双方在大语言模型和多模态生成模型的技术积累与优势,共同推进国产大模型的技术创新与产业落地。 智谱和生数科技的合作涵盖了联合研发、产品联动、解决方案整合以及行业协同等多个方面。
4/27/2025 3:00:38 PM
AI在线

通付盾CRM智能体“招财猫”,AI Agent助力企业销售智能化

传统CRM系统因数据分散、销售人员难以管理、客户隐私数据担忧、缺乏智能分析等痛点,很难满足企业高效管理客户关系与提升业务绩效的需求。 大语言模型和Agent技术的蓬勃发展,让智能CRM时代真正到来,实现从线索获取到客户转化、项目管理及财务数据处理的全流程自动化,提升企业运营效率,创造增量价值。 通付盾CRM智能体“招财猫”—————————————————AI Agent助力企业销售智能化通付盾推出CRM智能体(CRM Agent),代号“招财猫(CAT)”,助力企业从销售线索到客户成单全程智能化。
4/27/2025 2:00:49 PM
AI在线

结构化提示词驱动开发实践

最近有幸参加了公司组织的关于AI实践的对外直播,我分享的内容是《结构化提示词驱动开发实践》。 现在将其记录成一篇博客,在此与大家分享我们团队在提示词驱动开发领域的一些实践与思考。 随着大语言模型的不断成熟,我们逐步认识到,如何高效运用结构化提示词,引导AI生成高质量代码,已成为提升软件开发效率与质量的关键所在。
4/27/2025 9:00:00 AM
Thoughtworks洞见