大语言模型
Differential Transformer: 通过差分注意力机制提升大语言模型性能
Transformer模型已经成为大语言模型(LLMs)的标准架构,但研究表明这些模型在准确检索关键信息方面仍面临挑战。 今天介绍一篇名叫Differential Transformer的论文,论文的作者观察到一个关键问题:传统Transformer模型倾向于过分关注不相关的上下文信息,这种"注意力噪声"会影响模型的性能。 在这篇论文中,作者注意到transformer模型倾向于关注不相关的上下文。
12/17/2024 2:39:16 PM
佚名
清华本科生获NeurIPS Math-AI 杰出论文奖:REBASE算法让小模型实现推理大突破
刚刚由清华大学本科生伍垟圳为一作的论文《推理Scaling Laws:面向语言模型问题求解的计算最优推理实证分析》在顶级AI学术会议NeurIPS 2024 Math-AI上荣获杰出论文奖(Outstanding Paper Award)。 这项研究不仅刷新了人们对推理阶段计算优化的理解,还为如何在有限计算资源下实现更高效的大语言模型(LLM)推理提供了全新的思路论文亮点:推理阶段的计算优化新突破1. 小模型也能打败大模型:重新定义推理阶段的效率论文系统性地研究了不同模型大小和推理策略在固定计算预算下的表现,发现小模型(如Llemma-7B)在结合高级推理算法后,能够实现比大模型(如Llemma-34B)更优的成本性能平衡。
12/17/2024 11:30:00 AM
AI寒武纪
如何在安卓手机上本地安装和运行LLM?
译者 | 布加迪审校 | 重楼了解如何将AI的力量径直带入到你的安卓手机上:没有云,没有互联网,只有纯粹的设备端智能! 在安卓手机上本地运行大语言模型(LLM)意味着你可以在不依赖云服务器或互联网连接的情况下访问人工智能(AI)模型。 这种本地环境通过确保数据安全、并在设备端来确保隐私。
12/12/2024 8:26:50 AM
布加迪
ORCA:基于持续批处理的LLM推理性能优化技术详解
大语言模型(LLMs)推理过程中的批处理优化面临显著挑战,这主要源于其推理过程的迭代特性。 核心问题在于批处理中的各个请求完成时间存在差异,这导致资源释放和新请求整合的复杂性显著提高,特别是在处理不同完成阶段的请求时。 当批处理中序列的生成长度差异较大时,GPU资源利用率往往不够理想。
12/9/2024 1:40:26 PM
佚名
Hymba:结合注意力头和SSM头的创新型语言模型方案
近年来,大语言模型(LLM)在各个领域取得了显著成效。 但现有的Transformer架构存在计算复杂度高、内存消耗大等问题。 而状态空间模型(SSM)如Mamba虽然具有常数复杂度和优化的硬件性能,但在记忆回溯任务上表现较弱。
12/5/2024 4:19:14 PM
佚名
从本地部署到企业级服务:十种主流LLM推理框架的技术介绍与对比
大语言模型(Large Language Models, LLMs)的部署是一项具有技术挑战性的工作。 随着模型架构日益复杂,以及硬件需求不断提升,部署过程变得愈发复杂。 业界已经发展出多种解决方案,使LLM的部署和扩展变得更加便捷。
12/2/2024 2:41:00 PM
Gautam Chutani
将大语言模型集成到现有软件系统的完整指南
译者 | 布加迪审校 | 重楼随着最近应用迅速普及开来、人工智能(AI)得到广泛采用,大语言模型(LLM)已变得备受广大公司企业、开发人员和非开发人员的欢迎,因为它们为用户提供了诸多好处。 它们帮助开发人员调试代码并生成代码片段,还帮助澄清看似复杂的编程概念和任务,从而提高生产力。 只要用于训练的数据集涵盖主题,使用LLM的非开发人员就可以受益于对问题做出快速且定制的响应和答复。
12/2/2024 8:10:31 AM
布加迪
LLM破局泛化诊断难题,MSSP刊登北航PHM实验室健康管理大模型交叉研究
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。
11/28/2024 1:11:00 PM
机器之心
如何借助Cortex运行本地LLM
译者 | 布加迪审校 | 重楼AI行业正在经历一场转变,转向更小巧更高效的大语言模型(LLM),从而使用户能够在本地机器上运行模型,无需功能强大的服务器。 本教程将指导你借助Cortex运行本地LLM,着重介绍其独特的功能和易用性,使任何拥有标准硬件的人都可以享用AI。 注意:Cortex目前正在积极开发中,这可能会导致bug或某些功能无法正常运行。
11/27/2024 8:14:43 AM
布加迪
Salesforce 首席执行官:大语言模型可能已接近技术上限,AI 的未来是智能体
他认为人工智能的未来在于自主代理(即俗称的“AI智能体”),而不是目前用于训练 ChatGPT 等聊天机器人的大型语言模型(LLM)。
11/25/2024 9:29:55 AM
清源
多样任务真实数据,大模型在线购物基准Shopping MMLU开源|NeurIPS&KDD Cup 2024
谁是在线购物领域最强大模型? 也有评测基准了。 基于真实在线购物数据,电商巨头亚马逊终于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的能力与潜力。
11/20/2024 12:17:59 PM
Nature:「人类亲吻难题」难倒 LLM,所有大模型全部失败
Nature 上的一项研究,全面驳斥了 LLM (大语言模型)具有类人推理能力的说法。研究者设定的「人类亲吻难题」把 7 个大模型彻底绕晕。最终研究者表示,与其说 LLM 是科学理论,不如说它们更接近工具,比如广义导数。
11/16/2024 6:21:58 PM
清源
谷歌Gemini咒骂学生凸显AI失控风险
随着AI技术的迅猛发展,大语言模型应用(例如谷歌的Gemini和OpenAI的ChatGPT)已逐渐融入日常生活,帮助人们完成作业、解答各种问题。 然而,最近的一起事件再次引发了对AI模型潜在风险的广泛关注。 Gemini咒骂学生去死近日,一位Reddit学生用户分享了一段与Google聊天机器人Gemini的对话,令人不寒而栗。
11/15/2024 1:09:41 PM
佚名
SMoA: 基于稀疏混合架构的大语言模型协同优化框架
在大语言模型(LLM)快速发展的背景下,研究者们越来越关注如何通过多代理系统来增强模型性能。 传统的多代理方法虽然避免了大规模再训练的需求,但仍面临着计算效率和思维多样性的挑战。 本文提出的稀疏代理混合(Sparse Mixture-of-Agents, SMoA)框架,通过借鉴稀疏专家混合(Sparse Mixture-of-Experts, SMoE)的设计理念,有效解决了这些问题。
11/13/2024 2:37:30 PM
佚名
三款出色的无代码LLM应用程序构建神器
译者 | 布加迪审校 | 重楼通过轻松地挑选和丢弃组件并连接组件来构建LLM应用程序,比如矢量存储区、web搜索、存储内容和自定义提示等组件。 许多商业人士和非技术人士向我询问如何在缺乏技术知识的情况下构建AI应用程序。 我总是告诉他们,市面上有许多非代码解决方案,它们易于使用,可以帮助他们为公司中的任何人构建原型并部署解决方案。
11/8/2024 9:53:01 AM
布加迪
借助LLM实现模型选择和试验自动化
译者 | 布加迪审校 | 重楼大语言模型(LLM)已成为一种工具,从回答问题到生成任务列表,它们在许多方面简化了我们的工作。 如今个人和企业已经使用LLM来帮助完成工作。 代码生成和评估最近已经成为许多商业产品提供的重要功能,以帮助开发人员处理代码。
11/7/2024 8:03:10 AM
布加迪
AI Agent智能代理如何快速变现
AI Agent,即人工智能代理,是一种能够感知环境、进行自主理解、决策和执行动作的智能实体。 它基于大语言模型,能够通过独立思考、调用工具来逐步完成给定目标的计算机程序。 AI Agent的核心在于其自主性和自适应性,在特定任务或领域中能够自主地进行学习和改进。
11/5/2024 4:47:27 PM
天涯咫尺TGH
重大突破!AI首次发现内存安全漏洞
近日,谷歌宣布其大语言模型(LLM)项目“Big Sleep”成功发现了一个SQLite数据库引擎中的内存安全漏洞,这是人工智能首次在真实软件中发现可利用的内存安全漏洞(且该漏洞无法通过传统的模糊测试检测到)。 AI首次发现内存安全漏洞谷歌的“Project Naptime”项目旨在评估LLM在进攻性安全研究方面的能力,后来该项目演变为“Big Sleep”,由谷歌Project Zero和DeepMind团队共同参与。 Big Sleep项目致力于探索AI在发现软件漏洞中的潜力,特别关注高危漏洞的检测与利用。
11/5/2024 2:48:57 PM
佚名
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
科技
亚马逊
智能体
DeepMind
特斯拉