神经网络
Lora微调实操教程(上):人话版概念详解(附案例)
知识星球中,上个月有个关于让 LLM 学习公司内部业务和产品逻辑中,微调、RAG、提示词三者效果对比的提问。 我当时给出了一个经典的客服场景数据集构建示例,鉴于后续又陆续有人评论和私信来问,从这篇开始,专门写两篇内容来做个粗浅的分享。 之所以要分两篇内容,我想还是在做具体的微调案例演示前,把一些基本概念尽可能的讲清楚,这样感兴趣的话在复现下期案例和二开时,能够在自己的业务场景下对参数调优更有的放矢些。
7/11/2025 10:31:11 AM
韦东东
当我们谈激活函数时,我们在谈什么?—— 从梯度消失到 ReLU 革命神经网络非线性的秘诀
激活函数本质上是神经网络的“秘密武器”,它使神经网络能够学习复杂的模式,并对现实世界中普遍存在的非线性关系进行建模。 但这些函数究竟是什么,为什么它们如此重要呢? 更重要的是,它们从何而来?
7/2/2025 7:30:13 AM
柏企阅文
神经网络的泛化能力:数学分析与提升策略
从图像识别到语音处理,从自然语言理解到复杂系统的预测,神经网络的应用无处不在。 然而,一个关键问题始终困扰着研究人员和实践者:神经网络的泛化能力。 泛化能力决定了神经网络在面对新的、未见过的数据时,能否准确地进行预测和决策。
6/30/2025 2:44:00 AM
Fairy Girl
ICML 2025 Oral | NAS老树开新花,NUS提出智能体超网,成本狂降55%
本文第一作者为张桂彬,新加坡国立大学25Fall计算机科学博士生;本文在南洋理工大学的王琨博士、上海人工智能实验室的白磊老师、和中国科学技术大学的王翔教授指导下完成。 LLM 智能体的时代,单个 Agent 的能力已到瓶颈,组建像 “智能体天团” 一样的多智能体系统已经见证了广泛的成功。 但 “天团” 不是人越多越好,手动设计既费力又不讨好,现有的智能体自动化方法又只会 “一招鲜”,拿一套复杂阵容应对所有问题,导致 “杀鸡用牛刀”,成本高昂。
6/23/2025 8:57:00 AM
告别 RAG 还太早?听听 Anthropic 怎么说
你有没有向你的RAG系统问过一个具体问题,却得到一个令人沮丧的模糊答案? 你并不孤单。 以下是一个巧妙的改进方法如何改变游戏规则。
6/10/2025 2:44:00 AM
AI研究生
微信自研高性能推理计算引擎 XNet-DNN:跨平台 GPU 部署大语言模型及优化实践
作者 | yannicXNet-DNN 是微信高性能计算团队自主研发的一款全平台神经网络推理引擎。 我们在 XNet 的 RCI 基础设施之上构建了全平台的 GPU LLM . 推理能力。
6/3/2025 9:25:00 AM
腾讯技术工程
机器学习轻量化加速的五大核心技术突破
译者 | 朱先忠审校 | 重楼简介无论你是在准备面试,还是在工作中构建机器学习系统,模型压缩都已成为一项必备技能。 在大语言模型(LLM)时代,模型规模越来越大,如何压缩这些模型以使其更高效、更小巧、更易于在轻量级机器上使用,这一挑战从未如此严峻。 在本文中,我将介绍每位机器学习从业者都应该理解和掌握的四种基本压缩技术。
6/3/2025 8:45:25 AM
朱先忠
RAG中基于图的重排序:利用图神经网络革新信息检索(含代码)
一、信息检索的演进与图重排序的崛起在大数据与人工智能技术爆发的时代,信息检索(IR)系统面临着前所未有的挑战:用户查询日益复杂,跨领域知识需求激增,传统基于词法匹配或单一语义向量的检索模型逐渐暴露局限性。 两阶段检索架构——初始检索与重排序——虽已成为主流,但第一阶段的快速检索常因忽略文档间关联而引入噪声,第二阶段的传统重排序器(如交叉编码器)又难以捕捉结构化知识与全局语义关系。 在此背景下,基于图的重排序(Graph-Based Re-ranking)技术应运而生,通过图神经网络(GNN)建模文档、实体与查询间的复杂关系,为信息检索领域注入了全新的活力。
6/3/2025 2:11:00 AM
大模型之路
打破Transformer霸权!液态神经网络统治风电预测!
一眼概览该论文提出一种受生物神经系统启发的Liquid Neural Network(LNN)框架,首次将其应用于风电多时间尺度预测任务,并在多个数据集上显著优于LSTM、GRU等主流方法。 核心问题风电预测面临高度不确定性和非线性动态问题,传统深度学习方法如LSTM、GRU虽有成效,但缺乏解释性和泛化能力。 该研究致力于解决如何在多时间尺度、不同分辨率和变量数下,准确且透明地预测风电输出的问题。
5/9/2025 8:48:06 AM
萍哥学AI
突破瓶颈,嵌入式AI神经持续学习引擎—Replay4NCL
阿联酋大学、纽约大学阿布扎比分校以及巴基斯坦国立科技大学的研究人员,联合推出了一种高效内存重放方法Replay4NCL,以解决嵌入式 AI 系统在动态环境中持续学习的难题。 值得一提的是,该研究成果已经被第62届设计自动化大会(DAC)审核通过,会在2025年6月在旧金山举办的大会上展示。 随着AI技术的快速迭代发展,嵌入式 AI 系统在各种应用场景中扮演着越来越重要的角色,例如,移动机器人、无人驾驶、无人机等。
5/6/2025 10:13:41 AM
AIGC开放社区
AAAI2025 | 频域+注意力双加持!SNN性能飙升33%,刷新多项SOTA纪录!
一眼概览FSTA-SNN 提出了一种频域驱动的时空注意力模块(FSTA),显著提升脉冲神经网络(SNN)的特征学习能力与能效,在多个数据集上实现了更优性能和更低的脉冲发放率。 核心问题当前 SNN 在信息稀疏表示方面虽具能效优势,但其中间脉冲输出存在冗余且缺乏系统分析,导致特征提取能力受限、性能不稳定。 论文核心关注的问题是:如何在不增加能耗的前提下,抑制冗余脉冲、增强关键特征提取能力,从而提升 SNN 的整体性能与鲁棒性。
4/28/2025 3:45:00 AM
萍哥学AI
SLAM3R:北大陈宝权团队等只用单目长视频就能实时重建高质量的三维稠密点云
北京大学陈宝权团队和香港大学等高校及业界机构联合推出实时三维重建系统 SLAM3R,首次实现从长视频(单目 RGB 序列)中实时且高质量地重建场景的稠密点云。 SLAM3R 使用消费级显卡(如 4090D)即可达到 20 FPS 的性能,重建点云的准确度和完整度达到当前最先进水平,同时兼顾了运行效率和重建质量。 该研究成果被 CVPR 2025 接收为 Highlight 论文,并在第四届中国三维视觉大会(China3DV 2025)上被评选为年度最佳论文,合作者为董思言博士(共同一作)、王书哲博士、尹英达博士、杨言超助理教授和樊庆楠博士,第一作者为北京大学本科生刘宇政。
4/24/2025 9:44:05 AM
机器之心
用任务向量做模型编辑为何有效?这篇ICLR 2025 Oral论文给出了理论分析
本文作者李宏康,博士毕业于美国伦斯勒理工大学,本科毕业于中国科学技术大学,并即将前往宾夕法尼亚大学担任博士后研究员。 研究方向包括深度学习理论、大语言模型理论等等。 本文的通讯作者为伦斯勒理工大学的汪孟教授。
4/22/2025 9:40:00 AM
机器之心
MIT惊人神作:AI独立提出哈密顿物理!0先验知识,一天破译人类百年理论
充满想象力的MIT大牛团队,又有新作了! 大佬Max Tegmark、Ziming Liu等人在一项新研究中发现,AI能够在没有任何先验知识的情况下,能够完全独立地提出哈密顿物理量。 论文地址:,这里的AI是LNN,而非LLM。
4/16/2025 3:28:01 PM
新智元
人类一生所学不过4GB,加州理工顶刊新研究引热议
24小时不间断学习且不遗忘,一辈子也只有4GB的“知识储量”? 科学家们最新研究,计算出了人类学习积累上限,就这么多~~(甚至还不如一块U盘能装)。 这是来自Cell旗下神经科学顶刊Neuron上的一项工作,它提出了一个发人深省的悖论:人类信息处理速度仅为每秒10bit,而我们的感官系统却能以每秒10亿bit的速率收集数据。
4/14/2025 9:10:00 AM
量子位
算法不重要,AI的下一个范式突破,「解锁」新数据源才是关键
众所周知,人工智能在过去十五年里取得了令人难以置信的进步,尤其是在最近五年。 回顾一下人工智能的「四大发明」吧:深度神经网络→Transformer 语言模型→RLHF→推理,基本概括了 AI 领域发生的一切。 我们有了深度神经网络(主要是图像识别系统),然后是文本分类器,然后是聊天机器人,现在我们又有了推理模型。
4/12/2025 3:57:00 PM
机器之心
解码衰老时钟:深度学习揭示大脑衰老速度与认知功能衰退的关联
编辑 | 2049人脑的衰老速度与认知衰退、神经退行性疾病风险密切相关。 然而,传统脑龄(Brain Age,BA)模型仅能反映从出生到检测时间点的累积衰老效应,无法捕捉近期或动态的衰老速率。 这一问题在阿尔茨海默病(AD)等神经退行性病变的早期预警中尤为突出。
3/26/2025 2:11:00 PM
ScienceAI
驯服AI,更懂物理!何恺明团队提出全新DHN「去噪哈密顿网络」
近日,何恺明团队提出了去噪哈密顿网络(Denoising Hamiltonian Network,DHN),就像给物理知识开了挂。 传统的机器学习方法虽然能处理一些简单的物理关系,但面对复杂的物理系统时,却显得力不从心。 来自MIT、斯坦福、西北大学等的研究者将哈密顿力学算子推广到神经网络中,不仅能捕捉非局部时间关系,还能通过去噪机制减轻数值积分误差。
3/17/2025 8:20:00 AM
新智元
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
开源
智能
Meta
微软
GPT
学习
图像
技术
Gemini
AI创作
马斯克
论文
Anthropic
代码
英伟达
算法
Stable Diffusion
智能体
训练
芯片
开发者
蛋白质
生成式
腾讯
苹果
AI新词
神经网络
3D
Claude
LLM
研究
生成
机器学习
计算
AI for Science
Sora
人形机器人
AI视频
xAI
AI设计
GPU
华为
百度
搜索
大语言模型
Agent
场景
字节跳动
预测
大型语言模型
深度学习
伟达
工具
Transformer
视觉
RAG
具身智能
神器推荐
亚马逊
Copilot
模态
AGI
LLaMA
文本
算力
驾驶