AI在线 AI在线

微调

越脏越安全?哈佛团队研究:10%毒性训练让大模型百毒不侵

最近,一项关于 4chan 的“毒性”实验颠覆了 AI 社区的集体直觉:        ——原来,适度地喂模型吃“毒”,反而能让它更容易“解毒”。 长期以来,大模型训练的默认路线是“干净数据优先”。 OpenAI、Anthropic、Google DeepMind 等公司,都花费巨资雇佣标注团队,把网络文本里的暴力、歧视、骚扰言论清洗得一干二净——因为没人愿意让自己的模型变成“种族主义诗人”或“厌女主义讲师”。
6/16/2025 3:00:00 AM

AgentCPM-GUI:强化微调(RFT)赋能的移动设备 GUI 智能体

大家好,我是肆〇柒。 当下,移动设备已成为人们日常生活与工作的核心交互枢纽。 从早起解锁手机查看消息,到工作时在各类应用间切换处理任务,图形用户界面(GUI)操作的高效性与智能性正深刻影响着我们的 productivity(生产力)与 accessibility(可访问性)。
6/13/2025 1:30:00 AM
肆零柒

RAG与微调,大语言模型的“大脑升级”,该选哪条路?(小白科普)

最近在做项目时,我发现有些甲方对RAG和模型微调分区的不太清楚,明明大语言模型(LLM)加挂RAG就可以解决的问题,却坚持要微调,但是具体沟通后发现,其实只是不太了解二者的实际用途。 其实,Retrieval-Augmented Generation (RAG) 和微调 (Fine-Tuning) 是两种最常用的LLM的“大脑升级”技术,虽然它们都能提升模型的性能,但工作原理和适用场景却大相径庭。 今天,我就来深入聊聊这两种技术,弄清楚在不同情况下,到底该选 RAG 还是微调。
5/21/2025 3:00:00 AM
贝塔街的万事屋

​谷歌 DeepMind 通过强化学习微调提升 AI 决策能力

近期,谷歌 DeepMind 团队与约翰・开普勒林茨大学 LIT AI 实验室合作,开展了一项关于人工智能语言模型的新研究。 他们采用了强化学习微调(RLFT)技术,旨在提升语言模型的决策能力。 这项研究的重点在于,通过思维链的强化训练,解决了模型在决策过程中存在的一些关键问题。
5/20/2025 6:00:45 PM
AI在线

理解 RAG 第九部分:针对 RAG 微调 LLM

在“理解 RAG”系列的前几篇文章中,我们重点探讨了检索增强生成的各个方面。 文章中,我们重点介绍了与大型语言模型 (LLM) 集成的检索器组件,该组件用于检索有意义且真实的上下文知识,从而提升 LLM 输入的质量,并最终提升其生成的输出响应。 具体来说,我们学习了如何管理传递给 LLM 的上下文长度、如何优化检索,以及如何利用向量数据库和索引策略来有效地检索知识。
5/20/2025 6:00:00 AM
晓晓

推理模型越来越强,大模型微调还有必要吗?

最近笔者在将大模型服务应用于实际业务系统时,首先一般习惯性用一些闭源api服务,花上几块钱快速测试下流程,然后在去分析下大模型效果。 如果通过几次调整Prompt或者超参数还是出现的bad cases比较多(比如输出结果的结构化有问题,输出结果不理想,在某些专业领域不同模型结果表现不一并且效果比较差),这个时候需要考虑下通过微调的方式来训练大模型。 现在的大模型推理能力越来越厉害,人们开始怀疑:我们还需要花时间和资源去微调大模型吗?
5/13/2025 5:11:00 AM
ChallengeHub

大型语言模型参数高效微调技术详解(必看)

随着Transformer架构的广泛应用,以GPT为代表的大型语言模型(LLM)在自然语言处理领域取得了突破性进展。 这些模型通过"预训练 微调"的范式,在下游任务中展现出强大的性能。 然而,随着模型参数规模从数亿增长到数百亿甚至万亿,全量参数微调(Full Fine-tuning)面临以下挑战:计算资源瓶颈:全量微调需要消耗大量的计算资源和内存存储成本高昂:为每个下游任务单独存储微调模型成本巨大灾难性遗忘:全量微调易导致模型"遗忘"预训练阶段获得的知识过拟合风险:尤其在训练数据有限的情况下,全量微调易出现过拟合基于上述考量,参数高效微调技术(Parameter-Efficient Fine-Tuning, PEFT)应运而生。
5/8/2025 5:00:00 AM
口袋数据

保姆级教程:零代码基础也能微调Qwen3,并本地部署

我将在本文介绍如何通过 unsloth 框架以 LoRA 的方法微调 Qwen3-14B 模型。 图片到目前还有很多小伙伴还不明白什么时候应该微调? 那么请看下图:图片接下来我们再看一下本文使用的 LoRA 微调方法的优势:图片LoRA(Low-Rank Adaptation of Large Language Models,大型语言模型的低秩自适应)是一种流行的轻量级训练技术,可以显著减少可训练参数的数量。
5/6/2025 1:43:31 PM
南七无名式

DeepSeek定制训练:微调与推理技术应用

一. 前言介绍本文内容:模型加载与预处理:详细讲解如何加载预训练模型、分词器,并处理输入数据集。 LoRA配置:介绍如何使用LoRA技术配置模型,并高效进行微调,节省计算资源。
4/30/2025 9:19:32 AM

​WeClone项目亮相,微信聊天记录打造个性化数字分身

人工智能技术正以惊人速度改变我们的数字生活。 近日,AIbase注意到一个名为WeClone的开源项目在社交媒体上引发热议。 该项目通过分析用户的微信聊天记录,微调大语言模型,创建出高度个性化的数字分身,并可进一步部署为聊天机器人,为用户带来前所未有的交互体验。
4/14/2025 10:01:22 AM
AI在线

RAG还是微调?AI落地的关键选择

你是否曾经面临这样的困境:部门刚刚决定采用大语言模型解决业务痛点,但技术团队却陷入了"到底该用RAG还是微调"的激烈争论中? 一边是成本控制派,坚持RAG轻量级方案;另一边是性能至上派,认为只有微调才能满足业务需求。  让我们跳出技术视角,用真实业务场景来理解这两种方案。
4/9/2025 11:59:29 AM
大数据AI智能圈

SFT 指令微调数据如何构建?

SFT的重点是学习样式,而非知识注入,所以SFT的样本在于其质量而非数量,少量但精良的样本往往胜过大批中低品质的样本,实现同样甚至更优的微调效果。 通常情况下,2-10k数据就会有一个不错的效果。 这一理念在Meta发布的《LIMA: Less Is More for Alignment》论文中得到了有力阐述,该文献强调了在指令微调过程中,高品质微调数据的决定性作用。
3/25/2025 10:27:14 AM
Goldma

视觉语言指令微调数据如何构建?

1、构建策略视觉语言指令微调数据构建策略主要有以下两种:标注适配由于视觉模型的发展,已有规模巨大、多样性且高质量的标注数据。 这些数据适合于广泛的下游任务,并可容易地改造为指令数据。 许多工作将已有的标注数据转化为标准的指令数据格式。
3/21/2025 8:00:00 AM
Goldma

7B级形式化推理与验证小模型,媲美满血版DeepSeek-R1,全面开源!

研究团队构成:香港科技大学、中国科学院软件研究所、西安电子科技大学和重庆大学。 团队核心成员:香港科技大学的研究助理教授曹嘉伦,主要研究领域包括 AI&SE、人工智能测试、形式化验证等;中国科学院软件研究所副研究员陆垚杰,主要研究领域包括大语言模型及其应用。 随着 DeepSeek-R1 的流行与 AI4Math 研究的深入,大模型在辅助形式化证明写作方面的需求日益增长。
3/8/2025 3:46:00 PM
机器之心

终于把深度学习中的微调、提炼和迁移学习搞懂了!!!

大家好,我是小寒今天给大家分享深度学习中的三个重要知识点,微调、提炼和迁移学习在深度学习中,微调(Fine-tuning)、提炼(Distillation,即知识蒸馏)和迁移学习(Transfer Learning)是三种常见的模型优化技术,主要用于提高模型的泛化能力、减少训练时间以及优化资源利用率。 微调微调是指在一个已经训练好的模型(通常是预训练模型)的基础上,对部分或全部参数进行进一步训练,以适应特定的新任务。 通常,预训练模型是在大规模数据集(如ImageNet)上训练得到的,它能够学习到一些通用的特征。
3/3/2025 1:50:00 AM
程序员小寒

DeepSeek开源模型重塑法证审计,个人本地做RAG+微调,25年多试试

全球82亿人口,网民55.6亿,而ChatGPT坐拥3.5亿全球月活,渗透率算下来也有6%左右了。 但这还是DeepSeek-R1开源之前的故事。 1/20 开源以来,DeepSeek-R1属实又硬拉高了一大波全球 AI的渗透率,或者换句话说,是解锁了更多的应用场景。
2/21/2025 2:37:21 PM
韦东东

DARWIN 1.5 来啦!材料设计通用大语言模型,刷新多项实验性质预测记录

编辑丨Science AI材料发现和设计的核心目标是寻找理想的成分和结构,但传统方法,如高通量模拟和机器学习,通常依赖于复杂描述符,过于固定且难以通用,并且无法准确反映真实材料特性,因而限制了实际应用。 GreenDynamic 与来自澳大利亚新南威尔士大学(UNSW),上海人工智能实验室和香港城市大学的团队共同开发了一款名为 DARWIN 1.5 的模型。 不同于传统机器学习方法,DARWIN 基于语言接口微调框架(LIFT,2022 NeurIPS, 本文共同作者),整合了 33 万科学问答和 22 个材料科学任务,为材料属性预测和发现提供了灵活统一的预训练模型,并且成功精准预测了上万种材料的性质数值。
1/27/2025 6:47:00 PM
ScienceAI

微调已死,强化微调万岁

编辑 | 言征 出品 | 51CTO技术栈(微信号:blog51cto)OpenAI第二天的直播,奥特曼没有出镜,几位OpenAI的研究员带了一场AI模型的定制魔法秀! “这不是标准的微调......它利用强化学习算法,将我们从高级高中水平带到专家级博士水平。 ”1.12个样本,就能让定制o1超过满血o1标准的微调已经过时了,这次 OpenAI 打破了 AI 定制的界限。
12/10/2024 9:07:17 AM
言征