微调
越脏越安全?哈佛团队研究:10%毒性训练让大模型百毒不侵
最近,一项关于 4chan 的“毒性”实验颠覆了 AI 社区的集体直觉: ——原来,适度地喂模型吃“毒”,反而能让它更容易“解毒”。 长期以来,大模型训练的默认路线是“干净数据优先”。 OpenAI、Anthropic、Google DeepMind 等公司,都花费巨资雇佣标注团队,把网络文本里的暴力、歧视、骚扰言论清洗得一干二净——因为没人愿意让自己的模型变成“种族主义诗人”或“厌女主义讲师”。
6/16/2025 3:00:00 AM
AgentCPM-GUI:强化微调(RFT)赋能的移动设备 GUI 智能体
大家好,我是肆〇柒。 当下,移动设备已成为人们日常生活与工作的核心交互枢纽。 从早起解锁手机查看消息,到工作时在各类应用间切换处理任务,图形用户界面(GUI)操作的高效性与智能性正深刻影响着我们的 productivity(生产力)与 accessibility(可访问性)。
6/13/2025 1:30:00 AM
肆零柒
RAG与微调,大语言模型的“大脑升级”,该选哪条路?(小白科普)
最近在做项目时,我发现有些甲方对RAG和模型微调分区的不太清楚,明明大语言模型(LLM)加挂RAG就可以解决的问题,却坚持要微调,但是具体沟通后发现,其实只是不太了解二者的实际用途。 其实,Retrieval-Augmented Generation (RAG) 和微调 (Fine-Tuning) 是两种最常用的LLM的“大脑升级”技术,虽然它们都能提升模型的性能,但工作原理和适用场景却大相径庭。 今天,我就来深入聊聊这两种技术,弄清楚在不同情况下,到底该选 RAG 还是微调。
5/21/2025 3:00:00 AM
贝塔街的万事屋
谷歌 DeepMind 通过强化学习微调提升 AI 决策能力
近期,谷歌 DeepMind 团队与约翰・开普勒林茨大学 LIT AI 实验室合作,开展了一项关于人工智能语言模型的新研究。 他们采用了强化学习微调(RLFT)技术,旨在提升语言模型的决策能力。 这项研究的重点在于,通过思维链的强化训练,解决了模型在决策过程中存在的一些关键问题。
5/20/2025 6:00:45 PM
AI在线
理解 RAG 第九部分:针对 RAG 微调 LLM
在“理解 RAG”系列的前几篇文章中,我们重点探讨了检索增强生成的各个方面。 文章中,我们重点介绍了与大型语言模型 (LLM) 集成的检索器组件,该组件用于检索有意义且真实的上下文知识,从而提升 LLM 输入的质量,并最终提升其生成的输出响应。 具体来说,我们学习了如何管理传递给 LLM 的上下文长度、如何优化检索,以及如何利用向量数据库和索引策略来有效地检索知识。
5/20/2025 6:00:00 AM
晓晓
推理模型越来越强,大模型微调还有必要吗?
最近笔者在将大模型服务应用于实际业务系统时,首先一般习惯性用一些闭源api服务,花上几块钱快速测试下流程,然后在去分析下大模型效果。 如果通过几次调整Prompt或者超参数还是出现的bad cases比较多(比如输出结果的结构化有问题,输出结果不理想,在某些专业领域不同模型结果表现不一并且效果比较差),这个时候需要考虑下通过微调的方式来训练大模型。 现在的大模型推理能力越来越厉害,人们开始怀疑:我们还需要花时间和资源去微调大模型吗?
5/13/2025 5:11:00 AM
ChallengeHub
大型语言模型参数高效微调技术详解(必看)
随着Transformer架构的广泛应用,以GPT为代表的大型语言模型(LLM)在自然语言处理领域取得了突破性进展。 这些模型通过"预训练 微调"的范式,在下游任务中展现出强大的性能。 然而,随着模型参数规模从数亿增长到数百亿甚至万亿,全量参数微调(Full Fine-tuning)面临以下挑战:计算资源瓶颈:全量微调需要消耗大量的计算资源和内存存储成本高昂:为每个下游任务单独存储微调模型成本巨大灾难性遗忘:全量微调易导致模型"遗忘"预训练阶段获得的知识过拟合风险:尤其在训练数据有限的情况下,全量微调易出现过拟合基于上述考量,参数高效微调技术(Parameter-Efficient Fine-Tuning, PEFT)应运而生。
5/8/2025 5:00:00 AM
口袋数据
保姆级教程:零代码基础也能微调Qwen3,并本地部署
我将在本文介绍如何通过 unsloth 框架以 LoRA 的方法微调 Qwen3-14B 模型。 图片到目前还有很多小伙伴还不明白什么时候应该微调? 那么请看下图:图片接下来我们再看一下本文使用的 LoRA 微调方法的优势:图片LoRA(Low-Rank Adaptation of Large Language Models,大型语言模型的低秩自适应)是一种流行的轻量级训练技术,可以显著减少可训练参数的数量。
5/6/2025 1:43:31 PM
南七无名式
DeepSeek定制训练:微调与推理技术应用
一. 前言介绍本文内容:模型加载与预处理:详细讲解如何加载预训练模型、分词器,并处理输入数据集。 LoRA配置:介绍如何使用LoRA技术配置模型,并高效进行微调,节省计算资源。
4/30/2025 9:19:32 AM
WeClone项目亮相,微信聊天记录打造个性化数字分身
人工智能技术正以惊人速度改变我们的数字生活。 近日,AIbase注意到一个名为WeClone的开源项目在社交媒体上引发热议。 该项目通过分析用户的微信聊天记录,微调大语言模型,创建出高度个性化的数字分身,并可进一步部署为聊天机器人,为用户带来前所未有的交互体验。
4/14/2025 10:01:22 AM
AI在线
RAG还是微调?AI落地的关键选择
你是否曾经面临这样的困境:部门刚刚决定采用大语言模型解决业务痛点,但技术团队却陷入了"到底该用RAG还是微调"的激烈争论中? 一边是成本控制派,坚持RAG轻量级方案;另一边是性能至上派,认为只有微调才能满足业务需求。 让我们跳出技术视角,用真实业务场景来理解这两种方案。
4/9/2025 11:59:29 AM
大数据AI智能圈
SFT 指令微调数据如何构建?
SFT的重点是学习样式,而非知识注入,所以SFT的样本在于其质量而非数量,少量但精良的样本往往胜过大批中低品质的样本,实现同样甚至更优的微调效果。 通常情况下,2-10k数据就会有一个不错的效果。 这一理念在Meta发布的《LIMA: Less Is More for Alignment》论文中得到了有力阐述,该文献强调了在指令微调过程中,高品质微调数据的决定性作用。
3/25/2025 10:27:14 AM
Goldma
视觉语言指令微调数据如何构建?
1、构建策略视觉语言指令微调数据构建策略主要有以下两种:标注适配由于视觉模型的发展,已有规模巨大、多样性且高质量的标注数据。 这些数据适合于广泛的下游任务,并可容易地改造为指令数据。 许多工作将已有的标注数据转化为标准的指令数据格式。
3/21/2025 8:00:00 AM
Goldma
7B级形式化推理与验证小模型,媲美满血版DeepSeek-R1,全面开源!
研究团队构成:香港科技大学、中国科学院软件研究所、西安电子科技大学和重庆大学。 团队核心成员:香港科技大学的研究助理教授曹嘉伦,主要研究领域包括 AI&SE、人工智能测试、形式化验证等;中国科学院软件研究所副研究员陆垚杰,主要研究领域包括大语言模型及其应用。 随着 DeepSeek-R1 的流行与 AI4Math 研究的深入,大模型在辅助形式化证明写作方面的需求日益增长。
3/8/2025 3:46:00 PM
机器之心
终于把深度学习中的微调、提炼和迁移学习搞懂了!!!
大家好,我是小寒今天给大家分享深度学习中的三个重要知识点,微调、提炼和迁移学习在深度学习中,微调(Fine-tuning)、提炼(Distillation,即知识蒸馏)和迁移学习(Transfer Learning)是三种常见的模型优化技术,主要用于提高模型的泛化能力、减少训练时间以及优化资源利用率。 微调微调是指在一个已经训练好的模型(通常是预训练模型)的基础上,对部分或全部参数进行进一步训练,以适应特定的新任务。 通常,预训练模型是在大规模数据集(如ImageNet)上训练得到的,它能够学习到一些通用的特征。
3/3/2025 1:50:00 AM
程序员小寒
DeepSeek开源模型重塑法证审计,个人本地做RAG+微调,25年多试试
全球82亿人口,网民55.6亿,而ChatGPT坐拥3.5亿全球月活,渗透率算下来也有6%左右了。 但这还是DeepSeek-R1开源之前的故事。 1/20 开源以来,DeepSeek-R1属实又硬拉高了一大波全球 AI的渗透率,或者换句话说,是解锁了更多的应用场景。
2/21/2025 2:37:21 PM
韦东东
DARWIN 1.5 来啦!材料设计通用大语言模型,刷新多项实验性质预测记录
编辑丨Science AI材料发现和设计的核心目标是寻找理想的成分和结构,但传统方法,如高通量模拟和机器学习,通常依赖于复杂描述符,过于固定且难以通用,并且无法准确反映真实材料特性,因而限制了实际应用。 GreenDynamic 与来自澳大利亚新南威尔士大学(UNSW),上海人工智能实验室和香港城市大学的团队共同开发了一款名为 DARWIN 1.5 的模型。 不同于传统机器学习方法,DARWIN 基于语言接口微调框架(LIFT,2022 NeurIPS, 本文共同作者),整合了 33 万科学问答和 22 个材料科学任务,为材料属性预测和发现提供了灵活统一的预训练模型,并且成功精准预测了上万种材料的性质数值。
1/27/2025 6:47:00 PM
ScienceAI
微调已死,强化微调万岁
编辑 | 言征 出品 | 51CTO技术栈(微信号:blog51cto)OpenAI第二天的直播,奥特曼没有出镜,几位OpenAI的研究员带了一场AI模型的定制魔法秀! “这不是标准的微调......它利用强化学习算法,将我们从高级高中水平带到专家级博士水平。 ”1.12个样本,就能让定制o1超过满血o1标准的微调已经过时了,这次 OpenAI 打破了 AI 定制的界限。
12/10/2024 9:07:17 AM
言征
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
Google AI Studio 政策变动:Gemini2.5Pro 模型免费访问遭“限流”
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
英伟达
代码
Anthropic
芯片
开发者
生成式
蛋白质
腾讯
神经网络
训练
3D
研究
生成
智能体
苹果
计算
机器学习
Sora
AI设计
Claude
AI for Science
GPU
AI视频
人形机器人
搜索
华为
百度
场景
大语言模型
xAI
预测
伟达
深度学习
Transformer
LLM
字节跳动
Agent
模态
具身智能
神器推荐
工具
文本
视觉
LLaMA
算力
Copilot
驾驶
大型语言模型
API
RAG
应用
架构