AI在线 AI在线

理论

AI算法 | SFT数据篇

1、SFT需要多少条数据SFT所需数据量一般任务:对于大多数常见的自然语言处理任务(如文本分类、情感分析、简单对话等),SFT的数据量通常在2k-10k之间。 这个范围的数据量既能保证模型学习到足够的领域知识,又不会因为数据量过大而导致训练成本过高。 复杂任务:对于复杂的任务,如数学推理、代码生成、多轮对话等,可能需要更多的数据来训练。
3/28/2025 11:10:44 AM
Goldma

大模型不再是路痴!空间推理的答案是RAG:旅游规划、附近推荐全解锁

近年来,大型语言模型(LLMs)的进展已经在机器学习(ML)的许多领域带来了变革,特别是在理解和生成类人文本方面,激发了人们通过直接从LLMs中提取空间知识来弥合空间问答与自然语言之间的差距,研究成果涵盖了广泛的应用,包括地理百科全书问答、地理定位和自动高精度地图生成等。 然而,当涉及到空间推理任务时,LLMs的表现却显得力不从心,甚至在处理基本的空间任务时也遇到困难,例如地理解析和理解相对空间关系。 这种差距在处理现实世界的空间推理任务时尤为明显,例如图1中所示的场景:图1 现实世界中空间推理问题示例。
3/28/2025 10:42:17 AM
新智元

大多数人工智能项目为何失败:应避免的十个错误

令人震惊的事实:70-80%的人工智能项目都失败了! 尽管人工智能 (AI) 及其彻底改变行业的潜力备受关注,但令人惊讶的是,70-80% 的 AI 项目都失败了——这真是一个现实的考验! 为什么这么多充满希望和潜力的人工智能计划最终都以失败告终?
3/28/2025 10:21:50 AM
晓晓

SWEET-RL:基于训练时信息的多轮LLM代理强化学习框架

SWEET-RL(Step-WisE Evaluation from Training-time information,基于训练时信息的逐步评估)是多轮大型语言模型(LLM)代理强化学习领域的重要技术进展。 该算法相较于现有最先进的方法,成功率提升了6%,使Llama-3.1-8B等小型开源模型能够达到甚至超越GPT-4O等大型专有模型的性能水平。 本文将深入分析SWEET-RL如何改进AI代理在复杂协作任务中的训练方法。
3/28/2025 10:16:15 AM
Jenray

时间序列异常检测:MSET-SPRT组合方法的原理和Python代码实现

在异常检测领域,尤其针对工业机械、核反应堆和网络安全等复杂系统,传统方法往往难以有效处理高维度且相互关联的数据流。 多元状态估计技术(MSET) 与序贯概率比检验(SPRT) 的组合方法在此类场景中展现出显著优势。 MSET-SPRT是一种结合机器学习状态估计与统计假设检验的混合技术框架,通过其高精度和稳健性,被广泛应用于关键任务系统的监控与分析。
3/28/2025 10:10:30 AM
Abish Pius

AI算法 | 领域模型Continue PreTrain数据篇

在当今人工智能的浪潮中,领域模型的构建与发展正成为推动行业进步的关键力量。 从医疗诊断到金融风险预测,从自然语言处理到图像识别,领域模型以其精准的适应性和强大的性能,为各个专业领域带来了前所未有的机遇。 而在这背后,Continue Pretrain(持续预训练)技术更是为领域模型的成长提供了源源不断的动力。
3/28/2025 9:46:05 AM
Goldma

DeepSeek倒逼成功!OpenAI 宣布实质性升级 GPT-4o,将面向免费用户数周后开放!数学和编码排名第一!

3 月 28 日,OpenAI 官方宣布为 ChatGPT 中的?GPT-4o 带来了一些功能上的更新,并确认升级版?GPT-4o 已面向所有付费用户开放,而免费用户还要再等几周。 GPT-4o 本次更新聚焦四大核心部分:. 多指令解析优化:显著提升对包含多重需求的复杂指令理解能力.
3/28/2025 9:07:05 AM

安卓突然终止「开源」,开发者遭背叛?社区炸锅了

据Android Authority报道,谷歌已经向其确认,谷歌将很快在私有环境中开发Android开源项目(AOSP,Android Open Source Project),但依然会开源代码。 网站地址:,我的安卓手机不能用了? 目前来看,谷歌私下开发AOSP项目还不至于到「天塌下来」的地步,普通手机用户更是几乎感觉不到什么变化。
3/28/2025 9:00:00 AM
新智元

CISO保护AI模型的指南

在AI应用中,机器学习(ML)模型是推动预测、推荐和自主行动的核心决策引擎。 与依赖预定义规则和静态算法的传统IT应用不同,ML模型具有动态性——它们通过分析训练数据来形成自己的内部模式和决策过程。 随着从新数据中学习,它们的行为会发生变化。
3/28/2025 9:00:00 AM
Diana Kelly

2025年人工智能领域即将发生的四大变革

2025年AI四大变革! 开发团队拥抱AI,从被动到主动;科技巨头主导GPU/TPU基础设施;开源LLM质量飙升,加速AI民主化;ModelOps融入SDLC,DataOps MLOps成关键。 译自:Four Transformational Changes Coming to AI in 2025作者:David DeSanto在过去的两年里,人工智能在软件开发中的应用呈指数级增长,而且这种趋势将在明年继续。
3/28/2025 8:26:19 AM
岱军

从裁员到年薪百万:程序员靠RAG技术逆袭的“核心密码”

1.前言作为一名从业七年的程序员,最近听到很多程序员朋友都喜提了n 1裁员大礼包。 上周与老友聚会时,大家纷纷诉说着各自最近的遭遇,聚会气氛一度十分沉重。 老Z感叹:“公司决定将部分业务外包,结果我被列入了裁员名单。
3/28/2025 8:17:08 AM
后端小肥肠

大规模AI推理再非难事:如何在Kubernetes上部署DeepSeek

译者 | 核子可乐审校 | 重楼随着人工智能的持续发展,高效、大规模部署AI驱动应用程序变得至关重要。 而编排平台Kubernetes在管理容器化AI工作负载、确保可扩展性、弹性以及降低管理难度等方面,无疑将发挥不可替代的作用。 在本文中,我们将共同了解如何在Kubernetes上部署DeepSeek,运用其强大的AI推理模型DeepSeek-R1与Open WebUI集成以实现无缝交互。
3/28/2025 8:14:18 AM
核子可乐

2025年 颠覆社交媒体运营的七个AI工具

这几年,深刻感受到:做社交媒体真的不容易。 写帖子、追热点、管评论……每项任务单独看起来简单,但叠加起来,简直是个全天候的苦差事。 好消息是,最近找到了一些令人惊艳的AI工具,它们不仅帮我节省了大量时间,更让我的内容更专业、更出色。
3/28/2025 8:10:54 AM
dev

企业抢着要的AI方案:DeepSeek-R1微调实战,3天构建行业内容生成器

前言在如今快速发展的AI技术领域,越来越多的企业正在将AI应用于各个场景。 然而,尽管大模型(如GPT、DeepSpeek等)在多个任务上已取得显著进展,但是普通的大模型在面对特定行业或任务时,往往会出现一个问题——AI幻觉。 所谓AI幻觉,是指模型生成的内容不符合实际需求,甚至包含错误或无关的信息,这对于一些行业来说,可能带来不可接受的风险,尤其是在医疗、法律、金融等领域。
3/28/2025 8:03:08 AM
后端小肥肠

AI 生成的代码真的安全吗?

译者 | 陈峻审校 | 重楼软件开发与编程曾经被认为是只有具备深厚专业知识与技能的程序员才能胜任的工作。 不过,现在貌似任何人都可以利用自然语言工具来实现并完成了。 与此同时,过去那些需要数天、甚至数月才能开发出来的功能,现在完全可以在 AI 模型的代码加持下、在几分钟之内被开发出来。
3/28/2025 8:00:00 AM
陈峻

国产数据库“AI助手”能力如何

随着近期 AI 的大火,如何更好地利用这一新技术成为大家追逐焦点。 从数据库行业来看,除了产品层面内置 AI 能力外(如DB4AI、AI4DB方向),利用 AI 还可以加速生态建设,让用户更方便的了解和使用数据库。 于是,近期看到了很多国产数据库厂商提供了 AI 助手能力。
3/28/2025 7:33:09 AM
韩锋

Cursor AI:重新定义 AI 原生开发范式的下一代 IDE

引言:当 AI 成为开发的核心引擎在 GitHub Copilot 掀起 AI 辅助编程革命三年后,开发者工具领域迎来重大范式转移——从"插件式 AI"到"原生 AI IDE"的进化。 Cursor AI 正是在这样的背景下应运而生,它不仅仅是在传统 IDE 中嵌入 AI 功能,而是从底层架构开始重构,将 AI 作为第一性原理融入开发全流程。 这种进化如同从蒸汽机车到电力机车的跨越,正在重塑 50 年历史的 IDE 形态。
3/28/2025 5:00:00 AM
前端小石匠

DeepSeek 悄然发布 DeepSeek-V3–0324:远超预期的重大升级

DeepSeek 近期悄然发布的 DeepSeek-V3–0324,在 AI 社区和行业内引发了广泛关注。 这一版本是 DeepSeek V3 (DeepSeek-V3 深度剖析:下一代 AI 模型的全面解读)模型的重要升级,其带来的一系列技术革新和性能提升远超众人预期,为开发者和企业带来了新的机遇与可能。 一、DeepSeek-V3–0324 的技术突破(一)Multi-head Latent Attention(MLA)和增强的 DeepSeekMoE 架构DeepSeek-V3–0324 引入了 Multi-head Latent Attention(MLA)和增强版的 DeepSeekMoE 架构,这些创新技术为模型性能的提升奠定了坚实基础。
3/28/2025 4:30:00 AM
大模型之路