理论

RAG（七）Chain-of-Note：笔记链让检索增强型语言模型更强大！

RAG（七）Chain-of-Note：笔记链让检索增强型语言模型更强大！

现有的检索增强型语言模型（Retrieval-Augmented Language Models, RALMs）在处理外部知识时存在一定的局限性。这些模型有时会因为检索到不相关或不可靠的信息而产生误导性的回答，或者在面对检索信息和模型内在知识的干扰时，无法正确选择使用哪一种知识。此外，在检索信息不足或完全不存在的情况下，标准的RALMs可能会尝试生成一个答案，即使它们并不具备足够的信息来准确作答。

3/25/2025 10:41:06 AM Goldma

SFT 指令微调数据如何构建?

SFT 指令微调数据如何构建?

SFT的重点是学习样式，而非知识注入，所以SFT的样本在于其质量而非数量，少量但精良的样本往往胜过大批中低品质的样本，实现同样甚至更优的微调效果。通常情况下，2-10k数据就会有一个不错的效果。这一理念在Meta发布的《LIMA: Less Is More for Alignment》论文中得到了有力阐述，该文献强调了在指令微调过程中，高品质微调数据的决定性作用。

3/25/2025 10:27:14 AM Goldma

统一细粒度感知！北大&阿里提出UFO：无需SAM，16个token让MLLM实现精准分割

统一细粒度感知！北大&阿里提出UFO：无需SAM，16个token让MLLM实现精准分割

本文作者来自北京大学和阿里通义万相实验室。其中论文第一作者是汤昊，北京大学 2022 级博士生，目前主要关注统一的多模态任务建模算法。指导教授是王立威老师，北京大学智能学院教授，曾获 NeurIPS 2024 最佳论文奖、ICLR 2023 杰出论文奖及 ICLR 2024 杰出论文提名奖。

3/25/2025 10:13:26 AM 机器之心

棋盘变战场，大模型却呆了？普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈

棋盘变战场，大模型却呆了？普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈

当棋盘变成战场，当盟友暗藏心机，当谈判需要三十六计，AI 的智商令人叹息！近日，来自普林斯顿和德州大学奥斯丁分校最新评测基准 SPIN-Bench，用一套 "组合拳" 暴击了大模型的软肋。研究显示，即便是 o1、o3-mini、DeepSeek R1、GPT-4o、Claude 3.5 等顶尖大模型，在涉及战略规划和社会推理的复杂任务中集体 "自闭"。

3/25/2025 9:50:23 AM 机器之心

DeepSeek V3深夜低调升级，代码进化令人震惊，网友实测可媲美Claude 3.5/3.7 Sonnet

DeepSeek V3深夜低调升级，代码进化令人震惊，网友实测可媲美Claude 3.5/3.7 Sonnet

昨夜，DeepSeek V3 毫无征兆地来了一波更新，升级到了「DeepSeek-V3-0324」版本。目前，新版本在 Hugging Face 上可以下载并部署。 Hugging Face 地址：，DeepSeek-V3-0324 没有公布详细的模型卡。

3/25/2025 9:48:22 AM 机器之心

“AI辅导2小时，成绩冲进全国前2%”，OpenAI总裁转发私立教学成果，网友：一年学费4万美元？？

“AI辅导2小时，成绩冲进全国前2%”，OpenAI总裁转发私立教学成果，网友：一年学费4万美元？？

“用AI辅导功课，学生成绩提升至全国前2%的水平”。美国得克萨斯州一所私立K12学校Alpha学校，最近传出了这样一则消息引起大量网友关注。 OpenAI总裁Greg Brockman下场转发：围绕个性化AI导师设计的学校取得了良好成果。

3/25/2025 9:47:03 AM 量子位

大神卡帕西亲自演绎零基础开发APP，ChatGPT四轮对话搞定，一小时即在手机运行

大神卡帕西亲自演绎零基础开发APP，ChatGPT四轮对话搞定，一小时即在手机运行

大神卡帕西带着他的教程又来了！这次不是教学视频，而是手把手教你如何用大模型开发APP——他没有阅读任何文档，也没有在专门平台Swift编程过，在与ChatGPT仅四轮对话的指导下，成功在手机上运行上了。，时长00:24这是个用来减肥跟踪APP。

3/25/2025 9:43:03 AM 量子位

一文看懂多模态思维链DeepSeek V3“小版本升级”实测堪比V3.5，非推理模型也有“啊哈时刻”，7米甘蔗过2米门想通了

一文看懂多模态思维链DeepSeek V3“小版本升级”实测堪比V3.5，非推理模型也有“啊哈时刻”，7米甘蔗过2米门想通了

DeepSeek V3升级了，新版本V3-0324。官方轻描淡写只说是“小版本升级”，但很多人实测下来可一点也不小。把流行的小球弹跳测试，提升难度到4维空间超立方体也没问题。

3/25/2025 9:28:21 AM 量子位

GenAI如何重新定义亚太地区的零售银行业务

GenAI如何重新定义亚太地区的零售银行业务

GenAI采用的现状包括GPT-4等尖端语言模型在内的GenAI最新进展，正使金融机构能够以新颖的方式利用AI的能力。合成数据生成——即使用算法而非现实世界收集来创建数据——已成为关键推动因素，为多样化的银行业务需求提供可扩展、自动化的解决方案。然而，IDC的《2024年数据与AI脉搏》研究显示，东南亚地区的AI采用情况参差不齐。

3/25/2025 9:28:04 AM Deepak Ramanathan

32B本地部署！阿里开源最新多模态模型：主打视觉语言，数学推理也很强

32B本地部署！阿里开源最新多模态模型：主打视觉语言，数学推理也很强

就在DeepSeek-V3更新的同一夜，阿里通义千问Qwen又双叒叕一次梦幻联动了——发布Qwen2.5-VL-32B-Instruct。此前开源家族视觉语言模型Qwen2.5-VL包括3B、7B和72B三种尺寸。这一次的32B版本进一步兼顾尺寸和性能，可在本地运行。

3/25/2025 9:24:05 AM 量子位

AI引爆全美失业潮，12个月内接管所有代码！3亿岗位被取代，70%职业大换血

AI引爆全美失业潮，12个月内接管所有代码！3亿岗位被取代，70%职业大换血

AI，正在改变生活。 LinkedIn的新研究显示，很大程度上因为AI，到2030年，大多数职业的70%技能将发生变化。然而，更大的AI的冲击或许就要到来：AI永久性地改变就业市场，并带来大规模失业。

3/25/2025 9:12:53 AM 新智元

美国恐惧：冷战2.0将至，中国开源模型大爆炸临近！LeCun：DeepSeek只是卷王副产品

美国恐惧：冷战2.0将至，中国开源模型大爆炸临近！LeCun：DeepSeek只是卷王副产品

如今，美国已经开始陷入「冷战2.0焦虑」——我们的AI技术，恐怕已经落后于中国了？甚至AI社区的不少人已经押注：接下来几个月，将有一大波中国开源AI模型的浪潮！某AI大V如是说：一年前，没有人会预料到，在AI竞赛中，美国竟会被更强大的中国超越。

3/25/2025 9:08:41 AM 新智元

一文看懂多模态思维链

一文看懂多模态思维链

多模态思维链（MCoT）系统综述来了！不仅阐释了与该领域相关的基本概念和定义，还包括详细的分类法、对不同应用中现有方法的分析、对当前挑战的洞察以及促进多模态推理发展的未来研究方向。图片当下，传统思维链（CoT）已经让AI在文字推理上变得更聪明，比如一步步推导数学题的答案。

3/25/2025 9:06:11 AM 量子位

Nature：科研人员最爱AI工具大盘点！从推理到编程，哪款才是最佳助手？

Nature：科研人员最爱AI工具大盘点！从推理到编程，哪款才是最佳助手？

几乎每周都有新的、令人影响深刻的AI工具发布，研究人员纷纷踊跃尝试。从复杂的数学问题求解，到医学诊断中的精准分析，再到代码编写与论文创作，AI工具展现了巨大的潜力。但市面上令人眼花缭乱的AI模型，究竟哪一款才是让科研工作者效率起飞的「梦中情模」，能助力科研突破，带来事半功倍的效果呢？

3/25/2025 9:04:55 AM 新智元

爆火Block Diffusion引发LLM架构变革？自回归+扩散模型完美结合

爆火Block Diffusion引发LLM架构变革？自回归+扩散模型完美结合

扩散模型被广泛应用于生成图像和视频，并且在生成离散数据（如文本或生物序列）任务上的效果也越来越好，与自回归模型相比，扩散模型有望加速「生成过程」并提高模型输出的「可控性」。然而，离散扩散模型目前仍然有三个局限性：在聊天系统等应用中，模型需要生成任意长度的输出序列（例如，对用户问题的回答），但大多数现有的扩散架构只能生成固定长度的向量；离散扩散在生成过程中使用双向上下文，因此无法利用键值缓存（KV caching）复用之前的计算，使得推理效率较低。从困惑度等标准指标来看，离散扩散模型的质量仍落后于自回归方法，也进一步限制了其应用范围。

3/25/2025 9:04:12 AM 新智元

DeepSeek-V3深夜惊爆上新！代码数学飙升剑指GPT-5，一台Mac可跑

DeepSeek-V3深夜惊爆上新！代码数学飙升剑指GPT-5，一台Mac可跑

昨晚，DeepSeek-V3悄然升级！新模型版本为DeepSeek-V3-0324，参数量为6850亿，相较上个版本参数增幅不大（6710亿）。从发布时间和技术特点来看，DeepSeek-V3-0324，很可能是DeepSeek-R2的基础架构。

3/25/2025 9:03:00 AM 新智元

用 OpenCV 实现图像识别的十个基础算法

用 OpenCV 实现图像识别的十个基础算法

一、OpenCV简介与图像读写基础1. OpenCV是什么？ OpenCV 是一个强大的计算机视觉库，广泛用于图像和视频处理。

3/25/2025 8:30:00 AM 手把手PythonAI编程

Vibe Coding 来了——但你准备好应对 Vibe 故障处理了吗？

Vibe Coding 来了——但你准备好应对 Vibe 故障处理了吗？

译者 | 刘汪洋审校 | 重楼想象一下，完全沉浸在编程氛围中，甚至忘记了代码的存在。不用敲键盘，只需让 Cursor 和 Sonnet 帮你搞定一切。遇到 bug 时，你不去排查问题，而是把错误信息丢给大语言模型（LLM ）然后复制粘贴修复方案。

3/25/2025 12:08:00 AM 刘汪洋

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉