理论

推理模型越来越强，大模型微调还有必要吗？

最近笔者在将大模型服务应用于实际业务系统时，首先一般习惯性用一些闭源api服务，花上几块钱快速测试下流程，然后在去分析下大模型效果。如果通过几次调整Prompt或者超参数还是出现的bad cases比较多（比如输出结果的结构化有问题，输出结果不理想，在某些专业领域不同模型结果表现不一并且效果比较差），这个时候需要考虑下通过微调的方式来训练大模型。现在的大模型推理能力越来越厉害，人们开始怀疑：我们还需要花时间和资源去微调大模型吗？

5/13/2025 5:11:00 AM

ChallengeHub

AI训练的反直觉发现：添加"有毒"数据反而能造就更好的语言模型？

"当坏数据能够创造出好模型，AI训练领域又一个传统观念被颠覆"你有没有听说过这样一个说法：垃圾进，垃圾出？在AI大语言模型的训练中，这一直是个不言自明的准则。工程师们花费大量时间和资源过滤训练数据，移除那些含有有毒、有害或不适当内容的文本，以防止模型学习和生成这些内容。

5/13/2025 2:22:00 AM

无影寺

国产大模型「五强争霸」，决战AGI！

DeepSeek的横空出世，已经彻底改变了全球的AI局势。从此，不仅中美大模型竞争格局改变，国产大模型的产业版图，也被一举打破！纵观中国基础大模型的市场，可以看到，如今的基础大模型版图已然改天换地，演变为全新的五强格局——字节、阿里、阶跃星辰、智谱，以及DeepSeek。

5/13/2025 2:00:22 AM

新智元

AI自我复制：技术突破下的风险挑战

从诞生之初到现在，人工智能已经取得了长足的进步。早期的人工智能系统是人类创造的奇迹，但完全依赖于人类的持续指导，存在很大局限性。几十年来，伴随技术的发展，人工智能从基础的机器学习演变为更为复杂的神经网络。

5/13/2025 2:00:00 AM

一文了解！MCP 技术生态全面解析：核心组件、工作流程、生命周期

在 AI 领域，模型上下文协议（MCP）的出现，就像是一场及时雨，完美地解决了 AI 模型与外部工具和资源交互的难题，让它们之间的协作变得轻松又自然，彻底打破了数据孤岛的困境，让不同系统之间的互操作性不再是梦想。一、MCP 核心组件：架构精解MCP 架构：MCP 主要有三个核心组件，分别是 MCP 主机、MCP 客户端和 MCP 服务器，它们三个相互配合，让 AI 应用和外部工具、数据源之间能够无缝通信。 MCP 主机：就好比是一个大舞台，为执行 AI 任务提供了演出环境，并且在这个舞台上运行着 MCP 客户端，没有它，整个表演就没办法开始。

5/13/2025 1:45:00 AM

小智

HippoRAG：基于海马体记忆索引理论的知识密集型任务新突破

在自然语言处理领域，大语言模型（LLMs）已经取得了令人瞩目的成就。然而，当面对知识密集型任务时，例如科学文献综述、法律案件简报或医疗诊断，这些模型往往显得力不从心。它们难以有效地整合新的或特定领域的知识，而现有的检索增强生成（RAG）方法也因无法满足复杂的跨段落或文档的知识整合需求而受到限制。

5/13/2025 1:00:00 AM

Goldma

程序员学习下，使用Cursor+MCP 提高开发效率

AI正在深刻改变着软件开发的方式。在传统的开发模式中，程序员需要记忆大量的语法规则、API文档和最佳实践，这不仅增加了学习成本，还限制了开发效率。 Cursor最引人注目的特色在于其内置的AI助手系统。

5/13/2025 12:05:00 AM

Tom哥

AI Agent如何悄然改变前端开发

AI Agent正悄然改变前端开发！从代码助手到自主系统，能扫描UI仓库、优化布局、重构组件。 Copilot编写代码，ChatGPT生成React组件，未来属于嵌入开发环境的持久Agent，驱动UX策略、设计和性能工程。

5/13/2025 12:00:25 AM

岱军

18岁天才高中生独登顶刊，AI解锁150万新天体！斯坦福连夜发offer

在NASA的2000亿条数据中隐藏着150万个未知天体，而揭开它们神秘面纱的，竟是一位美国高中生！他就是Matteo Paz，来自加州南帕萨迪纳高中的天才少年。基于加州理工学院的研究，Matteo挖掘了美国国家航空航天局（NASA）某项任务「沉睡的数据」，并以独著身份在天文学顶级期刊发文。

5/12/2025 6:33:03 PM

新智元

OpenAI命悬一线，微软连夜割肉！跪求OpenAI千万别分手

OpenAI和微软，快要闹崩了！面对着想要上市的OpenAI，不惜割肉续命，绝不能让自己的130亿投资打水漂。英国金融时报刚刚曝出，OpenAI和微软，正在重新协商数十亿美元的合作条款。

5/12/2025 6:26:55 PM

新智元

痛斥！现在的MCP，就像尿裤子！创业CTO试用后怒气值飙升，开怼整个大模型圈怪象：开发文档用大模型写的！网友：召唤MCP适配器

作者 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）现在的MCP乃至大模型开发圈，就像尿了裤子！一开始热乎乎的，然后就开始难受了！近日，一篇有关MCP深度批判的博客文章《A Critical Look at MCP》在网络上走红。

5/12/2025 3:07:01 PM

云昭

陶哲轩油管首秀：33分钟，AI速证「人类需要写满一页纸」的证明

快来围观，陶哲轩当视频博主了。第一个产出就很炸裂：人类需要写满一页纸的证明，结果借助AI 33分钟就搞定了？整个过程看起来一气呵成，还是全程“盲证”不用过脑子那种。

5/12/2025 2:26:43 PM

八秒极速生成！复杂场景图像定制低成本轻松驾驭，已开源丨字节北大联合发布

可控图片生成，如今已经不是什么新鲜事。甚至也不需要复杂的提示词，用户通过简单的文本描述，就能快速生成符合个人需求的创意图像。不过仍然有一些局限：比如说，虽然可以实现单一任务（如身份、主体、风格、背景等）的定制化设计，可是一旦条件增多，就会出现“鱼和熊掌不可兼得”的问题。

5/12/2025 2:24:56 PM

强迫模型自我争论，递归思考版CoT热度飙升！网友：这不就是大多数推理模型的套路吗？

CoT（Chain-of-thought）大家都很熟悉了，通过模仿「人类解题思路」，进而大幅提升语言模型的推理能力。这几天，一个名为 CoRT（Chain-of-Recursive-Thoughts）的概念火了！从名称上来看，它在 CoT 中加入了「递归思考」这一步骤。

5/12/2025 2:24:07 PM

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用，在训练阶段可以提供稳定的 reward，评估阶段可以选择更好的 sample 结果，甚至单独作为 evaluator。尽管近期强化学习（RL）在传统视觉任务和多模态推理任务中取得了显著进展，但其在奖励建模中的应用仍然受到挑战，尤其是如何通过强化学习对奖励模型引入长期推理能力。来自快手、中科院、清华、南大的研究团队发现，直接把现有的 RL 算法（比如 Reinforce ）用到训练 MRM 上，会遇到很多问题，比如训练过程很不稳定，甚至直接崩掉。

5/12/2025 2:23:42 PM

CVPR2025｜MCA-Ctrl：多方协同注意力控制助力AIGC时代图像精准定制化

本文由中国科学院计算技术研究所研究团队完成，第一作者为硕士生杨晗，通讯作者为副研究员安竹林，助理研究员杨传广。论文标题：Multi-party Collaborative Attention Control for Image Customization论文地址：：，生成式人工智能（Generative AI）技术的突破性进展，特别是文本到图像 T2I 生成模型的快速发展，已经使 AI 系统能够根据用户输入的文本提示（prompt）生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型，这一领域的技术迭代呈现出加速发展的态势。

5/12/2025 2:16:52 PM

生成式人工智能驱动的数据工程:现代数据工程师至少应掌握哪些技能

生成式人工智能 (GenAI) 已从最初的好奇发展成为数据工程工作流程中的日常工具：我们现在只需一个精心设计的指令，就能起草架构、生成模式、启动基础设施模板，甚至生成隐私保护数据。本文将我的经验与当前的行业实践相结合，提炼成一份循序渐进的参考指南，供想成为数据工程师或处于职业生涯中期的人士参考。为什么它今天如此重要？

5/12/2025 9:31:58 AM

晓晓

CVPR 2025 Highlight | 清华提出一键式视频扩散模型VideoScene，从视频到 3D 的桥梁，一步到位！

清华大学的研究团队首次提出了一种一步式视频扩散技术 VideoScene，专注于 3D 场景视频生成。它利用了 3D-aware leap flow distillation 策略，通过跳跃式跨越冗余降噪步骤，极大地加速了推理过程，同时结合动态降噪策略，实现了对 3D 先验信息的充分利用，从而在保证高质量的同时大幅提升生成效率。实验证明VideoScene可弥合从视频到 3D 的差距。

5/12/2025 9:31:44 AM

资讯热榜

DeepRare 重磅发布：全球首个可循证智能体诊断系统，直击医学Last Exam难题 AI时代设计师如何突围？D20峰会揭示未来设计师生存法则李沐B站更新了！教你手搓语音大模型，代码全开源还能在线试玩考试提分新工具：网页版 ChatGPT 测试“学习和掌握”功能，AI 助你成学霸我测试了100+案例，教你零基础复刻外网刷屏的 AI 视频（附提示词模板）阿里云通义千问 Qwen3-Coder 宣布开源：480B 参数、原生支持 256K 上下文，可与 Claude Sonnet4 媲美终结Coding？ShellAgent三句话造出马斯克同款「AI女友」！ MinerU 2.0部署教程！

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌机器人数据大模型 Midjourney 开源智能用户 Meta 微软 GPT 学习技术图像 Gemini AI创作马斯克论文英伟达 Anthropic 智能体代码算法 Stable Diffusion 训练芯片开发者蛋白质腾讯生成式苹果 LLM 神经网络 AI新词 Claude 3D 研究生成机器学习 AI for Science xAI 计算人形机器人 Agent Sora AI视频 GPU 百度 AI设计华为搜索大语言模型工具场景字节跳动具身智能 RAG 大型语言模型预测深度学习伟达视觉 Transformer 神器推荐 AGI 亚马逊视频生成 Copilot DeepMind 模态架构 LLaMA