大模型

AI人格分裂实锤！30万道送命题，撕开OpenAI、谷歌「遮羞布」

实锤！ LLM也有自己的「价值观」？想象一下，你让AI帮你做一个商业计划，既要「赚钱」，又要「有良心」。

10/27/2025 9:08:00 AM

企业级 RAG 系统实战：10 个项目踩过的坑（附代码工程示例）

25 年以来写了 55 篇技术 Blog，字数也累计超过 50 万字。每篇内容背后都是几十甚至上百个小时的项目工程实践的经验提炼，虽然原创性没话说，但还是产出效率太低，以及也难免受限于个人的经验和水平。 So，从这篇开始，我会把日常闲暇时观摩的一些海外优质内容整理和加工后，附上自己的不同观察和思考也通过文章或者视频的形式发布出来，给各位做个参考。

10/24/2025 3:52:19 PM

韦东东

告别“模型军备竞赛”：专业化小模型正成为企业AI落地的务实之选

但规模大并不总是意味着更好，因为规模大通常意味着复杂度增加、灵活性降低。渐渐地，企业开始意识到，万亿参数模型并不总是其业务的最佳解决方案，并非所有AI解决方案都需要一个巨型大语言模型，更专注的方法有望带来更好的成果。针对相关数据的特定任务进行调整的小型专用模型正日益受到青睐。

10/24/2025 2:21:34 PM

Ilia Badeev

均值至上假繁荣！北大新作专挑难题，逼出AI模型真本事

当强化学习（RL）成为大模型后训练的核心工具，「带可验证奖励的强化学习（RLVR）」凭借客观的二元反馈（如解题对错），迅速成为提升推理能力的主流范式。从数学解题到代码生成，RLVR本应推动模型突破「已知答案采样」的局限，真正掌握深度推理逻辑——但现实是，以GRPO为代表的主流方法正陷入「均值优化陷阱」。这些基于均值的优化策略，过度聚焦高概率输出序列，却忽略了「低概率但高信息密度」的推理路径：模型训练早期就会出现熵坍缩，过早丧失探索能力；面对全错的难题时，优势函数直接归零，模型在薄弱环节完全无法学习。

10/24/2025 1:04:00 PM

揭秘大模型的魔法：从零实现一个简化版的GPT 模型

大家好，我是写代码的中年人！今天我们结合代码从零实现一个简化版 GPT 模型。近年来，大语言模型席卷了人工智能领域，从 ChatGPT 到 LLaMA，它们以惊人的语言理解和生成能力改变了我们与机器交互的方式。

10/24/2025 10:34:55 AM

写代码的中年人

Kimi k2性能被赞超越 GPT-5，月之暗面再获数亿美元重磅融资

据ZFinance消息，国内大模型明星创业公司月之暗面（Moonshot AI）近日传出重磅消息，据 ZF 获悉，该公司即将完成新一轮数亿美元的融资。此次融资距离月之暗面公开披露的上一轮约3亿美元融资仅过去不久(上一次公开信息为2024年8月)，显示出资本市场对该公司的信心再次高涨。这家曾被誉为“中国最受期待的大模型公司”之一的企业，在今年初曾一度因 DeepSeek 的爆发而显得沉寂，其主力产品 Kimi 几乎淡出公众视线。

10/24/2025 9:41:39 AM

AI在线

大模型+矢量数据库：为AI智能体构建内存架构

译者 | 陈峻审校 | 重楼目前，数据科学家们已经熟悉了那些以不同的文件格式作为处理输入与输出的各类机器学习模型。在大多数情况下，人工智能智能体（AI agent）都需要通过维护上下文，从人机交互中学习，以及按需访问其他模型无法处理的海量知识存储。这无疑需要庞大的内存架构。

10/24/2025 8:00:00 AM

陈峻

大模型推理学习新范式！ExGRPO框架：从盲目刷题到聪明复盘

大模型在强化学习过程中，终于知道什么经验更宝贵了！来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的研究团队，最近提出了一套经验管理和学习框架ExGRPO——通过科学地识别、存储、筛选和学习有价值的经验，让大模型在优化推理能力的道路上，走得更稳、更快、更远。实验结果显示，与传统的在线策略RLVR（基于可验证奖励的强化学习）方法相比，ExGRPO在不同基准上均带来了一定程度的性能提升。

10/23/2025 2:05:35 PM

大模型时代的双刃剑：RAG 与微调怎么选？

上周在一个技术交流会上，听到两位技术总监争得面红耳赤。一位坚持说RAG就够了，简单高效还省钱；另一位则认为不微调根本做不出专业应用。这场争论让我想起很多企业在落地AI项目时的迷茫：到底该选哪条路？

10/23/2025 9:28:39 AM

大数据AI智能圈

火山引擎多媒体实验室画质理解大模型 Q-Insight 入选 NeurIPS 2025 Spotlight

会议背景近日，NeurIPS 2025公布了录用结果，该会议是机器学习与人工智能领域最具影响力的国际顶级学术会议之一。据悉本次会议共有21575篇投稿进入审稿阶段，最终5290篇论文被录用，录用论文中共有688篇论文（入选比例3%）被选为亮点文章（Spotlight）。火山引擎多媒体实验室和北京大学合作的论文 Q-Insight: Understanding Image Quality via Visual Reinforcement Learning 被选为本次会议亮点文章。

10/23/2025 9:18:46 AM

多媒体实验室

奖励机制的陷阱：自演化智能体如何被"带偏"？

大家好，我是肆〇柒。今天要和大家分享一篇由上海人工智能实验室团队主导的研究《Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents》。这项研究首次系统性揭示了自演化LLM智能体中潜藏的"误进化"风险——即使基于GPT-4o、Claude-4、Gemini-2.5等顶级模型构建的智能体，在自主演化过程中也可能悄然偏离安全对齐目标，从"助手"蜕变为潜在威胁。

10/23/2025 8:58:03 AM

肆零柒

大模型的脑子会烂掉！而且不能自愈！华人研究论文火了：连续喂垃圾内容，再聪明的模型也变笨，而且自恋、暗黑化

编辑 | 云昭我们每天刷到的那些情绪化标题、碎片化内容、互怼式评论，可能不只是让人变蠢。最新研究发现——连续几个月让AI刷这些数据，AI也会被带坏。什么是“AI 脑腐”？

10/22/2025 8:05:41 PM

云昭

NeurIPS 2025｜火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架，视频时序理解大模型SOTA！

在人工智能与多媒体技术深度融合的当下，视频时序定位（Video Temporal Grounding）成为视频理解领域的核心任务之一，其目标是根据自然语言查询，在长段视频流中精准定位出与之匹配的时序片段。这一能力是智能视频剪辑、内容检索、人机交互、事件分析等众多场景落地的关键基础。例如，快速定位球赛进球瞬间、影视剧名场面、游戏高光镜头、响应“回放主角微笑片段” 、异常事件查看等需求，均依赖于高效精准的时序定位技术。

10/22/2025 10:16:02 AM

多媒体实验室

LLM的“记忆”与“推理”该分家了吗？一种全新的训练范式，彻底厘清思考流程

在医疗诊断中，模型误将“罕见病症状”与“常见病混淆”；在金融分析里，因记错政策条款给出错误投资建议——大语言模型（LLMs）的这些“失误”，本质上源于一个核心症结：记忆知识与逻辑推理的过程被死死绑定在黑箱中。当模型的思考既需要调用事实性知识，又要进行多步逻辑推导时，两种能力的相互干扰往往导致答案失真或决策失据。罗格斯大学、俄亥俄州立大学等团队发表于2025 ACL的研究《Disentangling Memory and Reasoning Ability in Large Language Models》，为破解这一难题提供了全新思路。

10/20/2025 9:33:49 AM

Goldma

全球第一！百度0.9B参数大模型碾压传统OCR！

最近有个感觉特别强烈：AI正在从"识别文字"悄然进化成"理解文档"。当我看到百度飞桨团队刚刚发布的PaddleOCR-VL在全球权威评测中以92.6分位列第一时，第一反应是——这个0.9B的"小家伙"，怎么就把那些动辄几十亿参数的巨无霸给比下去了？说实话，刚开始我也有点半信半疑。

10/20/2025 9:30:34 AM

阿丸笔记

推理提速4倍！莫纳什、浙大提出动态拼接，大小模型智能协作

近两年，思维链（Chain-of-Thought, CoT）推理让大语言模型在复杂推理任务上展现出前所未有的能力——从数学解题到逻辑分析，表现令人惊叹。然而，这种强大的推理能力也带来了一个长期存在的挑战：推理过程过于缓慢。每生成一个 token，模型都要完整算一遍前向传播。

10/17/2025 5:50:01 PM

AI视频公司爱诗科技完成1亿元B+轮融资：ARR突破4000万美元，用户超1亿

国内AI视频生成公司爱诗科技（PixVerse）于10月17日宣布完成1亿元人民币B 轮融资，由复星锐正、同创伟业和顺禧基金等机构联合投资。公司披露的数据显示，其年度经常性收入(ARR)已突破4000万美元，注册用户数超过1亿，月活跃用户超过1600万。从商业化进展来看，爱诗科技自2024年11月正式启动商业化以来，不到一年时间内收入实现了十倍增长。

10/17/2025 4:16:46 PM