AI在线 AI在线

理论

监督学习未死,一题训练五小时起飞!华人学者新方法20倍训练效率释放大模型推理能力

大模型推理能力研究中,可验证奖励的强化学习(RL with Verifiable Rewards, 简称 RLVR)技术频频突破,尤其是“一题强化学习”(RL on One Example)在多个任务中表现亮眼,引发了广泛讨论。 但与此同时,一个现实难题也随之而来:哪怕只使用一个样本,RL的训练也往往需要上百小时的A100GPU支撑,资源成本极高;而训练过程的高度不稳定,也给复现和实际部署带来了极大障碍;相比之下,传统的监督式微调(SFT)虽然计算负担小,但在低数据量下极易过拟合,效果难以保证。 有没有一种方法,不依赖复杂的反馈信号,也不需要成千上万的数据样本,就能有效激发LLM中已蕴藏的推理能力?
8/5/2025 9:05:00 AM

在WAIC耳朵听出茧子的「智能体」,是时候系统学一下了

在今年的世界人工智能大会(WAIC)上,智能体是绝对的主角,从 C 端产品到企业级应用,每家参展的 AI 厂商似乎都要提一下在智能体方向的布局。 这其实揭示了一个重要转变:人们不再把 AI 大模型当成一个单纯的聊天机器人,而是希望它能像人一样主动思考、制定计划、使用各种工具来完成任务,这是接下来大模型走向应用的重要方向。 看来,对于 AI 从业者来说,是时候系统了解一下「智能体」了。
8/4/2025 3:45:00 PM
机器之心

鸿蒙一夏燃动长沙!2025 HarmonyOS创新赛专场沙龙等你来!

8月12日13:30,"开发者系列沙龙:鸿蒙一夏-2025 HarmonyOS创新赛专场"即将在长沙拉开帷幕! 无论你是初入鸿蒙开发领域、渴望快速掌握核心技能的新手,还是有一定经验、希望在创新赛中突破瓶颈的资深开发者,本次沙龙都将成为你不可错过的学习与交流平台。 在这里,你不仅能近距离接触行业顶尖专家,掌握创新赛的核心要点,获取一手技术干货,更能与同行深度碰撞思维,为参与2025 HarmonyOS创新赛积蓄力量,共同探索鸿蒙生态的无限可能。
8/4/2025 11:16:16 AM

漫话以治理优先的思维方式设计数据体系

引言——重新思考治理当我听到“治理”这个词时,我会立即想象人们说“不! ”,阻止访问,要求批准,甚至可能有点.严厉。 对我来说,治理更像是一种障碍,而不是一种推动因素。
8/4/2025 9:52:48 AM
晓晓

基于RAGFlow实现「乱序」协议差异对比:Diff算法+向量相似度

7 月初知识星球的会员微信群中,有几个星友问到一个条款存在内容和顺序差异的协议对比问题,以及如何进一步封装一个可视化页面进行实现的需求。 我在过去的咨询项目中做过一个类似 demo,但是不是很完善。 过去两天花了点时间做了一些工程调参的优化,初步效果比较稳定了,这篇来做个思路分享。
8/4/2025 9:42:42 AM
韦东东

突破信息茧房:新闻学引导的AI如何通过“导语、引述、结论”精准破译立场密码?

大家好,我是肆〇柒。 我看到一篇由韩国KAIST与Soongsil University联合完成的研究论文《Journalism-Guided Agentic In-Context Learning for News Stance Detection》。 文中介绍了一种名为JOA-ICL的新闻学引导智能体上下文学习框架,通过分析新闻的导语、引述、结论等结构要素来精准识别长文本的隐含立场。
8/4/2025 9:36:19 AM
肆零柒

揭秘大模型的魔法:实现带可训练权重的自注意力机制

大家好,我是写代码的中年人。 上一篇我们实现了一个“无可训练参数”的注意力机制,让每个词都能“看看别人”,计算出自己的上下文理解。 虽然实现起来不难,但它只是个“玩具级”的注意力,离真正的大模型还差了几个“亿”个参数。
8/4/2025 9:31:49 AM
写代码的中年人

拆解 AgentMesh:一个可验证、可追溯的 AI 软件工厂

从"自动化"到"系统化"的范式转移大家好,我是肆〇柒,在当下AI辅助软件开发的各类工具中,单智能体(Single-Agent)系统成为主流——用户提交需求,LLM直接生成代码。 然而,这种"端到端"模式在面对复杂软件项目时暴露出根本性缺陷:上下文碎片化导致模型难以维持全局视角;角色混淆引发逻辑不一致(例如在编写代码时突然插入设计讨论);更严重的是,错误在单次生成中累积且难以修正,就像滚雪球般最终导致整个方案崩溃。 "一个单一的单体AI智能体可能难以处理整个软件项目端到端——从高层设计到调试,由于所需知识的复杂性和广度。
8/4/2025 9:20:07 AM
肆零柒

万亿参数狂欢!一文刷爆2025年七大顶流大模型架构

从最初的GPT架构问世以来,已经过去七年了。 回顾2019年GPT-2,再看2024-2025年的DeepSeek-V3和Llama 4,你会发现,这些模型的结构依然惊人地相似。 当然,位置嵌入已从绝对位置编码演变为旋转位置编码(RoPE),多头注意力(Multi-Head Attention)大多被分组查询注意力(Grouped-Query Attention)取代,更高效的SwiGLU激活函数也逐渐取代了GELU。
8/4/2025 9:20:00 AM

Qwen3杀入全球前三,中国技术正式挑战OpenAI霸权

说实话,看到Qwen3 2507版本跻身全球AI模型前三的消息时,我第一反应是有点不敢相信。 毕竟在这个被OpenAI、Anthropic主导的AI世界里,国产模型能达到这个高度,确实让人意外。 但数据不会撒谎。
8/4/2025 9:19:06 AM
阿丸笔记

弹尽粮绝!陶哲轩自曝遭资金断供,美顶尖数学圣殿IPAM命悬一线

数学大神正在遭遇「学术寒冬」! 菲尔兹奖得主陶哲轩自曝,科研经费全被切断,团队已「断粮」几乎无法开展研究。 美政府制裁大棒,如今挥向了加州大学洛杉矶分校(UCLA)。
8/4/2025 9:17:00 AM

马斯克再放大招!Grok AI短视频爆火,一夜全网刷屏

Grok的Imagine来了! 刚刚,马斯克宣布:Grok Imagine今天开始向所有Grok Heavy用户推出。 Grok iOS App升级,Imagine功能重磅升级!
8/4/2025 9:17:00 AM

阿里、南开大学发布免训练,视频大模型创新压缩方法

视频模型相比单图像输入需要对每一帧图像单独编码,这种序列化处理方式会导致token数量成倍增长,严重影响模型推理速度与扩展性。 传统的token压缩方法主要依赖于基于注意力机制的筛选,例如FastV、VisionZip、PLLaVA等方法虽然在图像领域取得了一定进展,但在视频理解中却暴露出语义覆盖不足,时序冗余无法处理等一系列问题。 为了解决这些难题,阿里巴巴通义实验室与南开大学计算机科学学院联合发布了创新压缩方法LLaVA-Scissor。
8/4/2025 9:11:07 AM

Sam Altman亲晒GPT-5实测问答,发布进入倒计时

今天凌晨2点,OpenAI联合创始人兼首席执行官Sam Altman晒了一张问答图,左上角使用的是ChatGPT-5,也就是大家期待的GPT-5模型。 也就是说,OpenAI基本已经完成了GPT-5的基础开发,进入安全、功能测试阶段将很快发布。 但从这张GPT-5的回答来看,似乎和o1、豆包、KIMI、DeepSeek的回答差不多,没有什么特别之处。
8/4/2025 9:08:34 AM

哥大学生全员AI作弊?小哥「创业逆袭」:不用AI等于输在起跑线!

Cluely创始人Roy Lee宣称,哥伦比亚大学几乎每位学生都使用AI工具作弊。 对此网友表示,「我上大学时,从未使用过AI。 那时候我们用的是脑子!
8/4/2025 9:08:00 AM

Anthropic官宣「封杀」OpenAI!GPT-5发布在即,竟被曝用Claude Code做开发?

掀桌,拔网线,彻底拉黑! 本周二,AI领域的两大巨头撕破脸。 据多位知情人士爆料,Anthropic公司已经切断了OpenAI对其所有大语言模型的API访问权限。
8/4/2025 8:58:00 AM

智能体将吞噬SaaS市场?专家意见两极分化

随着对智能体的炒作达到新高度,一种新兴理论认为,突破性的AI工具将终结长期存在的SaaS模式。 这一观点并非特别新颖,但一直不断被提及,微软CEO萨蒂亚·纳德拉(Satya Nadella)等人士就持此观点。 今年早些时候,纳德拉在BG2播客中表示,智能体将具备“多存储库增删查改”(创建、读取、更新和删除)功能,这将使底层SaaS工具变得过时。
8/4/2025 7:00:00 AM
Grant Gross

17 种 RAG 架构实现原理与选型

RAG(Retrieval-Augmented Generation)是一种结合外部知识检索与语言模型生成的混合技术架构。 它在大型语言模型(如 GPT)生成能力的基础上,通过外部知识库提高了准确性、时效性和可控性,广泛用于企业问答、搜索增强、智能客服、代码辅助、知识图谱等场景。 然而,RAG不是一个固定结构,也没有固定的套路,而是一套可以灵活演化的系统。
8/4/2025 6:05:00 AM
Andflow