AI在线 AI在线

理论

人工智能代理不是玩具,而是工人

为什么必须像评估劳动力一样评估LLM代理,而不仅仅是评估软件。 如果组织仅通过代码行数或聊天完成度等指标来衡量 AI 代理,则可能会低估其最具变革性的价值。 在许多方面,AI 代理更像员工,而不是传统的软件程序:它们可以学习、适应,甚至与人类团队合作。
3/13/2025 1:29:32 PM
佚名

DeepSeek“防弹衣”来了,模型内生安全加固方案,拒绝杀敌一千自损八百|上海AI Lab

最新研究显示,以超强推理爆红的DeepSeek-R1模型竟藏隐形危险——即便最终拒绝回答,其思考过程仍可能泄露有害内容。 现有防御技术深陷两难:要么防不住攻击,要么让模型变成”惊弓之鸟”,连正常问题都拒绝回答。 上海交大与上海AI Lab联合推出安全防御方案——X-Boundary,试图破解两难局面。
3/13/2025 1:10:00 PM
量子位

自动调整推理链长度,SCoT来了!为激发推理能力研究还提出了一个新架构

不怕推理模型简单问题过度思考了,能动态调整CoT的新推理范式SCoT来了! SCoT,即自结构化推理链(Self-structured Chain of Thought )。 它通过将推理过程分解为最小语义原子步骤,能动态生成适配不同复杂度问题的CoT结构,解决了现有方法在推理多样性和效率上的不足。
3/13/2025 1:00:00 PM
量子位

“谷歌版DeepSeek”接入机器人,思维链解锁折纸系鞋带技能,推理模型代入物理世界

谷歌把推理大模型带入物理世界,机器人可以一边思考一边动作了!成功解锁折纸、系鞋带这种精细技能。 灵活性方面也拉满,能及时根据环境变化改变计划,根本不怕人类捣乱。 还可以适应机械臂、人形机器人等不同身体形态。
3/13/2025 12:44:56 PM
量子位

DeepSeek玩家能提前拿苹果新品!只要15万元,在家跑满血版R1

号称地表最强的M3 Ultra,本地跑满血版DeepSeek R1,效果到底如何? 其实,有些DeepSeek玩家们已经提前拿到手做过实测了。 例如这位Alex老哥就是其中之一:他提前拿到了两台搭载M3 Ultra的Mac Studio,配置是这样的:M3 Ultra(32 核中央处理器、80 核图形处理器和 32 核神经网络引擎)512G统一内存1TB固态硬盘具体来说,Alex老哥用配备Thunderbolt 5互连技术(传输速率为 80Gbps)的EXO Labs设备,来运行完整的DeepSeek R1模型(671B、8-bit)。
3/13/2025 12:41:37 PM
量子位

11B模型拿下开源视频生成新SOTA!仅用224张GPU训练,训练成本省10倍

224张GPU,训出开源视频生成新SOTA! Open-Sora 2.0正式发布。 11B参数规模,性能可直追HunyuanVideo和Step-Video(30B)。
3/13/2025 12:39:22 PM
量子位

RAG(三)GraphRAG进阶:GraphReader-- 基于图的Agent,让大模型“读懂”长文本

上一篇论文介绍了GraphRAG,今天来看一篇算是其进阶版的方法--GraphReader。 对于其研究动机,简单来说,LLMs具有强大的规划和反思能力,但在解决复杂任务时,如函数调用或知识图谱问答(KGQA),以及面对需要多次推理步骤的问题时,仍然面临困难。 特别是当涉及到长文本或多文档的处理时,现有的方法往往难以充分利用这些模型的能力来捕捉全局信息,并有效地进行决策。
3/13/2025 12:24:34 PM
Glodma

大型语言模型是否解决了搜索问题?

译者 | 李睿审校 | 重楼尽管LLM在内容生成方面表现出色,但需要采用语义分块和向量嵌入等技术来解决复杂数据环境中的搜索问题。 大型语言模型(LLM)的涌现推动了信息检索和人机交互的范式转变。 这些模型在大量的文本语料库上进行训练,并针对预测语言任务进行了优化,在响应查询、总结文本内容和生成上下文相关信息方面展现出了显著成效。
3/13/2025 12:09:27 PM
李睿

RAGFlow自动化脚本套件:自定义解析+回答质量评估+参数自动调优

最近 MCP(大模型上下文协议)比较火,花了点时间研究了下和 RAG 的协作架构,后续整理出心得后再发出。 言归正传,之前文章里详细介绍了 RAGFlow 的 Python api 用法,今天结合几篇法律法规文档来给大家做个简单演示,抛砖引玉。 这篇主要介绍三个脚本示例,分别是:数据处理与系统配置,系统测试,参数优化脚本。
3/13/2025 11:29:03 AM
韦东东

长链推理表象下,大模型精细表征张冠李戴的本质

近些年,大模型的发展可谓是繁花似锦、烈火烹油。 从 2018 年 OpenAI 公司提出了 GPT-1 开始,到 2022 年底的 GPT-3,再到现在国内外大模型的「百模争锋」,DeepSeek 异军突起,各类大模型应用层出不穷。 然而,无论在学术界还是在工业界,目前对大模型应用的评测都是单纯在模型输出层面判断结果的准确性,而没有从大模型内在精细决策逻辑的角度来分析模型的可靠性。
3/13/2025 11:18:14 AM
张拳石、陈鹭

YOLOe问世,实时观察一切,统一开放物体检测和分割

它能像人眼一样,在文本、视觉输入和无提示范式等不同机制下进行检测和分割。 自 2015 年由华盛顿大学的 Joseph Redmon 研究团队提出 YOLO(You Only Look Once)以来,这项突破性的目标检测技术就像为机器装上了「闪电之眼」,凭借单次推理的实时性能刷新了计算机视觉的认知边界。 传统的 YOLO 系列如同我们人工效准的精密仪器,其识别能力被严格框定在预定义的类别目录之中,每个检测框的背后,都需要工程师手动输入认知词典。
3/13/2025 11:11:04 AM
机器之心

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

大语言模型(LLM)在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力,比如 OpenAI 的 o1 系列。 通常来说,这些方法在训练模型时可以产生比典型正确解决方案更长的轨迹,并包含了试图实现某些「算法」的 token:例如反思前一个答案、规划或实现某种形式的线性搜索。 这些方法包括显式地微调预训练 LLM 以适应算法行为,例如对搜索数据进行监督微调(SFT)或针对 0/1 正确性奖励运行结果奖励(outcome-reward,OR)RL。
3/13/2025 11:07:30 AM
机器之心

阿里妈妈搜索广告2024大模型思考与实践

作者:石士阿里妈妈技术团队一、概览随着大模型时代的到来,搜推广模型是否具备新的进化空间? 能否延续像深度学习时期那样迸发旺盛的迭代生命? 带着这样的过去,阿里妈妈搜索广告在两年的持续探索中,逐步成功清理了一些关键问题,落地了多个优化方向。
3/13/2025 10:51:00 AM
机器之心

担心成为「AI界奥本海默」!DeepMind、Anthropic CEO同框,26年AGI降临?

当今世界,谁最有可能成为「AI时代的奥本海默」? DeepMind的创始人Hassabis与Anthropic的创始人Dario无疑是热门人选。 近日,这两位AI巨头罕见地坐到了一起,在《经济学人》的访谈中,直面AGI(通用人工智能)带来的种种争议与挑战。
3/13/2025 10:50:00 AM
新智元

只需7.6% token,性能还更强!华人团队提全新「草稿链」CoD,成本延迟大降

当下,企业正处于部署AI的关键节点。 随着AI系统在企业运营中的深度融合,计算成本与响应时间成为阻碍AI广泛应用的主要瓶颈。 来自Zoom的华人研究团队取得了一项突破性成果,他们开发的「草稿链」(Chain of Draft,CoD)技术,有望从根本上改变企业大规模部署AI的模式。
3/13/2025 10:40:00 AM
新智元

DeepSeek 开源 EPLB,世界上从来没有什么腾空出世!

deepseek开源DualPipe的同一天,还开源了EPLB。 今天来简单聊聊EPLB,包懂。 EPLB是干嘛的?
3/13/2025 10:31:20 AM
架构师之路

Open-Sora 2.0全面开源,20万复刻百万级大片!11B媲美闭源巨头,224张GPU创奇迹

今天,视频生成领域迎来开源革命! Open-Sora 2.0——全新开源的SOTA(State-of-the-Art)视频生成模型正式发布,仅用20万美元(224张GPU)成功训练出商业级11B参数视频生成大模型,性能直追HunyuanVideo和30B参数的Step-Video。 权威评测VBench及用户偏好测试均证实其卓越表现,在多项关键指标上媲美动辄数百万美元训练成本的闭源模型。
3/13/2025 10:26:45 AM
新智元

迈向视觉大一统:UnifiedReward,多模态生成与理解的通用奖励模型

本篇文章来自公众号粉丝投稿,论文提出了一个视觉领域通用的奖励模型UnifiedReward,能够对图像/视频的生成与理解进行pairwise(成对比较)或 pointwise(单样本打分)评估,可用于视觉各领域的直接偏好优化 (DPO),提升各类视觉模型的表现。 论文介绍近年来,大模型时代的多模态生成与理解技术取得了飞跃式发展。 然而,如何让AI真正“看懂”世界,并更好地对齐人类偏好,仍是一个核心挑战。
3/13/2025 10:18:42 AM
Yibin Wang