AI在线 AI在线

理论

斯坦福的秘密武器:DSPy让程序员告别996

你有没有遇到过这样的情况:花了几周时间精心调试AI提示词,好不容易在GPT-4上达到理想效果,结果换到Claude或者国产大模型上就完全不行了? 然后又得重新开始漫长的提示词工程,一遍遍地调试、测试、优化...如果你正在被这种重复性工作折磨,今天要介绍的DSPy框架可能会彻底改变你的工作方式。 最近看到一个案例特别震撼:Llama 4 Scout从2/11的准确率提升到11/11的完美表现,而实现这个飞跃只需要一行代码的改动。
8/27/2025 1:00:00 AM
阿丸笔记

超简单!手把手教你玩转ClaudeCode,不会员!

如果我说 Claude Code 是目前世界上最强的 AI 生成工具,大家应该都没意见吧? 不是因为 Claude Code 牛逼,而是因为它底层使用了 Claude 4 Sonnet 满血模型,这是目前地表上生成代码最牛叉的模型,没有之一! 那问题来了,国内用户如何方便、低成本的使用 Claude Code 呢?
8/27/2025 12:00:00 AM
磊哥

ICML 2025 | 作业帮团队提出基于能量的偏好模型(EBM),攻克LLM对齐痛点,性能超越主流方法

在大模型(LLM)通过人类反馈进行对齐(RLHF)的过程中,核心的偏好建模方法Bradley-Terry模型(BTM)存在固有理论缺陷,导致模型训练不稳定、效果受限,甚至引发安全隐患。 来自作业帮教育科技(北京)有限公司的研究团队,在ICML 2025上提出了一种基于能量的新型偏好模型(EBM),名为无限偏好模型(IPM),并基于此设计了实用的能量偏好对齐(EPA)损失函数。 理论分析和大量实验表明,该方法从根本上解决了BTM的缺陷,在多个关键指标上显著超越DPO、IPO、KTO等主流离线对齐方法,为构建更稳定、更可靠、更安全的AI系统提供了新路径。
8/26/2025 5:17:00 PM
新闻资讯

RAG 文档解析工具选型指南

对于 RAG 系统而言,从文档中提取信息是一个不可避免的情况。 最终系统输出的质量很大程度上取决于从源内容中提取信息的效果。 过去,我曾从不同角度探讨过文档解析问题[1]。
8/26/2025 3:32:33 PM
Baihai IDP

刚刚,英伟达新模型上线!4B推理狂飙53倍,全新注意力架构超越Mamba 2

英伟达最近真的痴迷上「小模型」了。 刚刚,英伟达发布了一个全新的混合架构语言模型系列,Jet-Nemotron。 论文地址::。
8/26/2025 3:31:35 PM

黄仁勋罕见穿白裤,亲笔To签发售机器人大脑!英伟达VP:我们不造机器人,也不造车!宇树创始人:更强现实世界交互,网友:想要金字卡

编辑 | 云昭就在几个小时前,黄仁勋预告的“机器人芯片”,终于揭开谜底了。 这可是继 B300、Rubin 芯片后,老黄释放出的另一个重要的动作信号:机器人开发赛道,英伟达要认真搞起来。 当天晚间,Nvidia 官方 X 账号放出了一条非常模型的新品宣传视频。
8/26/2025 1:54:34 PM
云昭

AI+分子动力学,6.3万条轨迹重塑药物亲和力预测,超大规模蛋白-配体亲和力数据集来了

编辑丨&现实里,分子是不断运动的,它们的相遇与结合像是一部动态电影,而这也就为药物研发带来了艰巨的挑战:现有方法对这种复杂运动视而不见,模型在“标准基准”上看似成绩斐然,却往往在真实药物场景下失灵。 亲和力预测模型大多依赖公开数据集 PDBbind,其中约 2 万个复合物结构成了 AI 的训练教材。 但这类训练存在明显「信息泄漏」:模型可能学会的是数据集的特征,而非真实的物理规律。
8/26/2025 12:12:00 PM
ScienceAI

全网首发:安全性问题,使MCP成为AI应用的双刃剑,如何化险为夷呢?

人工智能正在重塑现代工作流程的核心架构,但这种强大能力也伴随着重大责任。 当大模型通过MCP与企业实时数据、执行工具进行交互时,安全性必须成为系统设计的基石。 MCP 可视为连接人工智能与组织敏感数据、API 和关键系统的桥梁——这座桥梁若存在任何漏洞,都可能导致数据泄露、业务中断甚至企业级灾难。
8/26/2025 9:30:52 AM
曹洪伟

从 “只会聊天” 到 “能办实事”:OpenAI Function Call 彻底重构 AI 交互逻辑(附完整接入指南)

在 AI 开发领域,有一个痛点几乎所有开发者都遇到过:当你用 OpenAI 的 API 开发聊天机器人时,它能侃侃而谈,但让它帮你查天气、订机票、调用公司内部接口时,它要么答非所问,要么直接 “瞎编” 一个结果。 这不是大模型不够聪明,而是传统的 LLM(大语言模型)本质上是 “文本生成器”—— 它擅长根据上下文生成连贯的文字,但缺乏与外部系统交互的能力。 直到Function Calling(函数调用)出现,这个局面才被彻底打破。
8/26/2025 9:17:02 AM

当AI成为预言家:大数据时代,我们正在失去理解世界的能力吗?

最近,我在斯坦福大学的一篇文章中读到了神经科学家Grace Huckins的观点,她提出了一个令人深思的问题:"虽然强大的AI工具和海量数据集正在推动实际进步,但它们可能没有深化我们对宇宙的理解。 "这句话像一记重锤,敲在了我的思考深处。 在这个AI大爆炸的时代,我们每天都在惊叹于技术的进步:AlphaFold预测蛋白质结构的准确性超越了实验方法,大型语言模型能够写出看似有深度的文章,AI系统可以识别出人类肉眼无法察觉的模式...但是,这些进步真的让我们更理解这个世界了吗?
8/26/2025 9:16:55 AM

ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术

本文第一作者是清华大学博士生张清杰,研究方向是大语言模型异常行为和可解释性;本文通讯作者是清华大学邱寒副教授;其他作者来自清华大学、南洋理工大学和蚂蚁集团。 如果我们的教科书里包含大量的污言秽语,那么我们能学好语言吗? 这种荒唐的问题却出现在最先进 ChatGPT 系列模型的学习过程中。
8/26/2025 9:15:00 AM

多智能体系统不是银弹

一、背景介绍可以了解到多智能体系统,正是通过独特的架构设计,让 AI 突破单智能体的能力边界,实现更复杂的任务协作。 多智能体组成虚拟团队,模拟人类专业协作模式,以解决超越单智能体能力边界的复杂问题。 image.png在众多多智能体框架中,LangGraph 的多智能体架构设计极具代表性,堪称实践典范。
8/26/2025 9:14:26 AM
架构精进之路

真实场景也能批量造「险」!VLM+扩散模型打造真实域自动驾驶极限测试

近期,懂车帝的《懂车智炼场》栏目对量产自动驾驶系统的NOA辅助驾驶功能进行了安全关键场景测试。 结果显示,在黑夜施工工地、高速公路前方车辆发生事故以及障碍物后突然驶出车辆等高风险场景中,目前尚无任何系统能够在测试中做到完全避免事故。 这类安全关键场景在真实道路上虽不常见,但一旦发生,可能导致人员伤亡或严重交通事故。
8/26/2025 9:10:00 AM

科学界论文高引第一人易主!AI站上历史巅峰

魔镜魔镜,谁是有史以来被引用次数最多的科学家? 答案:深度学习三巨头之一、图灵奖得主Yoshua Bengio。 如你所见,之所以提出这个问题,其实是因为相关消息正在引起热议ing。
8/26/2025 9:10:00 AM

最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室

能自动操作手机、电脑的智能体新SOTA来了。 通义实验室推出Mobile-Agent-v3智能体框架,在手机端和电脑端的多个核心榜单上均取得开源最佳。 它不仅能做交互界面的问答、描述、定位,也能一条指令独立完成复杂任务,甚至可以在多智能体框架中无缝扮演不同角色。
8/26/2025 9:08:00 AM

为防AI刷题,Nature等顶刊最新封面被做成数据集,考验模型科学推理能力|上海交通大学

近年来,以GPT-4o、Gemini 2.5 Pro为代表的多模态大模型,在各大基准测试(如MMMU)中捷报频传,纷纷刷榜成功。 然而,这些令人瞩目的进展也带来了一个愈发严峻的问题:当现有的“题库”逐渐被提前预训练进模型,我们如何才能持续、准确地评估这些顶尖AI的真实能力? 为了应对这一挑战,上海交通大学王德泉教授课题组巧妙地将“动态基准”这一理念与不断更新的科学前沿相结合,提出了MAC(多模态学术封面)基准:既然科学知识本身在不断演进,为什么不用最新的科学内容来测试AI呢?
8/26/2025 9:07:00 AM

2025临界点:AI智商超越人类,经济规则即将改写

在人类经济活动数字化的浪潮中,互联网和移动互联网走完了前两步,正在浮现中的AI经济,可能带来更大的变化。 人类经济活动正在数字化:1946年,人类发明了计算机,这标志着人类的计算经过几千年的演化,从手动到机械,终于到了电子形式。 计算机的出现,把计算能力提高到了远超过人脑计算能力的程度。
8/26/2025 9:06:00 AM

刚刚,马斯克将OpenAI和苹果告上法庭:指控ChatGPT垄断iPhone,自家Grok被打压

当地时间周一,马斯克向 OpenAI 和苹果「开炮」了! 据多家外媒报道,马斯克旗下 xAI 一纸讼书,控告它们通过 ChatGPT 和苹果 App Store 进行非法垄断。 在一则推文中,马斯克表示,自家 Grok 有 100 万条评论,评论分高达 4.9,但苹果仍然拒绝在任何排名中将 Grok 列入其中。
8/26/2025 9:04:00 AM