AI在线 AI在线

理论

Self-Play Critic:以“对抗博弈”创新大语言模型推理评估

大家好,我是肆〇柒。 今天,我想和大家聊一项创新的评估思路——Self-Play Critic(SPC)。 大型语言模型(LLM)目前已成为我们生活和工作中不可或缺的工具。
8/8/2025 3:00:00 AM
肆零柒

一篇120页AI4Research(科学研究AI)最新系统性综述

尽管AI在科学研究中的应用取得了显著进展,但目前仍缺乏对AI在科学研究(AI4Research)中应用的全面综述,为了填补这一空白,提出了一个全面的AI4Research调查,旨在提供一个统一的视角,并系统地分类AI在研究中的应用。 AI4Research的主流流程和分类,可以分为五个关键领域:(1)用于科学理解的AI,(2)用于学术调查的AI,(3)用于科学发现的AI,(4)用于学术写作的AI,以及(5)用于学术同行评审的AI。 这些领域各自有助于提升AI融合研究与出版的有效性和效率。
8/8/2025 2:22:00 AM

AI 智能体记忆机制详解

是否总感觉你在和 AI 助手重复着同样的对话? 你告诉它一些重要的事情,五分钟后,它就忘了。 很长一段时间以来,这就是和大多数 AI 进行对话的现实情况。
8/8/2025 2:15:00 AM
Baihai IDP

构建 AI 护城河的六大常见误区分析

这篇文章是反面教材:介绍六种最常见的误区 —— 它们看似是护城河,实则因未能夯实金字塔的核心能力层,而在悄然削弱你的竞争优势。 误区一:“我们拥有数十年积累的数据,因此占据优势。 ”现实情况:历史数据往往分散杂乱、标注混乱,或尘封在无人愿意触碰的旧系统中。
8/8/2025 2:11:12 AM
Baihai IDP

AI Agent系统的安全能力及可信治理的“三道防线”

在AI技术加速演进与广泛落地的当下,Agent系统作为具备自主感知、推理与执行能力的智能体,正日益成为企业智能化转型的核心驱动。 然而,随之而来的系统复杂性、任务自治性以及跨域协同能力,也引发了前所未有的安全挑战与治理难题。 为了构建一个既高效运行又可控可信的Agent系统,亟需在架构层面引入系统性的安全防护与治理机制。
8/8/2025 2:10:00 AM

AI应用开发的三个挑战

虽然AI技术已经广泛应用到许多业务场景,但真正成熟且有价值的AI应用还是凤毛麟角,常见的应用主要集中在AI助手和知识库之类,虽然企业管理者也希望将AI真正嵌入到管理流程和业务流程中,但效果还有待验证。 之所以如此,一方面,LLM与AI技术还有待进一步完善和提高,另一方面,大多数企业缺乏合格的AI开发人员。 除去这两方面的原因,我认为主要受制于AI应用开发面临的三个挑战。
8/8/2025 2:00:00 AM
张逸少

告别适配器:通用工具调用协议(UTCP)如何简化 AI 工具通信

UTCP 让任何 AI 代理都能直接跟任何工具对话——不管是 HTTP、gRPC、WebSocket,还是你的本地 CLI——无需包装器、无延迟、无锁定。 什么是 UTCP? UTCP 是一个全新标准,专为帮助 AI 代理与各种外部工具沟通而设计,不论这些工具用的是什么语言、风格或接口。
8/8/2025 1:45:00 AM
AI研究生

借助上下文工程优化任何AI代理框架

在人工智能代理技术飞速发展的当下,许多开发团队都深陷一系列棘手问题:代理时常出现幻觉输出、工作链中途断裂、提示词臃肿不堪,而团队往往将这些问题归咎于模型参数不足,一心寄望于更强大的模型能带来转机。 然而,事实却并非如此。 相关实践数据清晰地表明,73%的生产环境故障根源在于糟糕的上下文工程,而非模型本身的局限性。
8/8/2025 1:45:00 AM
大模型之路

炸裂!Apipost离线可用+AI全栈覆盖,2s开启速度无敌了!

Apipost是一款面向开发人员,包括前端、后端、测试人员以及团队协作的API开发管理工具,它集API文档开发、设计、调试、Mock、自动化测试及管理于一体,已形成从API设计、调试、文档生成、自动化测试到性能测试和管理的完整闭环,尤其在AI大模型集成、文档智能化生成领域持续突破,成为国内数百万开发者和测试人员构建高效研发链路的核心工具。 与其他传统工具相比,Apipost最大的优势在于无需登录即可使用,支持离线调试,同时保持了对复杂测试场景的支持;笔者近期在使用Apipost最新V8.1.20版本时还发现,其开启速度只需2s。 一、Apipost核心优势Apipost非常适合需要团队协作、注重文档管理和轻量体验的API开发团队。
8/8/2025 12:00:00 AM

硬核拆解大模型,从 DeepSeek-V3 到 Kimi K2 ,一文看懂 LLM 主流架构

自首次提出 GPT 架构以来,转眼已经过去了七年。 如果从 2019 年的 GPT-2 出发,回顾至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4,不难发现一个有趣的现象:尽管模型能力不断提升,但其整体架构在这七年中保持了高度一致。 当然,细节上仍有不少演进。
8/7/2025 9:40:00 PM
机器之心

硬核拆解大模型,从 DeepSeek-V3 到 Kimi K2 ,一文看懂 LLM 主流架构

自首次提出 GPT 架构以来,转眼已经过去了七年。 如果从 2019 年的 GPT-2 出发,回顾至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4,不难发现一个有趣的现象:尽管模型能力不断提升,但其整体架构在这七年中保持了高度一致。 当然,细节上仍有不少演进。
8/7/2025 9:40:00 PM
机器之心

AI生死局仅存6位玩家!Claude之父:大模型天生就有“搞钱”冲动!做了CC才能懂模型如何进化!即使AI停滞,产品还要再做十年

出品 | 51CTO技术栈(微信号:blog51cto)说起来,今天已经立秋了,但 AI 圈的这个“盛夏”显然还没结束。 这几天,几大巨头接连出招,行业硝烟味渐浓。 明天大概率还有GPT-5要出来炸场。
8/7/2025 5:01:36 PM
伊风

Grok 辣味模式失控!输入“庆祝”输出“脱衣”

马斯克旗下AI工具Grok又因为负面新闻上热搜了。 这一次,它在毫无明确指令的情况下,自动生成了歌手泰勒·斯威夫特的裸照。 事件发生在Grok最新的功能“Grok Imagine”刚刚上线之后。
8/7/2025 4:27:28 PM

24 帧·720p·无限交互!谷歌 Genie 3 开启“造梦引擎 2.0”

昨天,Google Deepmind推出新一代AI系统Genie 3,能够根据简单文本生成实时互动的3D虚拟世界。 这一模型不仅能构建世界,还能让用户以每秒24帧、720p分辨率的画质在其中自由探索。 与传统视频生成不同,Genie 3采用自回归方式逐帧生成画面,每一帧都会参考多达一分钟内的环境细节。
8/7/2025 4:25:28 PM

刚刚,小红书开源了多模态大模型dots.vlm1,性能直追SOTA!

最近的AI圈只能说是神仙打架,太卷了。 OpenAI终于发了开源模型,Claude从Opus 4升级到4.1,谷歌推出生成游戏世界的Genie 3引发社区热议。 国产模型这边,就在前几天,HuggingFace上排在最前面的10个开源模型还都来自国内。
8/7/2025 4:24:19 PM
新智元

刚刚,GPT-5内测抢先泄露!推理强到离谱,智商被曝140超越人类天才

就在明天,GPT-5总算要靴子落地了。 周五凌晨,GPT-5、GPT-5 Mini和GPT-5 Nano将同时推出。 全网用户都可以立即通过API和ChatGPT访问这三个模型。
8/7/2025 4:21:27 PM

一夜颠覆Sora神话,H200单卡5秒出片!全华人团队开源AI引爆视频圈

单块H200,5秒即生一个5秒视频。 最近,UCSD、UC伯克利、MBZUAI三大机构联手,祭出FastWan系视频生成模型。 论文地址:「稀疏蒸馏」全新的训练方案,实现了高效生成,让视频去噪速度实现70倍飙升。
8/7/2025 4:18:35 PM

谷歌开源DeepPolisher,基因组组装错误率减半,Jeff Dean:令人振奋!

编辑丨coisini精确的基因组组装(Genome assembly)是生物学研究的基石,但即便是最高质量的组装仍会残留构建技术导致的错误。 人类基因组包含 30 亿个核苷酸,即使微小的错误率也会导致错误总量惊人,进而削弱基因组数据的应用价值。 碱基层面的错误通常需要通过额外的抛光(polishing)步骤来修正 —— 该步骤利用与初版组装比对后的测序读段来识别必要的编辑。
8/7/2025 3:17:00 PM
ScienceAI