理论
Self-Play Critic:以“对抗博弈”创新大语言模型推理评估
大家好,我是肆〇柒。 今天,我想和大家聊一项创新的评估思路——Self-Play Critic(SPC)。 大型语言模型(LLM)目前已成为我们生活和工作中不可或缺的工具。
8/8/2025 3:00:00 AM
肆零柒
一篇120页AI4Research(科学研究AI)最新系统性综述
尽管AI在科学研究中的应用取得了显著进展,但目前仍缺乏对AI在科学研究(AI4Research)中应用的全面综述,为了填补这一空白,提出了一个全面的AI4Research调查,旨在提供一个统一的视角,并系统地分类AI在研究中的应用。 AI4Research的主流流程和分类,可以分为五个关键领域:(1)用于科学理解的AI,(2)用于学术调查的AI,(3)用于科学发现的AI,(4)用于学术写作的AI,以及(5)用于学术同行评审的AI。 这些领域各自有助于提升AI融合研究与出版的有效性和效率。
8/8/2025 2:22:00 AM
AI 智能体记忆机制详解
是否总感觉你在和 AI 助手重复着同样的对话? 你告诉它一些重要的事情,五分钟后,它就忘了。 很长一段时间以来,这就是和大多数 AI 进行对话的现实情况。
8/8/2025 2:15:00 AM
Baihai IDP
构建 AI 护城河的六大常见误区分析
这篇文章是反面教材:介绍六种最常见的误区 —— 它们看似是护城河,实则因未能夯实金字塔的核心能力层,而在悄然削弱你的竞争优势。 误区一:“我们拥有数十年积累的数据,因此占据优势。 ”现实情况:历史数据往往分散杂乱、标注混乱,或尘封在无人愿意触碰的旧系统中。
8/8/2025 2:11:12 AM
Baihai IDP
AI Agent系统的安全能力及可信治理的“三道防线”
在AI技术加速演进与广泛落地的当下,Agent系统作为具备自主感知、推理与执行能力的智能体,正日益成为企业智能化转型的核心驱动。 然而,随之而来的系统复杂性、任务自治性以及跨域协同能力,也引发了前所未有的安全挑战与治理难题。 为了构建一个既高效运行又可控可信的Agent系统,亟需在架构层面引入系统性的安全防护与治理机制。
8/8/2025 2:10:00 AM
AI应用开发的三个挑战
虽然AI技术已经广泛应用到许多业务场景,但真正成熟且有价值的AI应用还是凤毛麟角,常见的应用主要集中在AI助手和知识库之类,虽然企业管理者也希望将AI真正嵌入到管理流程和业务流程中,但效果还有待验证。 之所以如此,一方面,LLM与AI技术还有待进一步完善和提高,另一方面,大多数企业缺乏合格的AI开发人员。 除去这两方面的原因,我认为主要受制于AI应用开发面临的三个挑战。
8/8/2025 2:00:00 AM
张逸少
告别适配器:通用工具调用协议(UTCP)如何简化 AI 工具通信
UTCP 让任何 AI 代理都能直接跟任何工具对话——不管是 HTTP、gRPC、WebSocket,还是你的本地 CLI——无需包装器、无延迟、无锁定。 什么是 UTCP? UTCP 是一个全新标准,专为帮助 AI 代理与各种外部工具沟通而设计,不论这些工具用的是什么语言、风格或接口。
8/8/2025 1:45:00 AM
AI研究生
借助上下文工程优化任何AI代理框架
在人工智能代理技术飞速发展的当下,许多开发团队都深陷一系列棘手问题:代理时常出现幻觉输出、工作链中途断裂、提示词臃肿不堪,而团队往往将这些问题归咎于模型参数不足,一心寄望于更强大的模型能带来转机。 然而,事实却并非如此。 相关实践数据清晰地表明,73%的生产环境故障根源在于糟糕的上下文工程,而非模型本身的局限性。
8/8/2025 1:45:00 AM
大模型之路
炸裂!Apipost离线可用+AI全栈覆盖,2s开启速度无敌了!
Apipost是一款面向开发人员,包括前端、后端、测试人员以及团队协作的API开发管理工具,它集API文档开发、设计、调试、Mock、自动化测试及管理于一体,已形成从API设计、调试、文档生成、自动化测试到性能测试和管理的完整闭环,尤其在AI大模型集成、文档智能化生成领域持续突破,成为国内数百万开发者和测试人员构建高效研发链路的核心工具。 与其他传统工具相比,Apipost最大的优势在于无需登录即可使用,支持离线调试,同时保持了对复杂测试场景的支持;笔者近期在使用Apipost最新V8.1.20版本时还发现,其开启速度只需2s。 一、Apipost核心优势Apipost非常适合需要团队协作、注重文档管理和轻量体验的API开发团队。
8/8/2025 12:00:00 AM
硬核拆解大模型,从 DeepSeek-V3 到 Kimi K2 ,一文看懂 LLM 主流架构
自首次提出 GPT 架构以来,转眼已经过去了七年。 如果从 2019 年的 GPT-2 出发,回顾至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4,不难发现一个有趣的现象:尽管模型能力不断提升,但其整体架构在这七年中保持了高度一致。 当然,细节上仍有不少演进。
8/7/2025 9:40:00 PM
机器之心
硬核拆解大模型,从 DeepSeek-V3 到 Kimi K2 ,一文看懂 LLM 主流架构
自首次提出 GPT 架构以来,转眼已经过去了七年。 如果从 2019 年的 GPT-2 出发,回顾至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4,不难发现一个有趣的现象:尽管模型能力不断提升,但其整体架构在这七年中保持了高度一致。 当然,细节上仍有不少演进。
8/7/2025 9:40:00 PM
机器之心
AI生死局仅存6位玩家!Claude之父:大模型天生就有“搞钱”冲动!做了CC才能懂模型如何进化!即使AI停滞,产品还要再做十年
出品 | 51CTO技术栈(微信号:blog51cto)说起来,今天已经立秋了,但 AI 圈的这个“盛夏”显然还没结束。 这几天,几大巨头接连出招,行业硝烟味渐浓。 明天大概率还有GPT-5要出来炸场。
8/7/2025 5:01:36 PM
伊风
Grok 辣味模式失控!输入“庆祝”输出“脱衣”
马斯克旗下AI工具Grok又因为负面新闻上热搜了。 这一次,它在毫无明确指令的情况下,自动生成了歌手泰勒·斯威夫特的裸照。 事件发生在Grok最新的功能“Grok Imagine”刚刚上线之后。
8/7/2025 4:27:28 PM
24 帧·720p·无限交互!谷歌 Genie 3 开启“造梦引擎 2.0”
昨天,Google Deepmind推出新一代AI系统Genie 3,能够根据简单文本生成实时互动的3D虚拟世界。 这一模型不仅能构建世界,还能让用户以每秒24帧、720p分辨率的画质在其中自由探索。 与传统视频生成不同,Genie 3采用自回归方式逐帧生成画面,每一帧都会参考多达一分钟内的环境细节。
8/7/2025 4:25:28 PM
刚刚,小红书开源了多模态大模型dots.vlm1,性能直追SOTA!
最近的AI圈只能说是神仙打架,太卷了。 OpenAI终于发了开源模型,Claude从Opus 4升级到4.1,谷歌推出生成游戏世界的Genie 3引发社区热议。 国产模型这边,就在前几天,HuggingFace上排在最前面的10个开源模型还都来自国内。
8/7/2025 4:24:19 PM
新智元
刚刚,GPT-5内测抢先泄露!推理强到离谱,智商被曝140超越人类天才
就在明天,GPT-5总算要靴子落地了。 周五凌晨,GPT-5、GPT-5 Mini和GPT-5 Nano将同时推出。 全网用户都可以立即通过API和ChatGPT访问这三个模型。
8/7/2025 4:21:27 PM
一夜颠覆Sora神话,H200单卡5秒出片!全华人团队开源AI引爆视频圈
单块H200,5秒即生一个5秒视频。 最近,UCSD、UC伯克利、MBZUAI三大机构联手,祭出FastWan系视频生成模型。 论文地址:「稀疏蒸馏」全新的训练方案,实现了高效生成,让视频去噪速度实现70倍飙升。
8/7/2025 4:18:35 PM
谷歌开源DeepPolisher,基因组组装错误率减半,Jeff Dean:令人振奋!
编辑丨coisini精确的基因组组装(Genome assembly)是生物学研究的基石,但即便是最高质量的组装仍会残留构建技术导致的错误。 人类基因组包含 30 亿个核苷酸,即使微小的错误率也会导致错误总量惊人,进而削弱基因组数据的应用价值。 碱基层面的错误通常需要通过额外的抛光(polishing)步骤来修正 —— 该步骤利用与初版组装比对后的测序读段来识别必要的编辑。
8/7/2025 3:17:00 PM
ScienceAI
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
AI新词
智能体
马斯克
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
计算
工具
Sora
GPU
华为
大语言模型
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
AGI
深度学习
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
编程
DeepMind
亚马逊
特斯拉
AI模型