理论

南洋理工、北大、上海AI实验室开源长记忆世界模型

目前，世界模型的模拟方法在维持长期一致性方面仍面临巨大挑战。许多模拟环境在视角移动或时间推移后会出现内容变化，导致 3D 空间不一致，严重影响了用户体验和模拟效果的可靠性。为了解决这一难题，南洋理工大学、北京大学王选计算机技术研究所、上海人工智能实验室的研究人员联合开源了长记忆世界模型WORLDMEM。

7/22/2025 10:45:55 AM

碾压DeepSeek V3！阿里开源新版Qwen-3，屠榜级断层第一

今天凌晨1点，阿里巴巴开源了Qwen3系列新版本Qwen3-235B-A22B-2507。比较意外的是，阿里已经停用了混合思考模型，新版Qwen3是一个非思维推理，又回到了指令微调模型，但性能非常强劲。根据阿里公布的数据显示，新版Qwen3在知识、推理、代码、对齐、智能体、多语言测试6大类几十种测试基准中，全部大幅度超过了DeepSeek开源的新版V3-0324模型。

7/22/2025 10:43:25 AM

并行革命，32倍吞吐量跃升！英伟达Helix架构突破百万Token推理瓶颈

想象一个使用大模型的任务，需要一次处理百万字符的文档，例如从百科全书中获取信息，或是分析数百页的法律卷宗，异或追踪持续数月的对话记录，都需要越来越长的上下文。而大模型生成的每个词都需要扫描存储在所谓的KV缓存中存储的过去标记。反复读取这个缓存会消耗GPU内存带宽。

7/22/2025 10:40:00 AM

刷新世界纪录！神秘学生击败谷歌AlphaEvolve难题最优解，优势仅0.00006442

一个还在上学的少年在AI的帮助下，击败了谷歌最先进的技术，创造了新的世界纪录！当IMO闹剧还在争论，这个少年靠着AI已经在数学问题上逆袭了谷歌最先进的、用于设计高级算法的AlphaEvolve。在「Circle Packing」问题上，这个少年的算法以「0.00006442」的优势超过了谷歌AlphaEvolve，也超过了此前的FICO Xpress创造的纪录。

7/22/2025 10:38:02 AM

超越Claude 3.5和o1！8B模型靠「分层投票+测试时训练」逆袭

测试时训练（test-time training）是一种通用的训练方法。该方法将单个未标记的测试实例转化为自监督学习问题，在对测试样本进行预测之前更新模型参数。而对于大模型训练，通常会使用一种称为情境学习的技术来提高其模型在新任务上的性能。

7/22/2025 10:22:02 AM

深度解析 MEM1：开启智能体长时序高效交互之门

大家好，我是肆〇柒。相信大家在落地AI应用的时候，对长上下文的处理时所遇到的挑战，都深有感触。大型语言模型（LLM）于单轮任务中表现卓越，然而现实应用场景日益复杂，多轮交互需求剧增。

7/22/2025 4:00:00 AM

四零柒

深度解密国内BAS如何实现AI赋能的智能化安全验证攻防新范式！

在网络安全形势日益复杂、各类威胁不断涌现的当下，人工智能（AI）已然成为推动各行业数字化转型以及提升安全防御能力的关键力量。 AI正从根本上重塑BAS(入侵与攻击模拟)，使其从传统的“模拟验证工具”进化为“智能对抗中枢”。其核心价值在于：通过赋能动态攻击生成、自适应路径探索、智能化结果分析与自动化策略闭环，将BAS的全生命周期智能化。

7/22/2025 2:11:00 AM

安全牛

Dify 1.6.0原生MCP开发出行助手智能体

前言AI智能体通过感知环境、自主决策和执行任务，突破传统大模型仅限于语言交互的局限。然而，智能体的开发长期受制于接口碎片化与工具兼容性难题。开发者需为不同数据源编写适配代码，这一痛点催生了MCP协议的诞生。

7/22/2025 2:00:00 AM

AI大模型应用开发

AIGC、RAG、Agent、Function Call、MCP 到底啥关系？一次讲明白！

Hello，大家好，我是 Sunday。最近很多同学特别关注 AI 相关的领域。但是，AI 技术发展太快了，AIGC、RAG、Agent、Function Call、MCP 等等的各种热词层出不穷的。

7/22/2025 1:55:00 AM

程序员Sunday

IMO怒斥OpenAI自封夺金，“91位评委均未参与评分”，网友：炒作无下限

OpenAI声称新模型获得IMO金牌不到24小时，剧情就出现了大反转！多位IMO官方人士和学界大佬纷纷发声，直指OpenAI的做法“粗鲁且不恰当”。 IMO主办方要求AI公司在闭幕式一周后再公布结果，让关注的焦点留在参赛的青少年上，然而OpenAI偏偏选择在闭幕式刚结束就急不可耐地宣布了成绩。

7/21/2025 2:27:44 PM

惊到了！大神炮轰CUDA：CUDA存致命缺陷，它不是未来！这种新语言将打破英伟达的GPU垄断地位，护城河终会消失！

编辑 | 云昭CUDA一直被视为英伟达GPU的最强壁垒，让许多业界的玩家望洋兴叹。但，今天这篇文章会给各位习惯C 、CUDA开发的大佬提个醒：有一种新的编程语言，正在AI圈兴起，撬动英伟达的围墙花园。而CUDA也不再是护城河。

7/21/2025 12:53:30 PM

云昭

数百个虚拟人在线逃生！天大等发布：首个实时在线多智能体模拟方法

人群疏散模拟对于提高公共安全至关重要，也是构建逼真虚拟动态环境所需要的技术，其发展面临着复杂人类行为建模难的挑战。现有的疏散模拟方法常以2D点表示人群，关注人群位置和轨迹，但忽略了复杂人类行为，如碰撞、交互、摔倒等，以及三维环境、个体行为能力的影响，导致模拟结果不真实。而现有的三维运动生成方法和角色控制方法也无法同时保证实时性、合理性、个性化、动态感知、以及适用于任意场景和地形，如表1所示。

7/21/2025 11:51:58 AM

斯坦福开源复杂推理AI Agent，融合超十种工具

传统的AI助手通常依赖于单一模型或有限的工具集，难以应对需要多步推理、跨领域知识融合及高精度数据分析的任务。例如，解决视觉谜题，需要精细图像理解和基于文本的混合推理。为了解决这一难题，斯坦福开源了OctoTools，这是一个融合了11种不同工具专用于复杂推理的AI Agent。

7/21/2025 11:51:12 AM

OpenAI被曝IMO金牌「造假」，陶哲轩怒揭内幕！

OpenAI夺下IMO金牌，最新大瓜又来了。昨日，因内部审核流程，谷歌DeepMind研究员在评论区，暗讽OpenAI抢先发布测试结果。图片原来，事情并非那么简单。

7/21/2025 11:48:54 AM

新智元

2023年，ChatGPT的横空出世让全球惊叹于大模型的智能水平。自此，国内也掀起了新一轮的大模型热潮，首先，百度发布了文心一言，紧接着，阿里、腾讯、华为、京东等大厂先后入局，更值得一提的是，大模型热度的居高不下，也吸引了不少创业公司的加入，零一万物、Kimi、面壁智能....随着两年时间的发展，如今大模型的智能水平早已不可同日而语，从在自然语言处理领域实现与人类流畅对话，到在图像视频领域精准识别各类物体，从最初简单的问答，到快速且精准地解决生活、工作、学习等在各场景中遇到的问题，大模型的表现也在不断刷新我们的认知。然而，这些卓越表现并非凭空而来，大模型的强大背后，离不开高质量数据库的坚实支撑。

7/21/2025 11:05:04 AM