模型

深度解析AI Agent：从概念、原理到构建模式，一文彻底搞懂！

随着大模型技术的飞速发展，一个重要的概念——Agent（也叫AI Agent）——应运而生，并迅速成为行业热点。尽管这个词汇现在被频繁提及，但它究竟是什么？它是如何运作的？

8/1/2025 2:43:00 AM 李木子

把指纹焊死在频率上：抗微调神经网络指纹的硬核方案来了

论文第一作者唐灵，张拳石老师课题组的博二学生。今天要聊的是个硬核技术 —— 如何给神经网络刻上抹不掉的 "身份证"。现在大模型抄袭纠纷不断，这事儿特别应景。

7/31/2025 9:42:57 AM

无需准确传感信号！轻松搞定「多段软体机械臂」复杂位姿与形状控制

软体机械臂由于其运动的非线性、时滞性与迟滞性而难以控制，而在多段软体机械臂（MSCA）内，其各段间的驱动、传感和运动的耦合更增加了控制难度。但同时，由于MSCA的各段可以相对独立地驱动，这类机械臂可以实现末端位姿控制、形状控制、控制过程中自动避障、实时交互等复杂控制任务。意大利比萨圣安娜高等学院和洛桑联邦理工学院的研究人员提出了一种利用双向循环神经网络(biLSTM)对于MSCA构型的规划与控制的策略，该方法即使运用不准确的内部传感信号也能实现上述复杂任务。

7/31/2025 9:08:00 AM

炮轰黄仁勋，决裂奥特曼！1700亿美元估值背后，硅谷最不好惹的AI狂人

Dario Amodei这位AI圈最敢说的大佬，因为家庭变故，找到了人生方向。作为Anthropic的CEO，他在2025年简直是「火力全开」，与行业对手、政府官员以及公众关于AI的看法展开了激烈交锋。他预测AI可能很快会淘汰50%的入门级白领工作，还在《纽约时报》上抨击了为期十年的AI监管禁令。

7/31/2025 9:07:00 AM

阿里刚刚开源Qwen3新思考模型：Agent能力超强，支持100万上下文

今天凌晨，阿里巴巴开源了Qwen3家族最新模型Qwen3-30B-A3B-Thinking-2507。 2507与之前阿里开源的Qwen3-30B-A3B-Thinking和Qwen3-235B-A22B-Thinking相比，在Agent智能体、AIME25数学、LiveCodeBench编程、GPQA解决复杂能力等方面，性能全部实现大幅度提升。同时，2507也超过了谷歌的最新小参数模型Gemini-2.5-Flash-Thinking。

7/31/2025 9:06:00 AM

我在WAIC看见的十大趋势

太热了，实在太热了。你能想象吗？一个AI行业展会，现在都有了一种明星演唱会的错觉。

7/31/2025 8:50:00 AM

1.5B参数撬动“吉卜力级”全能体验，国产开源之光多模态统一模型，来了

听说了吗，GPT-5这两天那叫一个疯狂造势，奥特曼怕不是真有些急了（doge）。但有一说一，回顾上半年最火AI事件，GPT-4o带来的“吉卜力”风暴，还是热度TOP。 △数据来自微信指数不仅由“万物皆可吉卜力”为始，GPT-4o生图功能被网友们疯玩至今，更重要的是，还引发了更深的技术思考：AIGC的范式，已经被悄然改变。

7/31/2025 8:45:00 AM

现代LLM架构设计一览：从DeepSeek-V3到Kimi K2

主要内容现代LLM架构的演进主要围绕以下几个核心目标：提高推理效率：通过GQA、MLA、滑动窗口注意力、MoE等技术减少内存占用和计算量。增强训练稳定性：通过归一化层（如RMSNorm）的放置和QK-Norm等技术优化训练过程。优化模型容量与性能：通过MoE实现更大参数量和知识吸收能力，同时保持推理效率。

7/31/2025 1:00:00 AM 常华Andy

全球首次，「AI记忆」开源落地！MIRIX同步上线APP

还记得第一次用 GPT 写邮件的惊喜吗？却也一定遇到过今天的 AI「忘性」——聊得再深入，窗口一关，历史烟消云散。因此，研究人员认为：从「对话」到「记忆」，将是AI进化的必经之路。

7/30/2025 9:15:00 AM

科学能力太强，这个多模态推理「六边形战士」被严重低估！Intern-S1开源登顶

在人声鼎沸的WAIC 2025上，一款堪称「全能高手科学明星」合体的大模型，由于在科学方面太优秀，反倒显得低调——但它的能力却无法被忽视。它能精准解析分子结构、看懂地震波图、推演化学反应路径……7月26日，上海人工智能实验室（上海AI实验室）发布并开源「书生」科学多模态大模型Intern-S1。它不仅多模态能力全球开源第一，文本能力比肩国内外一流模型，科学能力全模态达到国际领先。

7/30/2025 9:05:00 AM

狂拿大模型明星订单，一家清华系HPC-AI Infra公司浮出水面

不靠囤算力，拿下数家大模型明星公司订单。 93年创始人掌舵的清华系计算创业公司，有点出其不意。 2023上半年，百模大战开启，模型预训练需求空前爆发，在算力焦虑下，囤积算力成为一种趋同性动作，更充裕的算力几乎就等于金额更高的订单。

7/30/2025 8:47:00 AM

自回归模型杀回图像生成！实现像素级精准控制，比Diffusion更高效可控

当下的AI图像生成领域，Diffusion模型无疑是绝对的王者，但在精准控制上却常常“心有余而力不足”。在精确视觉控制、平衡多模态输入以及高昂的训练成本方面仍面临挑战。有没有一种更高效、控制更精准的范式？

7/30/2025 1:00:00 AM

抗干扰能力提升近40% ！无需对抗训练，北航上海AI Lab新蒸馏方法提升模型鲁棒性 | ICML 2025

在人工智能模型规模持续扩大的今天，数据集蒸馏（Dataset Distillation,DD）方法能够通过使用更少的数据，达到接近完整数据的训练效果，提升模型训练效率，降低训练成本。但是，通过数据集蒸馏训练的模型，要在安全性要求比较高的任务中（如医疗诊断、自动驾驶），实现不受干扰并保持性能效果，还有一定难度。来自北京航空航天大学、上海人工智能实验室和英国利物浦大学的研究团队，提出了名为ROME的新方法，这是首次将信息瓶颈理论引入数据集蒸馏任务。

7/29/2025 9:10:00 AM

毕树超入职Meta后首发声：十年前怀疑AGI，如今深信AGI已至！

加入Meta超级智能实验室后，毕树超首次发声：大多数人可能低估了AI的影响！十年前，他非常怀疑AGI，但在过去十年中，他逐渐接受了AGI，日渐笃定，甚至宣称：2025，AGI已来。上个月，他在哥伦比亚大学和哈佛大学就人工智能发表了两次演讲。

7/29/2025 9:07:00 AM

人类在被大语言模型“反向图灵测试”

2018 年，我曾在《深度学习》一书中，讲述了人工智能从逻辑运算模型向类脑计算模型转变的历程。回想 20 世纪 80 年代深度学习算法刚被发明时，计算机性能仅及今日的百万分之一。那时的我们无法预知，当这些算法随着规模扩大和数据增加会具备怎样的能力。

7/29/2025 2:55:00 AM

谁是Adam？NeurIPS 2025审稿爆年度最大笑话！Hinton也曾被拒稿

这几天，NeurIPS 2025的评审结果，陆续出炉了！让人措不及防的是，「Who's Adam」明晃晃地出现在了一位作者的审稿建议中，成为近来学术圈最大的笑柄。究竟是大模型不懂，还是审稿人疏忽了？

7/28/2025 9:14:00 AM

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

刘子儒博士毕业于香港城市大学数据科学专业，导师为赵翔宇教授及数学家周定轩教授。目前就职于华为香港研究所小艺团队，负责 RLVR 算法与扩散语言模型方向的研究。龚成目前在香港城市大学攻读博士学位，导师为张青富教授。

7/28/2025 9:12:00 AM

万亿美元新大陆！谁将主宰「人机共生」智能体经济时代？

人机共生、生态自治的未来经济形态人类社会正站在智能革命的临界点。当通用人工智能（AGI）的曙光尚未普照大地之时，一场由垂直领域智能体（Agent）驱动的经济变革已悄然席卷产业腹地。这场变革的必然性深植于技术演进与商业逻辑的双重土壤：基础大模型在算力、算法与数据的能效博弈中渐趋平稳，而真正的价值创造正从基础设施层向应用层猛烈迁移。

7/28/2025 9:10:00 AM

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉