AI

AI Agent 产品交互设计：设计模式与案例分析

作者 | 贾思玉、亢江妹或许你还记得 ChatGPT 问世时的轰动，第一次使用 DeepSeek R1 的兴奋和激动也历历在目。 AI Agent 发展一日千里，今年以来，几乎每个月都有新的 AI Agent 产品发布，现有产品也不断更新换代，让人目不暇接。本文将从体验设计视角，来看看当下热门的 AI Agent 产品，如 Manus、Flowith、Gemini Deep Research、Cursor、Devin 等，分析 Agent 产品面临的设计挑战，探讨有效的交互设计模式，以及如何打造高效、易用、友好的 Agent 交互体验。

6/6/2025 9:46:57 AM

Thoughtworks洞见

0day 漏洞量产？AI Agent “生产线”曝光

作者 | 悟空团队 — 新一代 AI 代码安全捉“妖”行者（原腾讯AI安全-啄木鸟团队)随着AI技术的迅猛发展，AI智能体在0day漏洞挖掘领域展现出前所未有的潜力。本文将深入探讨AI Agent如何通过创新的多智能体协作系统，打造出高效的0day漏洞“生产线”，实现自动化的漏洞检测。通过基准测试和实战验证，Agent在复杂代码和大型项目中的表现超越传统工具，极大提升了漏洞识别效率与准确性。

6/6/2025 9:29:16 AM

腾讯程序员

用Cursor / Trae AI 开发Go项目时，记得先做这些

这几天“字节内部禁止使用Cursor 等AI 编程工具” 的新闻挂上了热搜，字节自己的AI 编程工具 Trae 也趁机开始了收费模式，这两个新闻同时出现，字节还是挺会炒作的。随着Trae 的收费，我对Trae 长达半年的白嫖也算是到头了，不过好在公司每月给报销Cursor的费用，不然现在没有AI让我手敲代码我还真有点不习惯。现在我几乎所有代码都让AI先写一遍自己再微调，甚至连一条SQL都懒得敲。

6/6/2025 9:18:17 AM

网管叨bi叨

危险？OpenAI 模型行为负责人：人类很快会进入「AI意识」，当前最重要是控制人机关系的影响

AI是否真的有意识？ ChatGPT最近越来越懂你了？ OpenAI模型行为与政策负责人Joanne Jang刚刚写了一篇长文，她并未纠缠于“AI是否真的有意识”这个哲学难题，而是提出了一个更具现实意义和紧迫性的视角：与其争论AI的“本体”，不如关注它对人类“情感福祉”的实际影响。

6/6/2025 9:15:52 AM

精准调控大模型生成与推理！浙大&腾讯新方法尝试为其注入“行为定向剂”

如果你面前有两个AI助手：一个能力超强却总爱“离经叛道”，另一个规规矩矩却经常“答非所问”，你会怎么选？这正是当前大模型控制面临的两难困境：要么模型聪明却难以约束，要么守规矩却缺乏实用性。但我们真正追求的，并不是在“聪明但难控”与“听话但愚钝”之间二选一，而是打造既强又好的AI助手——既具备强大的智能能力，又能始终按照人类意图行事。

6/6/2025 9:15:00 AM

Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

近期arxiv最热门论文，Qwen&清华LeapLab团队最新成果：在强化学习训练大模型推理能力时，仅仅20%的高熵token就能撑起整个训练效果，甚至比用全部token训练还要好。团队用这个发现在Qwen3-32B上创造了新的SOTA记录：AIME’24上达到63.5分，AIME’25上达到56.7分，这是600B参数以下直接从base模型训练的最高分。最大响应长度从20k延长到29k，AIME’24的分数更是飙升到了68.1分。

6/6/2025 9:13:00 AM

性能大涨！阿里开源新版Qwen3模型，霸榜文本表征

今天凌晨，阿里巴巴开源了两款Qwen3系列新模型，Qwen3-Embedding和Qwen3-Reranker。这两个模型是专为文本表征、检索与排序任务设计，基于 Qwen3基础模型训练，充分继承了Qwen 3在多语言文本理解方面的优势，支持119种语言。根据测试数据显示，在多语言文本表征基准测试中，Qwen3 Embedding的性能非常出色。

6/6/2025 9:12:53 AM

让GPU不再摸鱼！清华蚂蚁联合开源首个全异步RL，一夜击穿14B SOTA

还记得今年初DeepSeek‑R1系列把纯强化学习（RL）训练开源，点燃社区对于RL的热情吗？不久后，来自清华蚂蚁联合开源项目AReaL（v0.1）也通过在DeepSeek-R1-Distill-Qwen-1.5B上进行RL训练，观察到模型性能的持续提升。 AReaL（v0.1）在40小时内，使用RL训练的一个1.5B参数模型，在数学推理方面就超越了o1-Preview版本。

6/6/2025 9:10:00 AM

真实联网搜索Agent，7B媲美满血R1，华为盘古DeepDiver给出开域信息获取新解法

大型语言模型 (LLM) 的发展日新月异，但实时「内化」与时俱进的知识仍然是一项挑战。如何让模型在面对复杂的知识密集型问题时，能够自主决策获取外部知识的策略？华为诺亚方舟实验室研究团队提出了 Pangu DeepDiver 模型，通过 Search Intensity Scaling 实现了 LLM 搜索引擎自主交互的全新范式，使得 Pangu 7B 模型在开域信息获取能力上可以接近百倍参数的 DeepSeek-R1，并优于 DeepResearcher、R1-Searcher 等业界同期工作！

6/6/2025 9:07:00 AM

AI摧毁就业？DeepMind CEO：这是一场比互联网更猛的职业洗牌

AI需要重大突破才能实现AGI吗？是的，但已经在路上！它会摧毁现有就业市场吗？

6/6/2025 9:04:00 AM

DeepMind揭惊人答案：智能体就是世界模型！跟Ilya 2年前预言竟不谋而合

就在刚刚，DeepMind科学家Jon Richens在ICML 2025上发表的论文，一石激起千层浪。实现人类水平的智能体（即AGI），是否需要世界模型，还是存在无模型的捷径？他们从第一性原理出发，揭示了一个令人惊讶的答案——智能体就是世界模型！

6/6/2025 9:02:00 AM

大模型结构化推理优势难复制到垂直领域！最新法律AI评估标准来了，抱抱脸评测集趋势第一

大模型推理，无疑是当下最受热议的科技话题之一。但在数学和物理等STEM之外，当LLM落到更多实际应用领域之中，大模型的推理能力又有多大的潜能和局限？比如，如何评估大模型的推理能力在法律领域的应用，就在当前备受关注。

6/6/2025 9:00:00 AM

LLM 协作革命：Group Think 如何重塑推理边界

大家好，我是肆〇柒。今天和大家聊聊 Group Think。顾名思义，它通过让单个 LLM 模拟多个并行推理智能体，并以 token 级别的细粒度协作，提出了推理协作的新范式。

6/6/2025 8:57:42 AM

肆零柒

谷歌更新 Gemini 2.5 Pro 预览版模型至 06-05 版本，多项 AI 性能基准测试评分提升

谷歌于今年 3 月底发布了 Gemini 2.5 Pro 模型，紧接着又在 4 月推出了面向更广泛用户的轻量级版本 Gemini 2.5 Flash。两者目前仍处于预览阶段，但 Flash 版本已可通过 Gemini App 向全球用户开放体验。目前，谷歌再度更新 Google AI Studio 中的 Gemin 2.5 Pro 模型（更新至 06-05 版本），并声称该模型刷新了多项 AI 性能基准“跑分”

6/6/2025 7:56:28 AM

漾仔

OpenAI付费企业用户猛增至300万直击微软谷歌AI腹地

OpenAI周三宣布，自2月份以来，其企业用户群激增了50%，付费企业客户已达300万，与此同时，这家AI公司推出了一系列全新的工作场所工具，旨在与微软的企业级AI产品展开直接竞争。这一里程碑是在推出几项新的面向企业的功能时公布的，凸显了OpenAI在可靠、安全的AI工具能够收取高价的企业市场中的积极扩张，该公司推出了新的“连接器”，这些连接器将ChatGPT与流行的商业应用程序集成在一起，还推出了一项名为“记录模式”(Record Mode)的会议转录功能，并对其深度研究(Deep Research)和Codex编码工具进行了增强。 “ChatGPT正在帮助企业转型，帮助员工更高效、更战略性地工作，”OpenAI的一位发言人告诉记者，“在过去的几个月里，我们一直在不断将ChatGPT发展成为一个对工作越来越有影响力的平台，提供了连接器、与ChatGPT集成的记录模式、Codex、图像生成、深度研究等商业产品。

6/6/2025 7:00:00 AM

Michael