AI
阿里智能体多轮推理超越GPT-4o,开源模型也能做Deep Research
能够完成多步信息检索任务,涵盖多轮推理与连续动作执行的智能体来了。 通义实验室推出WebWalker(ACL2025)续作自主信息检索智能体WebDancer。 WebDancer 通过系统化的训练范式——涵盖从数据构建到算法设计的全流程——为构建具备长期信息检索能力的智能体提供了明确路径。
清华给电子显微镜加上Agent,DeepSeek V3全程调度,数天流程缩短至几分钟
AI Agent又解锁了一个领域! 清华大学牵头,与西北工业大学以及上海AI lab等机构推出了电镜领域的AI agent——AutoMat。 它相当于一位精准的“地图翻译官”,把原子级 STEM 图像自动转成标准 CIF 结构,并一步到位给出形成能等关键物性。
苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著
AI「思考」只是假象? 刚刚,一项来自苹果的重磅研究揭示了「大推理模型(LRM)」背后的惊人真相——这些看似聪明的模型,在面对稍复杂点的题目时,准确率居然会全面崩溃! 随着问题变难,推理模型初始会延长思考,但随后思考深度反而下降,尽管仍有充足token预算——它们恰在最需要深入思考时选择了放弃!
谷歌 DeepMind CEO 观点:AI 有望减少人类自私行为、提升同理心
科技媒体 Android Headline 今天(6 月 6 日)发布博文,报道称谷歌 DeepMind 首席执行官戴密斯・哈萨比斯(Demis Hassabis)提出新观点,AI 能减少人类自私行为,通过提供更多信息和促进沟通,增强人们的同理心。
谷歌上线 Portraits AI 实验项目,专家在线解决职场困惑
Google Labs 昨日(6 月 5 日)发布是博文,宣布推出实验项目 Portraits,旨在通过 AI 技术让用户与值得信赖的专家进行对话式互动。
AI 能有“灵魂”吗?OpenAI 探讨人类与 AI 的情感纽带
文章探讨了人类为何对 AI 产生情感连接、如何看待“AI 意识”问题,以及如何设计模型行为以平衡亲和力与界限。OpenAI 强调,AI 应服务于人,未来将通过社会科学研究和用户反馈,持续优化模型对人类情感福祉的影响。
Claude 聊天机器人升级:新检索模式助力内容管理
来自 AI 初创公司 Anthropic 的 Claude 聊天机器人即将迎来一项重要升级,新的 “检索” 模式将使其在 “项目” 功能中处理内容的能力提高十倍。 这一改进意味着,用户在使用 Claude 时,即使超过了常规的内容限制,聊天机器人也能自动切换到新的检索模式,扩展其记忆存储。 这项升级将很快在所有付费的 Claude 计划中推行。
AI Agent 产品交互设计:设计模式与案例分析
作者 | 贾思玉、亢江妹 或许你还记得 ChatGPT 问世时的轰动,第一次使用 DeepSeek R1 的兴奋和激动也历历在目。 AI Agent 发展一日千里,今年以来,几乎每个月都有新的 AI Agent 产品发布,现有产品也不断更新换代,让人目不暇接。 本文将从体验设计视角,来看看当下热门的 AI Agent 产品,如 Manus、Flowith、Gemini Deep Research、Cursor、Devin 等,分析 Agent 产品面临的设计挑战,探讨有效的交互设计模式,以及如何打造高效、易用、友好的 Agent 交互体验。
0day 漏洞量产?AI Agent “生产线”曝光
作者 | 悟空团队 — 新一代 AI 代码安全捉“妖”行者(原腾讯AI安全-啄木鸟团队)随着AI技术的迅猛发展,AI智能体在0day漏洞挖掘领域展现出前所未有的潜力。 本文将深入探讨AI Agent如何通过创新的多智能体协作系统,打造出高效的0day漏洞“生产线”,实现自动化的漏洞检测。 通过基准测试和实战验证,Agent在复杂代码和大型项目中的表现超越传统工具,极大提升了漏洞识别效率与准确性。
用Cursor / Trae AI 开发Go项目时,记得先做这些
这几天“字节内部禁止使用Cursor 等AI 编程工具” 的新闻挂上了热搜, 字节自己的AI 编程工具 Trae 也趁机开始了收费模式,这两个新闻同时出现,字节还是挺会炒作的。 随着Trae 的收费,我对Trae 长达半年的白嫖也算是到头了, 不过好在公司每月给报销Cursor的费用,不然现在没有AI让我手敲代码我还真有点不习惯。 现在我几乎所有代码都让AI先写一遍自己再微调,甚至连一条SQL都懒得敲。
危险?OpenAI 模型行为负责人:人类很快会进入「AI意识」,当前最重要是控制人机关系的影响
AI是否真的有意识? ChatGPT最近越来越懂你了? OpenAI模型行为与政策负责人Joanne Jang刚刚写了一篇长文,她并未纠缠于“AI是否真的有意识”这个哲学难题,而是提出了一个更具现实意义和紧迫性的视角:与其争论AI的“本体”,不如关注它对人类“情感福祉”的实际影响。
精准调控大模型生成与推理!浙大&腾讯新方法尝试为其注入“行为定向剂”
如果你面前有两个AI助手:一个能力超强却总爱“离经叛道”,另一个规规矩矩却经常“答非所问”,你会怎么选? 这正是当前大模型控制面临的两难困境:要么模型聪明却难以约束,要么守规矩却缺乏实用性。 但我们真正追求的,并不是在“聪明但难控”与“听话但愚钝”之间二选一,而是打造既强又好的AI助手——既具备强大的智能能力,又能始终按照人类意图行事。
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
近期arxiv最热门论文,Qwen&清华LeapLab团队最新成果:在强化学习训练大模型推理能力时,仅仅20%的高熵token就能撑起整个训练效果,甚至比用全部token训练还要好。 团队用这个发现在Qwen3-32B上创造了新的SOTA记录:AIME’24上达到63.5分,AIME’25上达到56.7分,这是600B参数以下直接从base模型训练的最高分。 最大响应长度从20k延长到29k,AIME’24的分数更是飙升到了68.1分。
性能大涨!阿里开源新版Qwen3模型,霸榜文本表征
今天凌晨,阿里巴巴开源了两款Qwen3系列新模型,Qwen3-Embedding和Qwen3-Reranker。 这两个模型是专为文本表征、检索与排序任务设计,基于 Qwen3基础模型训练,充分继承了Qwen 3在多语言文本理解方面的优势,支持119种语言。 根据测试数据显示,在多语言文本表征基准测试中,Qwen3 Embedding的性能非常出色。
让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA
还记得今年初DeepSeek‑R1系列把纯强化学习(RL)训练开源,点燃社区对于RL的热情吗? 不久后,来自清华蚂蚁联合开源项目AReaL(v0.1)也通过在DeepSeek-R1-Distill-Qwen-1.5B上进行RL训练,观察到模型性能的持续提升。 AReaL(v0.1)在40小时内,使用RL训练的一个1.5B参数模型,在数学推理方面就超越了o1-Preview版本。
真实联网搜索Agent,7B媲美满血R1,华为盘古DeepDiver给出开域信息获取新解法
大型语言模型 (LLM) 的发展日新月异,但实时「内化」与时俱进的知识仍然是一项挑战。 如何让模型在面对复杂的知识密集型问题时,能够自主决策获取外部知识的策略? 华为诺亚方舟实验室研究团队提出了 Pangu DeepDiver 模型,通过 Search Intensity Scaling 实现了 LLM 搜索引擎自主交互的全新范式,使得 Pangu 7B 模型在开域信息获取能力上可以接近百倍参数的 DeepSeek-R1,并优于 DeepResearcher、R1-Searcher 等业界同期工作!
AI摧毁就业?DeepMind CEO:这是一场比互联网更猛的职业洗牌
AI需要重大突破才能实现AGI吗? 是的,但已经在路上! 它会摧毁现有就业市场吗?
DeepMind揭惊人答案:智能体就是世界模型!跟Ilya 2年前预言竟不谋而合
就在刚刚,DeepMind科学家Jon Richens在ICML 2025上发表的论文,一石激起千层浪。 实现人类水平的智能体(即AGI),是否需要世界模型,还是存在无模型的捷径? 他们从第一性原理出发,揭示了一个令人惊讶的答案——智能体就是世界模型!
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
AI新词
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
英伟达
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
代码
AI for Science
苹果
算法
腾讯
Agent
Claude
芯片
Stable Diffusion
具身智能
xAI
蛋白质
开发者
人形机器人
生成式
神经网络
机器学习
AI视频
3D
RAG
大语言模型
字节跳动
Sora
百度
研究
GPU
生成
工具
华为
AGI
计算
大型语言模型
AI设计
生成式AI
搜索
视频生成
亚马逊
AI模型
特斯拉
DeepMind
场景
深度学习
Transformer
Copilot
架构
MCP
编程
视觉