AI在线 AI在线

AI

香港首个商业AI展「AI+ Power 2025」盛大开幕,本地及海外行业精英齐聚共探AI发展

(香港,2025年6月5日)——由BUSINESS GOVirtual(BGOV)主办的「AI Power 2025」今日在香港会议展览中心举行。 作为香港首个聚焦商业AI应用的行业盛会,展会汇聚本地及海外顶尖科技企业、初创团队与行业领袖,全方位展示AI技术在金融、零售、教育、营销等领域的创新解决方案,助力企业降本增效、挖掘增长新动能。 为期两天的活动将呈现前沿技术演示、行业论坛及商业对接,为香港乃至大湾区企业提供AI转型的重要平台。
6/6/2025 2:31:00 PM
洪雨欣

12.1万高难度数学题让模型性能大涨,覆盖FIMO/Putnam等顶级赛事难度,腾讯上海交大出品

12.1万道IMO级难度数学“特训题”,让AI学会像人类一样推导数学证明! “特训”过后,模型定理证明性能大涨,7B模型性能比肩或超越现有的开源模型和Claude3.7等商业模型。 “特训题”为DeepTheorem,是首个基于自然语言的数学定理证明框架与数据集,由腾讯AI Lab与上海交大团队联合推出。
6/6/2025 2:25:04 PM

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

没等来o3 Pro和GPT-5,隔壁谷歌的Gemini先更新了。 深夜,谷歌通过等多个账号同时官宣,Gemini 2.5 Pro再次推出新版本(0605)。 新版本在代码、推理等任务上的表现更上一层楼,在超难数据集“人类最后的考试”中以21.6%的成绩超过了o3。
6/6/2025 2:23:48 PM

阿里智能体多轮推理超越GPT-4o,开源模型也能做Deep Research

能够完成多步信息检索任务,涵盖多轮推理与连续动作执行的智能体来了。 通义实验室推出WebWalker(ACL2025)续作自主信息检索智能体WebDancer。 WebDancer 通过系统化的训练范式——涵盖从数据构建到算法设计的全流程——为构建具备长期信息检索能力的智能体提供了明确路径。
6/6/2025 2:17:11 PM

清华给电子显微镜加上Agent,DeepSeek V3全程调度,数天流程缩短至几分钟

AI Agent又解锁了一个领域! 清华大学牵头,与西北工业大学以及上海AI lab等机构推出了电镜领域的AI agent——AutoMat。 它相当于一位精准的“地图翻译官”,把原子级 STEM 图像自动转成标准 CIF 结构,并一步到位给出形成能等关键物性。
6/6/2025 2:14:09 PM

苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著

AI「思考」只是假象? 刚刚,一项来自苹果的重磅研究揭示了「大推理模型(LRM)」背后的惊人真相——这些看似聪明的模型,在面对稍复杂点的题目时,准确率居然会全面崩溃! 随着问题变难,推理模型初始会延长思考,但随后思考深度反而下降,尽管仍有充足token预算——它们恰在最需要深入思考时选择了放弃!
6/6/2025 2:13:46 PM

谷歌 DeepMind CEO 观点:AI 有望减少人类自私行为、提升同理心

科技媒体 Android Headline 今天(6 月 6 日)发布博文,报道称谷歌 DeepMind 首席执行官戴密斯・哈萨比斯(Demis Hassabis)提出新观点,AI 能减少人类自私行为,通过提供更多信息和促进沟通,增强人们的同理心。
6/6/2025 2:06:12 PM
故渊

谷歌上线 Portraits AI 实验项目,专家在线解决职场困惑

Google Labs 昨日(6 月 5 日)发布是博文,宣布推出实验项目 Portraits,旨在通过 AI 技术让用户与值得信赖的专家进行对话式互动。
6/6/2025 12:27:15 PM
故渊

AI 能有“灵魂”吗?OpenAI 探讨人类与 AI 的情感纽带

文章探讨了人类为何对 AI 产生情感连接、如何看待“AI 意识”问题,以及如何设计模型行为以平衡亲和力与界限。OpenAI 强调,AI 应服务于人,未来将通过社会科学研究和用户反馈,持续优化模型对人类情感福祉的影响。
6/6/2025 11:18:05 AM
故渊

​Claude 聊天机器人升级:新检索模式助力内容管理

来自 AI 初创公司 Anthropic 的 Claude 聊天机器人即将迎来一项重要升级,新的 “检索” 模式将使其在 “项目” 功能中处理内容的能力提高十倍。 这一改进意味着,用户在使用 Claude 时,即使超过了常规的内容限制,聊天机器人也能自动切换到新的检索模式,扩展其记忆存储。 这项升级将很快在所有付费的 Claude 计划中推行。
6/6/2025 11:00:55 AM
AI在线

AI Agent 产品交互设计:设计模式与案例分析

作者 | 贾思玉、亢江妹 或许你还记得 ChatGPT 问世时的轰动,第一次使用 DeepSeek R1 的兴奋和激动也历历在目。 AI Agent 发展一日千里,今年以来,几乎每个月都有新的 AI Agent 产品发布,现有产品也不断更新换代,让人目不暇接。 本文将从体验设计视角,来看看当下热门的 AI Agent 产品,如 Manus、Flowith、Gemini Deep Research、Cursor、Devin 等,分析 Agent 产品面临的设计挑战,探讨有效的交互设计模式,以及如何打造高效、易用、友好的 Agent 交互体验。
6/6/2025 9:46:57 AM
Thoughtworks洞见

0day 漏洞量产?AI Agent “生产线”曝光

作者 | 悟空团队 — 新一代 AI 代码安全捉“妖”行者(原腾讯AI安全-啄木鸟团队)随着AI技术的迅猛发展,AI智能体在0day漏洞挖掘领域展现出前所未有的潜力。 本文将深入探讨AI Agent如何通过创新的多智能体协作系统,打造出高效的0day漏洞“生产线”,实现自动化的漏洞检测。 通过基准测试和实战验证,Agent在复杂代码和大型项目中的表现超越传统工具,极大提升了漏洞识别效率与准确性。
6/6/2025 9:29:16 AM
腾讯程序员

用Cursor / Trae AI 开发Go项目时,记得先做这些

这几天“字节内部禁止使用Cursor 等AI 编程工具” 的新闻挂上了热搜, 字节自己的AI 编程工具 Trae 也趁机开始了收费模式,这两个新闻同时出现,字节还是挺会炒作的。 随着Trae 的收费,我对Trae 长达半年的白嫖也算是到头了, 不过好在公司每月给报销Cursor的费用,不然现在没有AI让我手敲代码我还真有点不习惯。 现在我几乎所有代码都让AI先写一遍自己再微调,甚至连一条SQL都懒得敲。
6/6/2025 9:18:17 AM
网管叨bi叨

危险?OpenAI 模型行为负责人:人类很快会进入「AI意识」,当前最重要是控制人机关系的影响

AI是否真的有意识? ChatGPT最近越来越懂你了? OpenAI模型行为与政策负责人Joanne Jang刚刚写了一篇长文,她并未纠缠于“AI是否真的有意识”这个哲学难题,而是提出了一个更具现实意义和紧迫性的视角:与其争论AI的“本体”,不如关注它对人类“情感福祉”的实际影响。
6/6/2025 9:15:52 AM

精准调控大模型生成与推理!浙大&腾讯新方法尝试为其注入“行为定向剂”

如果你面前有两个AI助手:一个能力超强却总爱“离经叛道”,另一个规规矩矩却经常“答非所问”,你会怎么选? 这正是当前大模型控制面临的两难困境:要么模型聪明却难以约束,要么守规矩却缺乏实用性。 但我们真正追求的,并不是在“聪明但难控”与“听话但愚钝”之间二选一,而是打造既强又好的AI助手——既具备强大的智能能力,又能始终按照人类意图行事。
6/6/2025 9:15:00 AM

Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

近期arxiv最热门论文,Qwen&清华LeapLab团队最新成果:在强化学习训练大模型推理能力时,仅仅20%的高熵token就能撑起整个训练效果,甚至比用全部token训练还要好。 团队用这个发现在Qwen3-32B上创造了新的SOTA记录:AIME’24上达到63.5分,AIME’25上达到56.7分,这是600B参数以下直接从base模型训练的最高分。 最大响应长度从20k延长到29k,AIME’24的分数更是飙升到了68.1分。
6/6/2025 9:13:00 AM

性能大涨!阿里开源新版Qwen3模型,霸榜文本表征

今天凌晨,阿里巴巴开源了两款Qwen3系列新模型,Qwen3-Embedding和Qwen3-Reranker。 这两个模型是专为文本表征、检索与排序任务设计,基于 Qwen3基础模型训练,充分继承了Qwen 3在多语言文本理解方面的优势,支持119种语言。 根据测试数据显示,在多语言文本表征基准测试中,Qwen3 Embedding的性能非常出色。
6/6/2025 9:12:53 AM

让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA

还记得今年初DeepSeek‑R1系列把纯强化学习(RL)训练开源,点燃社区对于RL的热情吗? 不久后,来自清华蚂蚁联合开源项目AReaL(v0.1)也通过在DeepSeek-R1-Distill-Qwen-1.5B上进行RL训练,观察到模型性能的持续提升。 AReaL(v0.1)在40小时内,使用RL训练的一个1.5B参数模型,在数学推理方面就超越了o1-Preview版本。
6/6/2025 9:10:00 AM