资讯列表
刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3
在互联网信息检索任务中,即使是很强的LLM,有时也会陷入“信息迷雾”之中:当问题简单、路径明确时,模型往往能利用记忆或一两次搜索就找到答案;但面对高度不确定、线索模糊的问题,模型就很难做对。 举个例子,我们平常问一个直白的问题(比如“某城市的人口是多少”),搜索引擎一查即可。 但如果问题被设计得非常复杂,比如“这首与南美某首都密切相关的乐曲,其歌词作者在21世纪初获颁当地荣誉称号,其旋律创作者曾就读于哥伦比亚西部的一所著名艺术学院。
7/7/2025 4:25:40 PM
梦晨
开源Agent新标杆:通义WebSailor多榜夺魁,挑战OpenAI高难度Agent基准BrowseComp
一、背景:开源 Web Agent 在艰难任务中的困境与突破在信息爆炸的时代,传统搜索引擎难以满足用户对深层次、多步骤信息获取的需求。 从医学研究到科技创新,从商业决策到学术探索,许多复杂问题的解决都需要深入的信息挖掘和多步推理。 然而,人类在有限时间和精力下很难手工完成如此繁琐的检索与推理过程,这可以说触及了人类认知的极限。
7/7/2025 4:25:00 PM
机器之心
RoboTwin系列新作:开源大规模域随机化双臂操作数据合成器与评测基准集
本文一作:陈天行,TianxingChen.github.io,2025 级香港大学 MMLab 博士生,师从罗平教授。 在学术顶会以一作 / 共一发表多篇论文,获得 ECCV 协同具身智能研讨会 Best Paper,CVPR Highlight 等。 获得 CCF 优秀大学生等多项荣誉以及 20 余项国家级竞赛奖项。
7/7/2025 4:22:00 PM
机器之心
AI重塑合辑|从技术热潮到产业范式转移,WAIC共探企业新质生产力
WAIC 2025. 世界人工智能大会. 论坛:2025年7月26日-28日 上海世博中心.
7/7/2025 4:07:04 PM
量子位的朋友们
文娱合辑 | WAIC 2025:展现AI赋能文娱产业的中国式现代化实践
WAIC 2025. 世界人工智能大会. 论坛:2025年7月26日-28日 上海世博中心.
7/7/2025 3:49:46 PM
量子位的朋友们
让AI自主设计并执行生物实验,机器人生物学家开启实验室自动化新时代
编辑 | ScienceAI在生物研究中,重复性实验如细胞培养、优化参数往往耗时耗力,且受人为误差影响。 传统自动化方案(如液体处理机器人)虽能辅助,却缺乏灵活性 —— 面对复杂协议、动态实验条件时,常需人工干预,难以自主应对错误或优化设计。 如何让 AI 真正 “理解” 并执行生物实验,成为科研加速的关键瓶颈。
7/7/2025 2:18:00 PM
ScienceAI
重塑AI记忆边界:MemOS开源!时序推理较OpenAI提升159%
大模型记忆管理和优化框架是当前各大厂商争相优化的热点方向,MemOS 相比现有 OpenAI 的全局记忆在大模型记忆评测集上呈现出显著的提升,平均准确性提升超过 38.97%,Tokens 的开销进一步降低 60.95%,一举登顶记忆管理的 SOTA 框架,特别是在考验框架时序建模与检索能力的时序推理任务上,提升比例更是达到了 159%,相当震撼! 图 1. MemOS 项目官网报告的性能表现在大型语言模型(LLM)一路狂飙的这几年,参数规模和算力几乎成了 AI 能力的代名词。
7/7/2025 1:18:00 PM
机器之心
星动纪元完成近5亿元A轮融资!通用具身技术突破驱动商业化落地,产品批量交付全球科技巨头!
2025年7月7日,星动纪元宣布完成近5亿元A轮融资。 本轮融资由鼎晖VGC和海尔资本联合领投,厚雪资本、华映资本、襄禾资本、丰立智能等知名财务机构及产业资本跟投,老股东清流资本、清控基金等机构持续加码。 华兴资本担任本轮独家财务顾问。
7/7/2025 1:08:00 PM
新闻助手
新范式来了!新能量模型打破Transformer++扩展上限,训练扩展率快35%
是否可以在不依赖额外监督的前提下,仅通过无监督学习让模型学会思考? 答案有了。 在心理学领域,人类思维通常被划分为两种不同类型:系统 1(快速思维)和系统 2(慢速思维)。
7/7/2025 1:06:00 PM
机器之心
Stream-Omni:同时支持各种模态组合交互的文本-视觉-语音多模态大模型
GPT-4o式的多模态大模型(LMMs)展现出在文本、视觉和语音模态上的全能能力,其在线语音服务还能在语音交互过程中同步提供中间文本结果(即用户输入和模型响应的转录内容),为用户提供“边看边听”的灵活交互体验。 因此,如何构建支持文本、视觉和语音三种模态的多模态大模型成为近期研究热点。 现有的多模态大模型通常利用多个编码器提取各个模态的表示,然后将各模态表示沿序列维度拼接并输入至大语言模型基座中以生成回复。
7/7/2025 12:58:00 PM
机器之心
清华大学唯一持股具身智能企业“星动纪元”完成近 5 亿元 A 轮融资
AI在线 7 月 7 日消息,星动纪元今日宣布完成近 5 亿元 A 轮融资。 本轮融资由鼎晖 VGC 和海尔资本联合领投,厚雪资本、华映资本、襄禾资本、丰立智能等知名财务机构及产业资本跟投,老股东清流资本、清控基金等机构持续加码。 华兴资本担任本轮独家财务顾问。
7/7/2025 12:43:12 PM
归泷
Karpathy最新脑洞「细菌编程」:优秀的代码应该具备细菌的三大特质
西风 发自 凹非寺. 量子位 | 公众号 QbitAI像细菌一样编写代码! 创造出“氛围编程”、“软件3.0”的大神Karpathy又抛出一个新概念,引起网友广泛讨论——.
7/7/2025 12:21:02 PM
西风
精度高,速度快!西湖大学团队开发端到端电子显微镜图像分析深度学习模型
编辑 | 萝卜皮冷冻电镜拍图虽然很高清,但是 AI 解结构却像新手拼乐高——步骤繁琐易跑偏,算力烧钱还挑数据。 为了应对这些挑战,西湖大学与新加坡国立大学的研究人员提出了 end-to-end and efficient CryoFold(E3-CryoFold),这是一种支持端到端训练和一次性推理的深度学习方法。 E3-CryoFold 使用三维和序列 Transformer 从密度图和序列中提取特征,并使用交叉注意力模块整合这两种模态。
7/7/2025 10:19:00 AM
ScienceAI
与一支由虚拟科学家组成的 AI 团队共事是怎样的体验?
编辑丨%4 月的一个星期天早上,病理学家托马斯·蒙廷 (Thomas Montine) 召开了他一生中最超现实的会议之一。 在一个名为 Virtual Lab 的系统的在线测试界面中,Montine 构建了一个由六个人工智能(AI)角色组成的团队,所有角色都由商业大型语言模型提供支持。 他赋予了这些模型全新的身份:一对神经科学家,一位是神经药理学家,另一位是药物化学家。
7/7/2025 10:11:00 AM
ScienceAI
消息称B站推出 AI 创作工具“代号 H”,挖角发力视频播客
AI在线 7 月 7 日消息,据 Tech 星球今日爆料,B站正发力视频播客业务,平台即将推出一系列扶持政策,以及在B站内部项目名称为“代号 H”的 AI 创作工具。 所谓视频播客,即音频内容视频化。 爆料提到B站内部流出的一份《视频播客出圈计划营销合作规划》显示,B站将发布一系列针对音频及文字创作者视频化转型的扶持政策。
7/7/2025 8:14:12 AM
汪淼
B站开源动漫视频生成模型 AniSora V3 版,速度更快、质量更高
AI在线 7 月 7 日消息,B站团队的开源动漫视频生成模型 AniSora 于 7 月 2 日更新到 AniSora V3 预览版。 作为 Index-AniSora 项目的一部分,V3 版本在原有基础上进一步优化了生成质量、动作流畅度和风格多样性,为动漫、漫画及 VTuber 内容创作者提供了更强大的工具。 AniSora 支持一键生成多种动漫风格的视频镜头,包括番剧片段、国创动画、漫画改编、VTuber 内容、动画 PV、鬼畜(MAD)等。
7/7/2025 7:46:51 AM
汪淼
字节跳动开源其 AI IDE 工具核心组件 Trae-Agent
AI在线 7 月 7 日消息,字节跳动旗下 AI 原生集成开发环境(IDE)Trae 于 7 月 4 日宣布正式开源其核心组件 Trae-Agent。 Trae 官方还表示,正在寻找活跃的用户和智能体开发者,需要愿意为构建一个开放的智能体生态系统做出贡献。 GitHub 页面显示,Trae Agent 是一个基于 LLM 通用软件工程任务的智能体。
7/7/2025 7:33:54 AM
汪淼
Lovart国产版超全测评!10分钟做了我一周的工作量!
嗨大家好! 今天是星流 AI 操作员阿真! 之前我有分享过 Lovart 也就是第一个设计 Agent,整合多种 AI 模型来一站式完成概念到成品的创意过程。
7/7/2025 12:30:19 AM
阿真Irene